FastBERT: A revolução das redes neurais graças à técnica de aceleração desenvolvida pela ETH Zurich

Avanço em Inteligência Artificial: Redução de Cálculos em Redes Neurais

Uma equipe de pesquisadores da ETH Zurich desenvolveu uma técnica revolucionária que tem o potencial de acelerar as redes neurais. Esta inovação poderia reduzir mais de 99% dos cálculos em modelos como BERT e GPT-3, o que representa um avanço significativo para a criação de sistemas de inteligência artificial mais eficientes e poderosos.

Camadas de Avanço Rápido: Uma Solução para a Exigência Computacional

As redes neurais, especialmente os transformadores que são a base dos modelos de linguagem, consistem em várias camadas, incluindo camadas de atenção e camadas de avanço. Estas últimas são computacionalmente exigentes e podem desacelerar o processo geral. Para resolver este problema, os pesquisadores propõem a introdução de “camadas de avanço rápido” (FFF) em vez das tradicionais.

As FFF operam por meio de uma operação matemática chamada multiplicação matricial condicional (CMM), que substitui as multiplicações matriciais densas (DMM) utilizadas pelas redes convencionais. Ao identificar os neurônios corretos para cada cálculo, as FFF podem reduzir significativamente a carga computacional.

FastBERT: Teste Bem-sucedido e Potencial para Melhorias Futuras

Para testar essa nova técnica, os pesquisadores desenvolveram o FastBERT, uma modificação do modelo transformador BERT do Google. O FastBERT substitui as camadas intermediárias de avanço por camadas de avanço rápido. Em testes realizados em várias tarefas do benchmark GLUE, o FastBERT obteve resultados comparáveis aos modelos BERT base.

O potencial para acelerar os modelos de linguagem em larga escala (LLMs) é considerável. No GPT-3, por exemplo, as redes de avanço em cada camada transformadora poderiam ser substituídas por FFF, o que poderia acelerar significativamente o modelo.

Apesar da promessa dessa técnica, ainda há espaço para melhorias. Embora a multiplicação matricial densa tenha sido otimizada, a multiplicação matricial condicional ainda não tem uma implementação eficiente. Os pesquisadores desenvolveram sua própria implementação de operações CMM, alcançando uma melhoria de velocidade de 78x durante a inferência. No entanto, com hardware melhor e uma implementação de baixo nível do algoritmo, poderia haver um potencial de melhoria de mais de 300x na velocidade de inferência.

Este estudo faz parte de um esforço maior para abordar os gargalos de memória e cálculo nos grandes modelos de linguagem. O objetivo final é pavimentar o caminho para sistemas de IA mais eficientes e poderosos. Com avanços como este, estamos um passo mais perto desse objetivo.

Sarah Vercheval

Sarah é, além de uma especialista em marketing digital, uma criadora de conteúdo com vasta experiência no campo. Graduada em Sociologia pela Universidade de Barcelona e com uma Pós-graduação em Marketing Digital pelo Inesdi, Sarah conseguiu se destacar como Diretora de Marketing Digital. Seu profundo conhecimento das tendências digitais e sua habilidade para identificar oportunidades de crescimento foram fundamentais para o sucesso de inúmeras campanhas. Além disso, ela dá aulas e palestras em prestigiosas escolas de negócios, universidades e eventos, compartilhando seus conhecimentos e experiências com outros profissionais e estudantes.

Esta entrada também está disponível em: Español Français