O Projeto BIG-bench e o Comportamento de “Avanço”
O projeto Beyond the Imitation Game benchmark (BIG-bench), uma iniciativa que contou com a participação de 450 pesquisadores, desenvolveu 204 tarefas com o propósito de avaliar os modelos de linguagem em grande escala. Os resultados mostraram uma melhoria previsível na maioria das tarefas à medida que os modelos são escalados. No entanto, algumas tarefas revelaram um salto abrupto na habilidade, um fenômeno que os pesquisadores denominaram como comportamento de “avanço”.
Este comportamento de “avanço” foi comparado a uma transição de fase em física. Um estudo publicado em agosto de 2022 indica que esses comportamentos são surpreendentes e imprevisíveis. Este fenômeno ganhou relevância nas discussões sobre segurança, potencial e risco da Inteligência Artificial (IA). As habilidades que se manifestam neste comportamento são descritas como “emergentes”, ou seja, surgem apenas quando o sistema atinge um alto nível de complexidade.
Críticas à Teoria da Emergência
No entanto, a teoria da emergência tem sido objeto de crítica. Um recente estudo da Universidade de Stanford sustenta que o surgimento dessas habilidades é simplesmente uma consequência de como o desempenho dos modelos de linguagem é medido. De acordo com os pesquisadores de Stanford, as habilidades não são imprevisíveis nem repentinas. Sanmi Koyejo, autor principal do estudo, argumenta que a transição é mais previsível do que se acredita.
Os Modelos de Linguagem em Grande Escala e seu Impacto na IA
Os modelos de linguagem em grande escala são treinados analisando enormes conjuntos de dados de texto e estabelecendo conexões entre palavras que costumam aparecer juntas. O tamanho desses modelos é medido em termos de parâmetros, que são aproximadamente todas as formas em que as palavras podem se conectar. Exemplos desses modelos são GPT-2, com 1,5 bilhão de parâmetros, GPT-3.5, com 350 bilhões de parâmetros, e GPT-4, com 1,75 trilhão de parâmetros.
O crescimento acelerado desses modelos gerou um aumento impressionante no desempenho e na eficácia. Os modelos maiores podem completar tarefas que os modelos menores não podem, mesmo aquelas para as quais não foram treinados. Os pesquisadores de Stanford reconhecem que os modelos se tornam mais eficazes à medida que são escalados. No entanto, argumentam que a melhoria pode parecer suave e previsível ou abrupta e aguda dependendo da métrica escolhida ou da escassez de exemplos de teste, não das operações internas do modelo.
Em conclusão, o debate sobre o comportamento de “avanço” e a teoria da emergência em modelos de linguagem em grande escala persiste. Enquanto alguns pesquisadores veem nesses fenômenos um potencial e um risco imprevisíveis, outros sustentam que são simplesmente o resultado de como o desempenho desses modelos é medido. O que é indiscutível é que o rápido crescimento e a melhoria do desempenho desses modelos estão transformando o panorama da Inteligência Artificial.
Sandra é especialista em marketing digital e experta em redes sociais. Ela completou uma pós-graduação em Comunicação e RP para marcas de moda no Idep Barcelona, além de outra em Marketing e reputação online: comunidades virtuais. Sandra está a par das últimas tendências e melhores práticas em redes sociais, e isso se reflete em seu trabalho diário, gerando um impacto positivo no mundo digital.