GPT-4 diante do espelho: O desafio dos testes de raciocínio analógico e a fragilidade da inteligência artificial.

A codificação em sequências numéricas: uma técnica questionada

No campo da inteligência artificial, a codificação de elementos como forma, cor e posição em sequências numéricas para realizar testes é uma prática comum. Essa técnica tem sido utilizada por pesquisadores renomados como o Dr. Webb, cujo trabalho tem causado admiração em muitos profissionais do setor, incluindo a Dra. Mitchell. No entanto, Mitchell tem algumas reservas sobre esse método.

Mitchell é responsável pela criação do ConceptARC, um teste de raciocínio analógico que utiliza sequências codificadas de formas extraídas do conjunto de dados ARC. Nessas provas, o GPT-4, um modelo avançado de linguagem generativa, obteve resultados inferiores aos humanos.

A principal objeção de Mitchell à codificação em sequências numéricas reside no fato de que isso simplifica o problema ao eliminar seu aspecto visual. Segundo seu critério, resolver matrizes de dígitos não é equivalente a resolver problemas de Raven, um teste padrão de raciocínio abstrato.

A fragilidade dos testes atuais

Além disso, os testes utilizados para avaliar modelos de linguagem extensos como o GPT-4 têm se mostrado frágeis. Uma pequena alteração em um teste pode fazer com que a pontuação de um modelo passe de excelente para insuficiente. Isso questiona a eficácia e precisão desses testes para realmente avaliar as capacidades desses modelos.

Lucy Cheke, outra especialista na área, também critica que as avaliações atuais não permitem entender as capacidades reais dos modelos. Argumenta que não é útil extrapolar as habilidades gerais a partir do desempenho em uma tarefa específica.

Casos ilustrativos e conclusões

Um caso recente com o GPT-4 ilustra esse ponto. Uma equipe da Microsoft identificou “faíscas de inteligência geral artificial” no GPT-4 quando ele respondeu corretamente sobre como empilhar objetos. No entanto, quando os objetos foram trocados por outros mais delicados, o GPT-4 falhou.

Em conclusão, embora os avanços em inteligência artificial sejam impressionantes e promissores, ainda há muito a aprender sobre como avaliar e entender verdadeiramente essas capacidades. As críticas e reservas expressas por especialistas como Mitchell e Cheke destacam a necessidade de continuar pesquisando e desenvolvendo métodos mais robustos e precisos para medir a inteligência artificial.

Susana Meijomil

Susana é uma profissional destacada em marketing e comunicação, criadora de conteúdo e especialista em SEO. Ela é formada em Psicologia pela Universidade de Santiago de Compostela e tem um mestrado em Marketing e Comportamento do Consumidor pela Universidade de Granada e Universidade de Jaén. Além disso, compartilhou seus conhecimentos através de conferências e workshops. Com ampla experiência em estratégias de marketing e comunicação, Susana conseguiu otimizar a visibilidade e o posicionamento das marcas através de técnicas de SEO.

Esta entrada também está disponível em: Español Français