Pica-pau: O revolucionário framework chinês que corrige alucinações em modelos de linguagem multimodal e promete melhorar a precisão da Inteligência Artificial

Um quadro inovador para corrigir alucinações em modelos de linguagem

Pesquisadores da Universidade de Ciência e Tecnologia da China e do Tencent YouTu Lab desenvolveram um quadro inovador chamado “Woodpecker“. Este quadro é projetado para corrigir as alucinações nos modelos de linguagem multimodal grande (MLLMs), uma inconsistência entre o texto gerado e o conteúdo da imagem. As soluções existentes para este problema geralmente requerem o re-treinamento dos modelos com dados específicos, um processo intensivo tanto em dados quanto em cálculos.

Woodpecker: Um método sem treinamento

O quadro Woodpecker introduz um método sem treinamento para corrigir as alucinações. Este realiza correções após um diagnóstico exaustivo, incorporando cinco etapas: extração de conceitos-chave, formulação de perguntas, validação do conhecimento visual, geração de afirmações visuais e correção de alucinações.

O funcionamento do framework Woodpecker começa identificando os principais objetos mencionados no texto. Em seguida, formula perguntas sobre esses objetos extraídos. Responde a estas perguntas usando modelos especialistas em um processo chamado validação do conhecimento visual. Posteriormente, converte os pares de perguntas-respostas em uma base de conhecimento visual. Finalmente, modifica as alucinações e adiciona a evidência correspondente sob a orientação desta base de conhecimento visual.

Impacto e aplicações potenciais

Os pesquisadores liberaram o código-fonte do Woodpecker para exploração e aplicação pela comunidade de Inteligência Artificial (IA). Para avaliar sua eficácia, foram realizados experimentos quantitativos e qualitativos. Os resultados mostram um aumento significativo na precisão dos modelos base.

O desenvolvimento do Woodpecker representa um passo crucial para abordar o problema das alucinações em MLLMs. Este framework tem o potencial de melhorar significativamente a precisão e confiabilidade dos sistemas de IA em diversas aplicações, o que poderia ter um impacto significativo na maneira como interagimos e usamos a tecnologia em nossa vida cotidiana.

Sarah Vercheval

Sarah é, além de uma especialista em marketing digital, uma criadora de conteúdo com vasta experiência no campo. Graduada em Sociologia pela Universidade de Barcelona e com uma Pós-graduação em Marketing Digital pelo Inesdi, Sarah conseguiu se destacar como Diretora de Marketing Digital. Seu profundo conhecimento das tendências digitais e sua habilidade para identificar oportunidades de crescimento foram fundamentais para o sucesso de inúmeras campanhas. Além disso, ela dá aulas e palestras em prestigiosas escolas de negócios, universidades e eventos, compartilhando seus conhecimentos e experiências com outros profissionais e estudantes.

Esta entrada também está disponível em: Español Français