Um quadro inovador para corrigir alucinações em modelos de linguagem
Pesquisadores da Universidade de Ciência e Tecnologia da China e do Tencent YouTu Lab desenvolveram um quadro inovador chamado “Woodpecker“. Este quadro é projetado para corrigir as alucinações nos modelos de linguagem multimodal grande (MLLMs), uma inconsistência entre o texto gerado e o conteúdo da imagem. As soluções existentes para este problema geralmente requerem o re-treinamento dos modelos com dados específicos, um processo intensivo tanto em dados quanto em cálculos.
Woodpecker: Um método sem treinamento
O quadro Woodpecker introduz um método sem treinamento para corrigir as alucinações. Este realiza correções após um diagnóstico exaustivo, incorporando cinco etapas: extração de conceitos-chave, formulação de perguntas, validação do conhecimento visual, geração de afirmações visuais e correção de alucinações.
O funcionamento do framework Woodpecker começa identificando os principais objetos mencionados no texto. Em seguida, formula perguntas sobre esses objetos extraídos. Responde a estas perguntas usando modelos especialistas em um processo chamado validação do conhecimento visual. Posteriormente, converte os pares de perguntas-respostas em uma base de conhecimento visual. Finalmente, modifica as alucinações e adiciona a evidência correspondente sob a orientação desta base de conhecimento visual.
Impacto e aplicações potenciais
Os pesquisadores liberaram o código-fonte do Woodpecker para exploração e aplicação pela comunidade de Inteligência Artificial (IA). Para avaliar sua eficácia, foram realizados experimentos quantitativos e qualitativos. Os resultados mostram um aumento significativo na precisão dos modelos base.
O desenvolvimento do Woodpecker representa um passo crucial para abordar o problema das alucinações em MLLMs. Este framework tem o potencial de melhorar significativamente a precisão e confiabilidade dos sistemas de IA em diversas aplicações, o que poderia ter um impacto significativo na maneira como interagimos e usamos a tecnologia em nossa vida cotidiana.
Sarah é, além de uma especialista em marketing digital, uma criadora de conteúdo com vasta experiência no campo. Graduada em Sociologia pela Universidade de Barcelona e com uma Pós-graduação em Marketing Digital pelo Inesdi, Sarah conseguiu se destacar como Diretora de Marketing Digital. Seu profundo conhecimento das tendências digitais e sua habilidade para identificar oportunidades de crescimento foram fundamentais para o sucesso de inúmeras campanhas. Além disso, ela dá aulas e palestras em prestigiosas escolas de negócios, universidades e eventos, compartilhando seus conhecimentos e experiências com outros profissionais e estudantes.