Galileo Desvela el Índice de Alucinaciones: Una Herramienta Innovadora para Evaluar Modelos de Lenguaje de Gran Tamaño

noviembre 16, 2023

Galileo Desarrolla Índice para Medir Alucinaciones en Modelos de Lenguaje

El gigante de la inteligencia artificial, Galileo, ha creado un innovador índice de alucinaciones para determinar qué modelo de lenguaje de gran tamaño (LLM) es más eficiente y genera menos alucinaciones. Este índice es una respuesta a los desafíos que las alucinaciones presentan en los LLMs, un obstáculo que ha dificultado su implementación en producción.

Las alucinaciones en los LLMs se refieren a la generación de información falsa o inexistente por parte de estos modelos. Esta problemática ha llevado a la necesidad de una medición exhaustiva y precisa para evaluar la propensión a alucinar de los LLMs y así poder mejorar su rendimiento.

Metodología del Índice y Resultados Obtenidos

Para desarrollar el índice, Galileo seleccionó once LLMs populares, tanto de código abierto como cerrado. La evaluación se basó en tres tareas comunes: preguntas y respuestas sin recuperación, tareas relacionadas con la recuperación y generación de textos largos. Para probar los LLMs, se utilizaron siete conjuntos de datos populares. Además, Galileo creó métricas propias para evaluar la precisión y la adherencia al contexto.

Los resultados del índice revelaron que el modelo GPT-4-0613 de OpenAI obtuvo el mejor rendimiento en preguntas y respuestas sin recuperación y en tareas relacionadas con la recuperación. Para generar textos largos, GPT-4-0613 y Llama-2-70b obtuvieron los mejores resultados.

Recomendaciones y Futuras Actualizaciones del Índice

A pesar del buen rendimiento del GPT-4-0613, su coste puede ser elevado. Por ello, Galileo recomienda modelos alternativos para equilibrar rendimiento y coste, una consideración crucial para las empresas que buscan implementar estas tecnologías.

Galileo tiene previsto actualizar el índice trimestralmente, con la finalidad de que se convierta en una herramienta útil para los equipos que trabajan con IA generativa. Este índice permitirá a los desarrolladores y científicos de datos seleccionar el modelo más adecuado para sus necesidades, optimizando así la eficiencia y la precisión de sus proyectos.

Clara Gil

Clara es creadora y editora de contenidos, con una sólida formación en ciencias y una especialización en inteligencia artificial. Su pasión por este campo en constante evolución la ha llevado a adquirir los conocimientos necesarios para comprender y comunicar los avances más recientes en este campo. Con su experiencia y habilidades en la redacción y edición de contenidos, Clara es capaz de transmitir de manera clara y efectiva conceptos complejos relacionados con la inteligencia artificial y de esta manera hacerlos accesibles para todo tipo de audiencias.

Esta entrada también está disponible en: Français Português