GPT-4 frente al espejo: El desafío de las pruebas de razonamiento analógico y la fragilidad de la inteligencia artificial

La codificación en secuencias numéricas: una técnica cuestionada

En el ámbito de la inteligencia artificial, la codificación de elementos como la forma, el color y la posición en secuencias numéricas para realizar pruebas es una práctica habitual. Esta técnica ha sido empleada por investigadores de renombre como el Dr. Webb, cuyo trabajo ha causado admiración en muchos profesionales del sector, entre ellos la Dra. Mitchell. Sin embargo, Mitchell alberga ciertas reservas sobre este método.

Mitchell es responsable de la creación del ConceptARC, un test de razonamiento analógico que se sirve de secuencias codificadas de formas extraídas del conjunto de datos ARC. En estas pruebas, GPT-4, un avanzado modelo de lenguaje generativo, ha obtenido resultados inferiores a los humanos.

La principal objeción de Mitchell a la codificación en secuencias numéricas radica en que esta simplifica el problema al eliminar su aspecto visual. Según su criterio, resolver matrices de dígitos no es equivalente a resolver problemas de Raven, una prueba estándar de razonamiento abstracto.

La fragilidad de las pruebas actuales

Además, las pruebas empleadas para evaluar modelos de lenguaje extensos como GPT-4 han demostrado ser frágiles. Un pequeño cambio en una prueba puede hacer que la calificación de un modelo pase de sobresaliente a insuficiente. Esto cuestiona la eficacia y precisión de estas pruebas para evaluar realmente las capacidades de estos modelos.

Lucy Cheke, otra experta en el campo, también critica que las evaluaciones actuales no permiten entender las capacidades reales de los modelos. Argumenta que no es útil extrapolar las habilidades generales a partir del rendimiento en una tarea específica.

Casos ilustrativos y conclusiones

Un caso reciente con GPT-4 ilustra este punto. Un equipo de Microsoft identificó «chispas de inteligencia general artificial» en GPT-4 cuando este respondió correctamente a cómo apilar objetos. Sin embargo, cuando se cambiaron los objetos por otros más delicados, GPT-4 falló.

En conclusión, aunque los avances en inteligencia artificial son impresionantes y prometedores, aún queda mucho por aprender sobre cómo evaluar y entender realmente estas capacidades. Las críticas y reservas expresadas por expertos como Mitchell y Cheke subrayan la necesidad de seguir investigando y desarrollando métodos más robustos y precisos para medir la inteligencia artificial.

Susana Meijomil

Susana es una profesional destacada en marketing y comunicación, creadora de contenido y experta en SEO. Es licenciada en Psicología por la Universidad de Santiago de Compostela y cuenta con un máster en Marketing y Comportamiento del Consumidor de la Universidad de Granada y la Universidad de Jaén. Además, ha compartido sus conocimientos a través de conferencias y workshops.
Con amplia experiencia en estrategias de marketing y comunicación, Susana ha logrado optimizar la visibilidad y el posicionamiento de las marcas a través de técnicas de SEO.

Esta entrada también está disponible en: Français Português