GPT-4 face au miroir : Le défi des tests de raisonnement analogique et la fragilité de l’intelligence artificielle

Hombres trabajando meticulosamente en un laboratorio iluminado con un realista juego de luces y sombras, en el estilo del artista Aquirax Uno.

Le codage en séquences numériques : une technique remise en question

Dans le domaine de l’intelligence artificielle, le codage d’éléments tels que la forme, la couleur et la position en séquences numériques pour effectuer des tests est une pratique courante. Cette technique a été utilisée par des chercheurs de renom tels que le Dr. Webb, dont le travail a suscité l’admiration de nombreux professionnels du secteur, dont le Dr. Mitchell. Cependant, Mitchell a certaines réserves concernant cette méthode.

Mitchell est responsable de la création du ConceptARC, un test de raisonnement analogique qui utilise des séquences codées de formes extraites de l’ensemble de données ARC. Dans ces tests, GPT-4, un modèle avancé de génération de langage, a obtenu des résultats inférieurs à ceux des humains.

La principale objection de Mitchell à la codification en séquences numériques réside dans le fait que cela simplifie le problème en éliminant son aspect visuel. Selon son critère, résoudre des matrices de chiffres n’est pas équivalent à résoudre des problèmes de Raven, un test standard de raisonnement abstrait.

La fragilité des tests actuels

De plus, les tests utilisés pour évaluer des modèles de langage étendus tels que GPT-4 se sont révélés fragiles. Un petit changement dans un test peut faire passer la note d’un modèle de « très bien » à « insuffisant ». Cela remet en question l’efficacité et la précision de ces tests pour évaluer réellement les capacités de ces modèles.

Lucy Cheke, une autre experte dans le domaine, critique également le fait que les évaluations actuelles ne permettent pas de comprendre les capacités réelles des modèles. Elle soutient qu’il n’est pas utile d’extrapoler les compétences générales à partir des performances dans une tâche spécifique.

Cas illustratifs et conclusions

Un cas récent avec GPT-4 illustre ce point. Une équipe de Microsoft a identifié des « étincelles d’intelligence générale artificielle » dans GPT-4 lorsqu’il a correctement répondu à la façon de empiler des objets. Cependant, lorsque les objets ont été remplacés par d’autres plus délicats, GPT-4 a échoué.

En conclusion, bien que les avancées en intelligence artificielle soient impressionnantes et prometteuses, il reste encore beaucoup à apprendre sur la manière d’évaluer et de comprendre réellement ces capacités. Les critiques et réserves exprimées par des experts tels que Mitchell et Cheke soulignent la nécessité de continuer à rechercher et à développer des méthodes plus robustes et précises pour mesurer l’intelligence artificielle.

Susana est une professionnelle remarquable dans le marketing et la communication, créatrice de contenu et experte en SEO. Elle est diplômée en Psychologie de l'Université de Santiago de Compostela et a un master en Marketing et Comportement du Consommateur de l'Université de Grenade et de l'Université de Jaén. De plus, elle a partagé ses connaissances à travers des conférences et des ateliers. Avec une vaste expérience en stratégies de marketing et de communication, Susana a réussi à optimiser la visibilité et le positionnement des marques grâce à des techniques de SEO.

Cette entrée est également disponible dans : Español Português

Laisser un Comentarioaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *