Désapprendre Harry Potter : La méthode innovante de Microsoft pour effacer des informations spécifiques dans les grands modèles de langage

Une nouvelle proposition pour « désapprendre » dans les modèles de langage

L’utilisation d’œuvres protégées par le droit d’auteur pour entraîner de grands modèles de langage (LLM, pour ses initiales en anglais) a suscité un débat animé dans le domaine scientifique et technologique. Est-il possible de modifier ou d’éditer ces modèles pour supprimer leur connaissance de ces œuvres ? Une équipe de Microsoft Research soutient que oui.

Les chercheurs Ronen Eldan et Mark Russinovich ont proposé une manière innovante de supprimer des informations spécifiques d’un LLM. Pour illustrer leur proposition, ils ont montré comment on peut effacer la connaissance de la saga littéraire Harry Potter dans le modèle Llama 2-7B, créé par Meta.

De « apprendre » à « oublier » : une technique en trois parties

Jusqu’à présent, les modèles conventionnels se sont concentrés sur l’acquisition ou le renforcement des connaissances, mais pas sur l' »oubli » ou le « désapprentissage ». Cependant, Eldan et Russinovich ont conçu une technique tridimensionnelle pour désapprendre des informations spécifiques dans les LLMs. Tout d’abord, ils entraînent le modèle avec les données cibles – dans ce cas, les livres de Harry Potter – pour identifier les tokens liés. Ensuite, ils remplacent les expressions uniques de Harry Potter par des équivalents génériques et génèrent des prédictions alternatives. Enfin, ils ajustent le modèle de base avec ces prédictions alternatives, éliminant effectivement le texte original.

Pour évaluer ce processus, ils ont testé la capacité du modèle à générer ou à débattre du contenu lié à Harry Potter en utilisant 300 indications générées automatiquement. Ils ont découvert qu’après seulement une heure, le modèle peut « oublier » les intrigues détaillées de la série Harry Potter.

Limitations et avenir de la technique

Cependant, ce processus présente certaines limites et nécessite davantage de recherches. L’approche évaluative a ses propres restrictions et nécessite plus de tests. De plus, la technique pourrait être plus efficace pour les textes fictifs que pour les textes non fictifs. Par conséquent, il est essentiel de mener davantage de recherches pour perfectionner et élargir la méthodologie pour des tâches d’apprentissage plus larges dans les LLMs.

Malgré ces limitations, la technique proposée par Eldan et Russinovich représente une avancée cruciale vers la création de LLMs plus responsables, adaptables et conformes à la loi. Les techniques d’oubli sélectif pourraient contribuer à garantir que les systèmes d’IA restent alignés sur les priorités au fur et à mesure que les besoins changent. Dans un monde de plus en plus numérique, ce type d’adaptabilité sera essentiel pour garantir que nos technologies restent utiles, pertinentes et légales.

Sarah Vercheval

Sarah est non seulement une experte en marketing digital, mais aussi une créatrice de contenu avec une grande expérience dans le domaine. Diplômée en Sociologie de l'Université de Barcelone et ayant un post-diplôme en Marketing Digital de l'Inesdi, Sarah a réussi à se distinguer en tant que Directrice de Marketing Digital. Sa connaissance approfondie des tendances digitales et sa capacité à identifier des opportunités de croissance ont été fondamentales pour le succès de nombreuses campagnes. De plus, elle donne des cours et des conférences dans des écoles de commerce prestigieuses, des universités et des événements, partageant ses connaissances et expériences avec d'autres professionnels et étudiants.

Cette entrée est également disponible dans : Español Português