Desaprendiendo a Harry Potter: El innovador método de Microsoft para borrar información específica en Modelos de Lenguaje Grande

Una nueva propuesta para «desaprender» en modelos de lenguaje

El uso de obras protegidas por derechos de autor para entrenar modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés) ha suscitado un acalorado debate en el ámbito científico y tecnológico. ¿Es factible modificar o editar estos modelos para eliminar su conocimiento sobre dichas obras? Un equipo de Microsoft Research sostiene que sí.

Los investigadores Ronen Eldan y Mark Russinovich han planteado una innovadora forma de suprimir información específica de un LLM. Para ilustrar su propuesta, han mostrado cómo se puede borrar el conocimiento sobre la saga literaria de Harry Potter en el modelo Llama 2-7B, creado por Meta.

De «aprender» a «olvidar»: una técnica en tres partes

Hasta la fecha, los modelos convencionales se han enfocado en adquirir o reforzar conocimientos, pero no en «olvidar» o «desaprender». Sin embargo, Eldan y Russinovich han diseñado una técnica tridimensional para desaprender información concreta en LLMs. En primer lugar, entrenan el modelo con los datos objetivo -en este caso, los libros de Harry Potter- para identificar tokens relacionados. Posteriormente, sustituyen las expresiones únicas de Harry Potter por equivalentes genéricos y generan predicciones alternativas. Por último, ajustan el modelo base con estas predicciones alternativas, eliminando efectivamente el texto original.

Para evaluar este proceso, pusieron a prueba la capacidad del modelo para generar o debatir contenido relacionado con Harry Potter usando 300 indicaciones generadas automáticamente. Descubrieron que, tras solo una hora, el modelo puede «olvidar» las tramas detalladas de la serie Harry Potter.

Limitaciones y futuro de la técnica

No obstante, este proceso presenta ciertas limitaciones y requiere más investigación. El enfoque evaluativo tiene sus propias restricciones y necesita más pruebas. Además, la técnica podría ser más eficaz para textos ficticios que para no ficticios. Por tanto, es imprescindible llevar a cabo más investigaciones para perfeccionar y ampliar la metodología para tareas de desaprendizaje más extensas en LLMs.

A pesar de estas limitaciones, la técnica propuesta por Eldan y Russinovich representa un avance crucial hacia la creación de LLMs más responsables, adaptables y compatibles con la ley. Las técnicas de olvido selectivo podrían contribuir a asegurar que los sistemas de IA se mantengan alineados con las prioridades conforme cambian las necesidades. En un mundo cada vez más digital, este tipo de adaptabilidad será esencial para garantizar que nuestras tecnologías sigan siendo útiles, relevantes y legales.

Sarah Vercheval

Sarah es además de experta en marketing digital, creadora de contenido con amplia experiencia en el campo. Graduada en Sociología por la Universidad de Barcelona y con un Postgrado en Marketing Digital en Inesdi, Sarah ha logrado destacarse como Directora de Marketing Digital.

Su profundo conocimiento de las tendencias digitales y su habilidad para identificar oportunidades de crecimiento han sido fundamentales para el éxito de numerosas campañas. Además, imparte clases y conferencias en prestigiosas escuelas de negocio, universidades y eventos, compartiendo sus conocimientos y experiencias con otros profesionales y estudiantes.

Esta entrada también está disponible en: Français Português