EleutherAI entre la Espada y la Pared: Demandas Legales, Ética y el Desafío de Crear un Conjunto de Datos de IA Mejorado

EleutherAI en el punto de mira por uso indebido de datos

EleutherAI, la organización reconocida por la creación de uno de los mayores conjuntos de datos para el entrenamiento de la inteligencia artificial (IA), ha estado en el centro de críticas y preocupaciones legales y éticas desde 2023. La empresa ha sido señalada en una demanda por presuntamente utilizar libros sin consentimiento en su proyecto Books3, integrado en el conjunto de datos Pile.

Respuesta a las críticas: un nuevo conjunto de datos

Como respuesta a estas inquietudes, EleutherAI está desarrollando una versión actualizada del conjunto de datos Pile. En colaboración con diversas organizaciones e investigadores independientes, se espera que el nuevo conjunto sea más extenso y «sustancialmente mejor«. El renovado Pile incluirá datos más actuales, un mejor preprocesamiento y una mayor diversidad y calidad de los mismos.

El Pile original se compone de 22 subconjuntos de datos, entre los que se incluyen Books3 y otros como PubMed Central, Arxiv, Stack Exchange, Wikipedia, subtítulos de YouTube y correos electrónicos de Enron. El propósito del Pile era construir un nuevo conjunto de datos amplio para igualar la escala utilizada por OpenAI para entrenar GPT-3.

El debate sobre el impacto y uso ético de los conjuntos de datos

Las preocupaciones sobre el impacto de los conjuntos de datos no son recientes; han generado sesgos raciales en los sistemas de IA y han desencadenado batallas legales. Las críticas se han intensificado desde el lanzamiento del ChatGPT de OpenAI en noviembre de 2022, especialmente en lo que respecta a los derechos de autor.

No obstante, Biderman y Skowron, miembros destacados de EleutherAI, sostienen que el debate es más complejo y matizado de lo que los medios y los críticos de la IA sugieren. Abordan cuestiones como el uso indebido de imágenes de abuso sexual infantil en conjuntos de datos y el impacto en los trabajadores creativos cuyo trabajo se utiliza para entrenar modelos de IA.

Biderman y Skowron defienden que los modelos de IA entrenados con conjuntos de datos abiertos como Pile son más seguros porque la transparencia en los datos favorece su uso ético y seguro. Argumentan que se necesita más visibilidad para alcanzar muchos objetivos políticos o ideales éticos.

Mientras tanto, EleutherAI continúa trabajando en la versión actualizada del Pile. Se espera que los nuevos modelos entrenados se lancen este año, lo que podría representar un hito significativo en el desarrollo de la inteligencia artificial y su uso ético.

Susana Meijomil

Susana es una profesional destacada en marketing y comunicación, creadora de contenido y experta en SEO. Es licenciada en Psicología por la Universidad de Santiago de Compostela y cuenta con un máster en Marketing y Comportamiento del Consumidor de la Universidad de Granada y la Universidad de Jaén. Además, ha compartido sus conocimientos a través de conferencias y workshops.
Con amplia experiencia en estrategias de marketing y comunicación, Susana ha logrado optimizar la visibilidad y el posicionamiento de las marcas a través de técnicas de SEO.

Esta entrada también está disponible en: Français Português