EleutherAI entre le Couteau et le Mur: Demandes Juridiques, Éthique et le Défi de Créer un Ensemble de Données IA Amélioré

EleutherAI dans le collimateur pour utilisation abusive de données

EleutherAI, l’organisation reconnue pour la création de l’un des plus grands ensembles de données pour la formation de l’intelligence artificielle (IA), a été au centre des critiques et des préoccupations juridiques et éthiques depuis 2023. L’entreprise a été mise en cause dans un procès pour avoir prétendument utilisé des livres sans consentement dans son projet Books3, intégré à l’ensemble de données Pile.

Réponse aux critiques : un nouvel ensemble de données

En réponse à ces préoccupations, EleutherAI développe une version mise à jour de l’ensemble de données Pile. En collaboration avec diverses organisations et chercheurs indépendants, on s’attend à ce que le nouvel ensemble soit plus vaste et « substantiellement meilleur ». Le Pile renouvelé comprendra des données plus actuelles, un meilleur prétraitement et une plus grande diversité et qualité des données.

Le Pile original se compose de 22 sous-ensembles de données, dont Books3 et d’autres tels que PubMed Central, Arxiv, Stack Exchange, Wikipedia, les sous-titres YouTube et les courriels d’Enron. Le but du Pile était de construire un nouvel ensemble de données large pour égaler l’échelle utilisée par OpenAI pour entraîner GPT-3.

Le débat sur l’impact et l’utilisation éthique des ensembles de données

Les inquiétudes concernant l’impact des ensembles de données ne sont pas récentes ; elles ont généré des biais raciaux dans les systèmes d’IA et ont déclenché des batailles juridiques. Les critiques se sont intensifiées depuis le lancement du ChatGPT d’OpenAI en novembre 2022, notamment en ce qui concerne les droits d’auteur.

Cependant, Biderman et Skowron, membres éminents d’EleutherAI, soutiennent que le débat est plus complexe et nuancé que ce que les médias et les critiques de l’IA suggèrent. Ils abordent des questions telles que l’utilisation abusive d’images d’abus sexuels sur des enfants dans les ensembles de données et l’impact sur les travailleurs créatifs dont le travail est utilisé pour entraîner des modèles d’IA.

Biderman et Skowron défendent que les modèles d’IA formés avec des ensembles de données ouverts comme Pile sont plus sûrs parce que la transparence des données favorise leur utilisation éthique et sûre. Ils soutiennent qu’une plus grande visibilité est nécessaire pour atteindre de nombreux objectifs politiques ou idéaux éthiques.

En attendant, EleutherAI continue de travailler sur la version mise à jour du Pile. On s’attend à ce que les nouveaux modèles formés soient lancés cette année, ce qui pourrait représenter une étape significative dans le développement de l’intelligence artificielle et de son utilisation éthique.

Susana Meijomil

Susana est une professionnelle remarquable dans le marketing et la communication, créatrice de contenu et experte en SEO. Elle est diplômée en Psychologie de l'Université de Santiago de Compostela et a un master en Marketing et Comportement du Consommateur de l'Université de Grenade et de l'Université de Jaén. De plus, elle a partagé ses connaissances à travers des conférences et des ateliers. Avec une vaste expérience en stratégies de marketing et de communication, Susana a réussi à optimiser la visibilité et le positionnement des marques grâce à des techniques de SEO.

Cette entrée est également disponible dans : Español Português