Formation en IA sans Violation des Droits d’Auteur : Un Nouvel Horizon
En 2023, OpenAI, l’une des entreprises leaders dans le domaine de l’intelligence artificielle (IA), a soutenu qu’il était « impossible » de former des modèles d’IA de pointe sans recourir à des matériaux protégés par des droits d’auteur. Cette position a été courante dans le monde de l’IA, où OpenAI et d’autres acteurs majeurs ont utilisé des matériaux en ligne pour former leurs modèles, ce qui a entraîné des poursuites pour violation des droits d’auteur.
Avancées Récentes : IA et Domaine Public
Cependant, deux annonces récentes fournissent des preuves que les modèles de langage de grande taille peuvent être formés sans l’utilisation de matériaux protégés par des droits d’auteur. Un groupe de chercheurs soutenus par le gouvernement français a lancé ce qui est considéré comme le plus grand ensemble de données d’entraînement en IA composé entièrement de texte du domaine public. De plus, l’organisation à but non lucratif Fairly Trained a décerné sa première certification à un modèle de langage de grande taille construit sans violation des droits d’auteur.
Fairly Trained offre une certification aux entreprises qui démontrent avoir formé leurs modèles d’IA avec des données qu’elles possèdent, ont licenciées ou qui sont dans le domaine public. La première certification de ce type a été attribuée à KL3M, un modèle de langage de grande taille développé par la startup de conseil juridique 273 Ventures.
273 Ventures et son Modèle KL3M
273 Ventures a formé KL3M en utilisant un ensemble de données d’entraînement composé de documents juridiques, financiers et réglementaires. Cette décision a été prise en réponse aux clients de l’entreprise « réticents au risque », tels que les cabinets d’avocats, qui étaient intéressés par l’utilisation de l’IA générative pour des tâches telles que la synthèse de documents juridiques et la rédaction de contrats, mais ne voulaient pas être impliqués dans des litiges sur la propriété intellectuelle.
Pour éviter tout problème juridique, 273 Ventures a créé son propre ensemble de données d’entraînement, le Kelvin Legal DataPack, qui comprend des milliers de documents juridiques revus pour se conformer à la loi sur les droits d’auteur. Bien que l’ensemble de données soit petit par rapport à ceux compilés par OpenAI et d’autres, le modèle KL3M a dépassé les attentes en termes de performance. Désormais, 273 Ventures offre des places sur une liste d’attente aux clients qui souhaitent acquérir un accès à ces données.
Common Corpus : Le Plus Grand Ensemble de Données IA du Domaine Public
D’autre part, les chercheurs ont lancé mercredi ce qu’ils affirment être le plus grand ensemble de données IA disponible pour les modèles de langage composé uniquement de contenu du domaine public. Common Corpus, comme on l’appelle, est une collection de texte d’environ la même taille que les données utilisées pour entraîner le modèle de génération de texte GPT-3 d’OpenAI. Cet ensemble de données a été construit à partir de sources telles que des journaux du domaine public numérisés par la Bibliothèque du Congrès des États-Unis et la Bibliothèque Nationale de France.
Ces avancées pourraient marquer un changement dans la façon dont les modèles d’IA sont formés, s’éloignant de la dépendance à l’égard des matériaux protégés par des droits d’auteur et ouvrant de nouvelles possibilités pour le développement de l’intelligence artificielle.
Clara est créatrice et éditrice de contenus, avec une solide formation en sciences et une spécialisation en intelligence artificielle. Sa passion pour ce domaine en constante évolution l'a amenée à acquérir les connaissances nécessaires pour comprendre et communiquer les avancées les plus récentes dans ce domaine. Grâce à son expérience et à ses compétences en rédaction et édition de contenus, Clara est capable de transmettre de manière claire et efficace des concepts complexes liés à l'intelligence artificielle et ainsi les rendre accessibles à tous types de publics.
Cette entrée est également disponible dans : Español Português