Entrenamiento de IA sin Infringir Derechos de Autor: Un Nuevo Horizonte
En 2023, OpenAI, una de las empresas líderes en el campo de la inteligencia artificial (IA), sostuvo que era «imposible» entrenar modelos de IA de vanguardia sin recurrir a materiales protegidos por derechos de autor. Esta postura ha sido común en el mundo de la IA, donde OpenAI y otros actores importantes han utilizado materiales en línea para entrenar sus modelos, lo que ha provocado demandas por infracción de derechos de autor.
Avances Recientes: IA y Dominio Público
No obstante, dos anuncios recientes proporcionan evidencia de que los modelos de lenguaje de gran tamaño pueden ser entrenados sin el uso de materiales con derechos de autor. Un grupo de investigadores respaldados por el gobierno francés ha lanzado lo que se cree que es el mayor conjunto de datos de entrenamiento de IA compuesto íntegramente por texto de dominio público. Además, la organización sin ánimo de lucro Fairly Trained ha otorgado su primera certificación a un modelo de lenguaje de gran tamaño construido sin infringir derechos de autor.
Fairly Trained ofrece una certificación a las empresas que demuestran haber entrenado sus modelos de IA con datos que poseen, han licenciado o que están en el dominio público. La primera certificación de esta naturaleza ha sido otorgada a KL3M, un modelo de lenguaje de gran tamaño desarrollado por la startup de consultoría legal 273 Ventures.
273 Ventures y su Modelo KL3M
273 Ventures entrenó a KL3M utilizando un conjunto de datos de entrenamiento compuesto por documentos legales, financieros y regulatorios. Esta decisión se tomó en respuesta a los clientes «reacios al riesgo» de la empresa, como bufetes de abogados, que estaban interesados en utilizar la IA generativa para tareas como resumir documentos legales y redactar contratos, pero no querían verse involucrados en demandas sobre propiedad intelectual.
Para evitar cualquier problema legal, 273 Ventures creó su propio conjunto de datos de entrenamiento, el Kelvin Legal DataPack, que incluye miles de documentos legales revisados para cumplir con la ley de derechos de autor. Aunque el conjunto de datos es pequeño en comparación con los compilados por OpenAI y otros, el modelo KL3M superó las expectativas en su rendimiento. Ahora, 273 Ventures ofrece plazas en una lista de espera a los clientes que desean adquirir acceso a estos datos.
Common Corpus: El Mayor Conjunto de Datos de IA de Dominio Público
Por otro lado, los investigadores lanzaron el miércoles lo que afirman es el mayor conjunto de datos de IA disponible para modelos de lenguaje compuesto únicamente por contenido de dominio público. Common Corpus, como se llama, es una colección de texto aproximadamente del mismo tamaño que los datos utilizados para entrenar el modelo de generación de texto GPT-3 de OpenAI. Este conjunto de datos fue construido a partir de fuentes como periódicos de dominio público digitalizados por la Biblioteca del Congreso de EE.UU. y la Biblioteca Nacional de Francia.
Estos avances podrían marcar un cambio en la forma en que se entrenan los modelos de IA, alejándose de la dependencia de los materiales con derechos de autor y abriendo nuevas posibilidades para el desarrollo de la inteligencia artificial.
Clara es creadora y editora de contenidos, con una sólida formación en ciencias y una especialización en inteligencia artificial. Su pasión por este campo en constante evolución la ha llevado a adquirir los conocimientos necesarios para comprender y comunicar los avances más recientes en este campo. Con su experiencia y habilidades en la redacción y edición de contenidos, Clara es capaz de transmitir de manera clara y efectiva conceptos complejos relacionados con la inteligencia artificial y de esta manera hacerlos accesibles para todo tipo de audiencias.