Desafiando o Impossível: Treinamento de Modelos de IA sem Infringir Direitos Autorais, o Novo Horizonte Tecnológico

Treinamento de IA sem Infringir Direitos Autorais: Um Novo Horizonte

Em 2023, a OpenAI, uma das empresas líderes no campo da inteligência artificial (IA), afirmou que era “impossível” treinar modelos de IA de ponta sem recorrer a materiais protegidos por direitos autorais. Essa postura tem sido comum no mundo da IA, onde a OpenAI e outros atores importantes têm usado materiais online para treinar seus modelos, o que tem provocado processos por violação de direitos autorais.

Avanços Recentes: IA e Domínio Público

No entanto, dois anúncios recentes fornecem evidências de que modelos de linguagem de grande porte podem ser treinados sem o uso de materiais protegidos por direitos autorais. Um grupo de pesquisadores apoiados pelo governo francês lançou o que se acredita ser o maior conjunto de dados de treinamento de IA composto inteiramente por texto de domínio público. Além disso, a organização sem fins lucrativos Fairly Trained concedeu sua primeira certificação a um modelo de linguagem de grande porte construído sem infringir direitos autorais.

Fairly Trained oferece uma certificação para empresas que demonstram ter treinado seus modelos de IA com dados que possuem, licenciaram ou que estão no domínio público. A primeira certificação desta natureza foi concedida à KL3M, um grande modelo de linguagem desenvolvido pela startup de consultoria jurídica 273 Ventures.

273 Ventures e seu Modelo KL3M

273 Ventures treinou o KL3M usando um conjunto de dados de treinamento composto por documentos legais, financeiros e regulatórios. Esta decisão foi tomada em resposta aos clientes “avessos ao risco” da empresa, como escritórios de advocacia, que estavam interessados em usar a IA generativa para tarefas como resumir documentos legais e redigir contratos, mas não queriam se envolver em processos sobre propriedade intelectual.

Para evitar qualquer problema legal, a 273 Ventures criou seu próprio conjunto de dados de treinamento, o Kelvin Legal DataPack, que inclui milhares de documentos legais revisados para cumprir a lei de direitos autorais. Embora o conjunto de dados seja pequeno em comparação com os compilados pela OpenAI e outros, o modelo KL3M superou as expectativas em seu desempenho. Agora, a 273 Ventures oferece vagas em uma lista de espera para clientes que desejam adquirir acesso a esses dados.

Common Corpus: O Maior Conjunto de Dados de IA de Domínio Público

Por outro lado, os pesquisadores lançaram na quarta-feira o que afirmam ser o maior conjunto de dados de IA disponível para modelos de linguagem compostos unicamente por conteúdo de domínio público. Common Corpus, como é chamado, é uma coleção de texto aproximadamente do mesmo tamanho que os dados utilizados para treinar o modelo de geração de texto GPT-3 da OpenAI. Este conjunto de dados foi construído a partir de fontes como jornais de domínio público digitalizados pela Biblioteca do Congresso dos EUA e a Biblioteca Nacional da França.

Esses avanços poderiam marcar uma mudança na forma como os modelos de IA são treinados, afastando-se da dependência de materiais com direitos autorais e abrindo novas possibilidades para o desenvolvimento da inteligência artificial.

Clara Gil

Clara é criadora e editora de conteúdo, com sólida formação em ciências e especialização em inteligência artificial. Sua paixão por este campo em constante evolução levou-a a adquirir os conhecimentos necessários para entender e comunicar os avanços mais recentes nesta área. Com sua experiência e habilidades em redação e edição de conteúdo, Clara é capaz de transmitir de maneira clara e eficaz conceitos complexos relacionados à inteligência artificial, tornando-os acessíveis a todos os tipos de públicos.

Esta entrada também está disponível em: Español Français