EleutherAI entre a Espada e a Parede: Demandas Legais, Ética e o Desafio de Criar um Conjunto de Dados de IA Aprimorado

EleutherAI sob escrutínio por uso indevido de dados

EleutherAI, a organização reconhecida pela criação de um dos maiores conjuntos de dados para treinamento de inteligência artificial (IA), tem estado no centro das críticas e preocupações legais e éticas desde 2023. A empresa foi apontada em um processo por supostamente usar livros sem consentimento em seu projeto Books3, integrado ao conjunto de dados Pile.

Resposta às críticas: um novo conjunto de dados

Em resposta a essas preocupações, a EleutherAI está desenvolvendo uma versão atualizada do conjunto de dados Pile. Em colaboração com várias organizações e pesquisadores independentes, espera-se que o novo conjunto seja mais extenso e “substancialmente melhor“. O renovado Pile incluirá dados mais atuais, melhor pré-processamento e maior diversidade e qualidade dos mesmos.

O Pile original é composto por 22 subconjuntos de dados, incluindo Books3 e outros como PubMed Central, Arxiv, Stack Exchange, Wikipedia, legendas do YouTube e emails da Enron. O objetivo do Pile era construir um novo conjunto de dados amplo para igualar a escala usada pela OpenAI para treinar o GPT-3.

O debate sobre o impacto e uso ético dos conjuntos de dados

As preocupações sobre o impacto dos conjuntos de dados não são recentes; eles geraram preconceitos raciais nos sistemas de IA e desencadearam batalhas legais. As críticas se intensificaram desde o lançamento do ChatGPT da OpenAI em novembro de 2022, especialmente no que diz respeito aos direitos autorais.

No entanto, Biderman e Skowron, membros proeminentes da EleutherAI, argumentam que o debate é mais complexo e matizado do que a mídia e os críticos da IA sugerem. Eles abordam questões como o uso indevido de imagens de abuso sexual infantil em conjuntos de dados e o impacto nos trabalhadores criativos cujo trabalho é usado para treinar modelos de IA.

Biderman e Skowron defendem que os modelos de IA treinados com conjuntos de dados abertos como Pile são mais seguros porque a transparência nos dados favorece seu uso ético e seguro. Eles argumentam que é necessária mais visibilidade para alcançar muitos objetivos políticos ou ideais éticos.

Enquanto isso, a EleutherAI continua trabalhando na versão atualizada do Pile. Espera-se que os novos modelos treinados sejam lançados este ano, o que poderia representar um marco significativo no desenvolvimento da inteligência artificial e seu uso ético.

Susana Meijomil

Susana é uma profissional destacada em marketing e comunicação, criadora de conteúdo e especialista em SEO. Ela é formada em Psicologia pela Universidade de Santiago de Compostela e tem um mestrado em Marketing e Comportamento do Consumidor pela Universidade de Granada e Universidade de Jaén. Além disso, compartilhou seus conhecimentos através de conferências e workshops. Com ampla experiência em estratégias de marketing e comunicação, Susana conseguiu otimizar a visibilidade e o posicionamento das marcas através de técnicas de SEO.

Esta entrada também está disponível em: Español Français