Datasaur lança ferramenta para rotular dados e treinar modelos personalizados ChatGPT
A empresa Datasaur recentemente apresentou uma inovadora ferramenta que permite aos usuários rotular dados e treinar modelos personalizados ChatGPT. Esta solução atende ao crescente interesse no processamento de linguagem natural (NLP) e nos grandes modelos de linguagem (LLM), facilitando seu uso tanto por profissionais técnicos quanto não técnicos.
Com investimento inicial de Greg Brockman, presidente da OpenAI, a Datasaur busca abordar desafios na construção e treinamento de modelos personalizados, tais como a necessidade de clareza e abordagens padronizadas ou problemas com o desempenho insuficiente dos modelos disponíveis.
Três objetivos principais: qualidade, eliminação de vieses e integração total
A Datasaur estabelece três objetivos principais:
- Fornecer dados de alta qualidade para o treinamento;
- Eliminar vieses indesejados;
- Oferecer suporte integral aos usuários.
Através do desenvolvimento de novas funções como avaliação – que permite avaliar as respostas geradas por LLMs -, ranking – facilitando a aprendizagem por reforço a partir do feedback humano (RLHF) -, modo revisor – atribuindo múltiplos anotadores para minimizar vieses subjetivos – e indicadores sobre concordância entre anotadores (IAA).
Características destacadas da ferramenta
Entre outros aspectos destacados, encontramos:
- Apresentação do documento original como fonte informação LLMs;
- Democratização do acesso ao NLP trabalhando com qualquer idioma;
- Redução tempo/despesas associados à rotulação em até 80% através da automação.
Datasaur emprega técnicas como o uso de spaCy/NLTK para identificar entidades comuns; supervisão fraca/programação de dados para rotulagem automática; e a API OpenAI integrada, que permite solicitar ao ChatGPT que rotule documentos.
Aprendizado por reforço a partir do feedback humano (RLHF)
A função RLHF é especialmente relevante, pois permite avaliar e selecionar rapidamente as melhores respostas dos LLMs sem intervenção manual. Além disso, oferece uma interface fácil de usar e acessível para usuários não técnicos.
Futuro promissor no mercado NLP
O futuro do NLP se mostra promissor com crescente investimento no mercado e rápida evolução de produtos baseados em LLMs. Espera-se um aumento nas aplicações priorizando tecnologia LLM em interfaces cotidianas como Gmail ou Word. Datasaur busca capacitar e apoiar organizações na construção de modelos e fluxos de trabalho com NLP, posicionando-se como uma referência chave neste campo tão dinâmico e inovador.
Sarah é, além de uma especialista em marketing digital, uma criadora de conteúdo com vasta experiência no campo. Graduada em Sociologia pela Universidade de Barcelona e com uma Pós-graduação em Marketing Digital pelo Inesdi, Sarah conseguiu se destacar como Diretora de Marketing Digital. Seu profundo conhecimento das tendências digitais e sua habilidade para identificar oportunidades de crescimento foram fundamentais para o sucesso de inúmeras campanhas. Além disso, ela dá aulas e palestras em prestigiosas escolas de negócios, universidades e eventos, compartilhando seus conhecimentos e experiências com outros profissionais e estudantes.