Datasaur lance un outil pour étiqueter les données et entraîner des modèles ChatGPT personnalisés
L’entreprise Datasaur a récemment présenté un outil innovant qui permet aux utilisateurs de étiqueter les données et d’entraîner des modèles ChatGPT personnalisés. Cette solution répond à l’intérêt croissant pour le traitement du langage naturel (NLP) et les grands modèles de langage (LLM), facilitant leur utilisation aussi bien par des professionnels techniques que non techniques.
Avec un investissement précoce de la part de Greg Brockman, président d’OpenAI, Datasaur cherche à relever les défis liés à la construction et à l’entraînement de modèles personnalisés, tels que le besoin de clarté et d’approches standardisées ou des problèmes avec les performances insuffisantes des modèles disponibles.
Trois objectifs clés : qualité, élimination des biais et intégration totale
Datasaur se fixe trois objectifs principaux :
- Fournir des données de haute qualité pour l’entraînement ;
- Éliminer les biais indésirables ;
- Offrir un soutien complet aux utilisateurs.
A travers le développement de nouvelles fonctions comme l’évaluation – qui permet d’évaluer les réponses générées par les LLMs -, le classement – facilitant l’apprentissage par renforcement à partir du feedback humain (RLHF) -, le mode réviseur – attribuant plusieurs annotateurs pour minimiser les biais subjectifs – et des indicateurs sur l’accord entre annotateurs (IAA).
Caractéristiques remarquables de l’outil
Parmi d’autres aspects notables, nous trouvons :
- Présentation du document original comme source d’information LLMs ;
- Démocratisation de l’accès au NLP en travaillant avec n’importe quelle langue ;
- Réduction du temps/des coûts associés à l’étiquetage jusqu’à 80% grâce à l’automatisation.
Datasaur utilise des techniques telles que l’utilisation de spaCy/NLTK pour identifier les entités communes ; la supervision faible/la programmation de données pour le marquage automatique ; et l’API OpenAI intégrée, qui permet de demander à ChatGPT d’étiqueter des documents.
Apprentissage par renforcement à partir du feedback humain (RLHF)
La fonction RLHF est particulièrement pertinente, car elle permet d’évaluer et de sélectionner rapidement les meilleures réponses des LLMs sans intervention manuelle. De plus, il offre une interface facile à utiliser et accessible aux utilisateurs non techniques.
Avenir prometteur sur le marché NLP
L’avenir du NLP semble prometteur avec un investissement croissant sur le marché et une évolution rapide des produits basés sur les LLMs. On s’attend à une augmentation des applications privilégiant la technologie LLM dans les interfaces quotidiennes comme Gmail ou Word. Datasaur cherche à autonomiser et soutenir les organisations en construisant des modèles et des flux de travail avec NLP, se positionnant comme un acteur clé dans ce domaine dynamique et innovant.
Sarah est non seulement une experte en marketing digital, mais aussi une créatrice de contenu avec une grande expérience dans le domaine. Diplômée en Sociologie de l'Université de Barcelone et ayant un post-diplôme en Marketing Digital de l'Inesdi, Sarah a réussi à se distinguer en tant que Directrice de Marketing Digital. Sa connaissance approfondie des tendances digitales et sa capacité à identifier des opportunités de croissance ont été fondamentales pour le succès de nombreuses campagnes. De plus, elle donne des cours et des conférences dans des écoles de commerce prestigieuses, des universités et des événements, partageant ses connaissances et expériences avec d'autres professionnels et étudiants.
Cette entrée est également disponible dans : Español Português