Datasaur lanza herramienta para etiquetar datos y entrenar modelos ChatGPT personalizados
La empresa Datasaur presentó recientemente una innovadora herramienta que permite a los usuarios etiquetar datos y entrenar modelos ChatGPT personalizados. Esta solución responde al creciente interés en el procesamiento del lenguaje natural (NLP) y los modelos de lenguaje grandes (LLM), facilitando su uso tanto por parte de profesionales técnicos como no técnicos.
Con inversión temprana por parte de Greg Brockman, presidente de OpenAI, Datasaur busca abordar desafíos en la construcción y capacitación de modelos personalizados, tales como la necesidad de claridad y enfoques estandarizados o problemas con el rendimiento insuficiente de los modelos disponibles.
Tres objetivos clave: calidad, eliminación de sesgos e integración total
Datasaur se plantea tres objetivos principales:
- Proporcionar datos de alta calidad para el entrenamiento;
- Eliminar sesgos indeseados;
- Ofrecer soporte integral a usuarios.
A través del desarrollo funciones nuevas como evaluación -que permite evaluar las respuestas generadas por LLMs-, ranking -facilitando el aprendizaje por refuerzo a partir del feedback humano (RLHF)-, modo revisor -asignando múltiples anotadores para minimizar sesgos subjetivos- e indicadores sobre acuerdo entre anotadores (IAA).
Características destacadas de la herramienta
Entre otros aspectos destacados encontramos:
- Presentación del documento original como fuente información LLMs;
- Democratización del acceso al NLP trabajando con cualquier idioma;
- Reducción tiempo/gastos asociados al etiquetado hasta un 80% mediante automatización.
Datasaur emplea técnicas como el uso spaCy/NLTK identificando entidades comunes; supervisión débil/data programming para etiquetado automático; y la API OpenAI integrada, que permite solicitar a ChatGPT que etiquete documentos.
Aprendizaje por refuerzo a partir del feedback humano (RLHF)
La función RLHF es especialmente relevante, ya que permite evaluar y seleccionar rápidamente las mejores respuestas de LLMs sin intervención manual. Además, ofrece una interfaz fácil de usar y accesible para usuarios no técnicos.
Futuro promisorio en el mercado NLP
El futuro del NLP se vislumbra prometedor con creciente inversión en el mercado y rápida evolución de productos basados en LLMs. Se espera un aumento en aplicaciones priorizando tecnología LLM en interfaces cotidianas como Gmail o Word. Datasaur busca empoderar y apoyar a organizaciones construyendo modelos y flujos de trabajo con NLP, posicionándose como un referente clave en este ámbito tan dinámico e innovador.
Sarah es además de experta en marketing digital, creadora de contenido con amplia experiencia en el campo. Graduada en Sociología por la Universidad de Barcelona y con un Postgrado en Marketing Digital en Inesdi, Sarah ha logrado destacarse como Directora de Marketing Digital.
Su profundo conocimiento de las tendencias digitales y su habilidad para identificar oportunidades de crecimiento han sido fundamentales para el éxito de numerosas campañas. Además, imparte clases y conferencias en prestigiosas escuelas de negocio, universidades y eventos, compartiendo sus conocimientos y experiencias con otros profesionales y estudiantes.