Nous Hermes 2 Vision: Un salto hacia el futuro de la visión-lenguaje y sus desafíos iniciales

Presentación de Nous Hermes 2 Vision

El gigante de la inteligencia artificial, Nous Research, ha dado a conocer su último modelo de visión-lenguaje ligero, Nous Hermes 2 Vision. Este nuevo desarrollo ya está disponible para el público a través de la plataforma Hugging Face. El modelo se basa en su predecesor, el OpenHermes-2.5-Mistral-7B, pero presenta mejoras significativas en su capacidad para interactuar con imágenes y extraer información textual del contenido visual. Además, está diseñado para navegar las complejidades del discurso humano con precisión.

Nous Hermes 2 Vision utiliza los datos de imagen proporcionados por el usuario y los combina con su aprendizaje para proporcionar respuestas detalladas en lenguaje natural. Sin embargo, como todo proyecto en desarrollo, ha tenido sus desafíos.

Desafíos y mejoras del modelo

El modelo fue encontrado alucinando más de lo esperado, lo que llevó a errores y al cambio de nombre del proyecto a Hermes 2 Vision Alpha. A pesar de estos problemas iniciales, se espera una versión más estable del modelo que ofrezca beneficios similares pero con menos errores.

Una característica clave que diferencia a Nous Hermes 2 Vision es su uso de SigLIP-400M en lugar de los tradicionales codificadores de visión 3B. Además, ha sido entrenado en un conjunto de datos personalizado enriquecido con llamadas a funciones. Esto permite a los usuarios solicitar al modelo con una etiqueta y extraer información escrita de una imagen.

Retroalimentación y planes futuros

Aunque el modelo está disponible para investigación y desarrollo, su uso temprano ha demostrado que no es perfecto. Los problemas encontrados incluyen alucinaciones y spam de tokens EOS. Sin embargo, a pesar de estos problemas, la capacidad de llamada a funciones sigue funcionando bien si el usuario define un buen esquema.

Nous Research planea lanzar una versión actualizada del modelo para resolver los problemas existentes. Además, si la retroalimentación del usuario es suficientemente buena, se lanzará un modelo dedicado para la llamada a funciones.

Hasta ahora, Nous Research ha lanzado 41 modelos de código abierto con diferentes arquitecturas y capacidades como parte de sus series Hermes, YaRN, Capybara, Puffin y Obsidian. Con cada nuevo modelo, la compañía continúa demostrando su compromiso con la innovación y el desarrollo de tecnologías de inteligencia artificial avanzadas.

Sandra Palencia

Sandra es especialista en marketing digital y experta en redes sociales. Ha completado un posgrado en Comunicación y RRPP de marcas de moda en Idep Barcelona, así como otro en Marketing y reputación online: comunidades virtuales. Sandra está al tanto de las últimas tendencias y mejores prácticas en redes sociales, y eso se refleja en su trabajo diario generando un impacto positivo en el mundo digital.

Esta entrada también está disponible en: Français Português