Nous Hermes 2 Vision : Un saut vers l’avenir de la vision-langage et ses défis initiaux

Una sala futurista iluminada en tonos naranjas, llena de máquinas modernas y figuras realistas, que evoca una escena de película con un estilo audaz pero elegante, líneas suaves y curvas, en un ambiente rico e inmersivo de post-minimalismo.

Présentation de Nous Hermes 2 Vision

Le géant de l’intelligence artificielle, Nous Research, a dévoilé son dernier modèle de vision-langage léger, Nous Hermes 2 Vision. Ce nouveau développement est désormais disponible pour le public via la plateforme Hugging Face. Le modèle est basé sur son prédécesseur, l’OpenHermes-2.5-Mistral-7B, mais présente des améliorations significatives dans sa capacité à interagir avec les images et à extraire des informations textuelles du contenu visuel. De plus, il est conçu pour naviguer avec précision dans les complexités du discours humain.

Nous Hermes 2 Vision utilise les données d’image fournies par l’utilisateur et les combine avec son apprentissage pour fournir des réponses détaillées en langage naturel. Cependant, comme tout projet en développement, il a eu ses défis.

Défis et améliorations du modèle

Le modèle a été trouvé en train d’halluciner plus que prévu, ce qui a conduit à des erreurs et au changement de nom du projet en Hermes 2 Vision Alpha. Malgré ces problèmes initiaux, une version plus stable du modèle est attendue, offrant des avantages similaires mais avec moins d’erreurs.

Une caractéristique clé qui distingue Nous Hermes 2 Vision est son utilisation de SigLIP-400M au lieu des encodeurs de vision 3B traditionnels. De plus, il a été formé sur un ensemble de données personnalisé enrichi avec des appels de fonctions. Cela permet aux utilisateurs de demander au modèle avec une balise et d’extraire des informations écrites à partir d’une image.

Rétroaction et plans futurs

Bien que le modèle soit disponible pour la recherche et le développement, son utilisation précoce a montré qu’il n’est pas parfait. Les problèmes rencontrés comprennent les hallucinations et le spam des tokens EOS. Cependant, malgré ces problèmes, la capacité d’appel de fonctions fonctionne toujours bien si l’utilisateur définit un bon schéma.

Nous Research prévoit de lancer une version mise à jour du modèle pour résoudre les problèmes existants. De plus, si les retours des utilisateurs sont suffisamment bons, un modèle dédié à l’appel de fonctions sera lancé.

Jusqu’à présent, Nous Research a lancé 41 modèles open source avec différentes architectures et capacités dans le cadre de ses séries Hermes, YaRN, Capybara, Puffin et Obsidian. Avec chaque nouveau modèle, l’entreprise continue de démontrer son engagement envers l’innovation et le développement de technologies d’intelligence artificielle avancées.

Sandra est spécialiste en marketing digital et experte en réseaux sociaux. Elle a obtenu un post-diplôme en Communication et RP pour les marques de mode à Idep Barcelone, ainsi qu'un autre en Marketing et réputation en ligne : communautés virtuelles. Sandra est au courant des dernières tendances et des meilleures pratiques sur les réseaux sociaux, ce qui se reflète dans son travail quotidien en générant un impact positif dans le monde numérique.

Cette entrée est également disponible dans : Español Português

Laisser un Comentarioaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *