Nous Hermes 2 Vision: Um salto para o futuro da visão-linguagem e seus desafios iniciais

Una sala futurista iluminada en tonos naranjas, llena de máquinas modernas y figuras realistas, que evoca una escena de película con un estilo audaz pero elegante, líneas suaves y curvas, en un ambiente rico e inmersivo de post-minimalismo.

Apresentação do Nous Hermes 2 Vision

O gigante da inteligência artificial, Nous Research, revelou seu último modelo de visão-linguagem leve, Nous Hermes 2 Vision. Este novo desenvolvimento já está disponível para o público através da plataforma Hugging Face. O modelo é baseado em seu predecessor, o OpenHermes-2.5-Mistral-7B, mas apresenta melhorias significativas em sua capacidade de interagir com imagens e extrair informações textuais do conteúdo visual. Além disso, foi projetado para navegar as complexidades do discurso humano com precisão.

O Nous Hermes 2 Vision utiliza os dados de imagem fornecidos pelo usuário e os combina com seu aprendizado para fornecer respostas detalhadas em linguagem natural. No entanto, como todo projeto em desenvolvimento, teve seus desafios.

Desafios e melhorias do modelo

O modelo foi encontrado alucinando mais do que o esperado, o que levou a erros e à mudança de nome do projeto para Hermes 2 Vision Alpha. Apesar desses problemas iniciais, espera-se uma versão mais estável do modelo que ofereça benefícios semelhantes, mas com menos erros.

Uma característica chave que diferencia o Nous Hermes 2 Vision é o seu uso de SigLIP-400M em vez dos tradicionais codificadores de visão 3B. Além disso, foi treinado em um conjunto de dados personalizado enriquecido com chamadas de função. Isso permite aos usuários solicitar ao modelo com uma tag e extrair informações escritas de uma imagem.

Feedback e planos futuros

Embora o modelo esteja disponível para pesquisa e desenvolvimento, seu uso inicial mostrou que não é perfeito. Os problemas encontrados incluem alucinações e spam de tokens EOS. No entanto, apesar desses problemas, a capacidade de chamada de função continua funcionando bem se o usuário definir um bom esquema.

A Nous Research planeja lançar uma versão atualizada do modelo para resolver os problemas existentes. Além disso, se o feedback do usuário for suficientemente bom, será lançado um modelo dedicado para a chamada de funções.

Até agora, a Nous Research lançou 41 modelos de código aberto com diferentes arquiteturas e capacidades como parte de suas séries Hermes, YaRN, Capybara, Puffin e Obsidian. Com cada novo modelo, a empresa continua demonstrando seu compromisso com a inovação e o desenvolvimento de tecnologias avançadas de inteligência artificial.

Sandra é especialista em marketing digital e experta em redes sociais. Ela completou uma pós-graduação em Comunicação e RP para marcas de moda no Idep Barcelona, além de outra em Marketing e reputação online: comunidades virtuais. Sandra está a par das últimas tendências e melhores práticas em redes sociais, e isso se reflete em seu trabalho diário, gerando um impacto positivo no mundo digital.

Esta entrada também está disponível em: Español Français

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *