Voice Engine: La revolución de la voz sintética por OpenAI y sus implicaciones en la industria

OpenAI y su Innovación: «Voice Engine»

OpenAI, la prestigiosa entidad de investigación en inteligencia artificial, ha dado a conocer su última creación: «Voice Engine«. Este modelo de IA, en proceso de desarrollo desde 2022, es el motor que impulsa la API de texto a voz de OpenAI, así como las nuevas funcionalidades de voz y lectura en voz alta de ChatGPT.

El funcionamiento de Voice Engine es asombrosamente simple y eficaz. Un usuario graba un clip de 15 segundos de su voz a través de un micrófono de teléfono o computadora. A partir de este breve fragmento, Voice Engine puede generar un discurso que suena natural y muy similar al del hablante original. Este modelo puede ser utilizado para leer en voz alta cualquier texto que un usuario humano escriba.

Implicaciones y Potencial de Voice Engine

Las implicaciones de Voice Engine son enormes. Esta tecnología tiene un gran potencial para aquellos que se graban hablando a menudo, como podcasters, artistas de voz en off, narradores de audiolibros y publicidad, jugadores, streamers, agentes de servicio al cliente y vendedores. Además, pone presión sobre otras empresas dedicadas a este tipo de tecnología, como ElevenLabs, Captions, Meta, WellSaid Labs y MyShell, entre otros. Pero quizás una de las aplicaciones más significativas de Voice Engine es su capacidad para ofrecer soporte a individuos no verbales, proporcionándoles voces únicas y no robóticas, y ayudar en programas terapéuticos y educativos para aquellos con necesidades de aprendizaje o discapacidades del habla.

Por el momento, OpenAI ha hecho la tecnología disponible solo para un «pequeño grupo de socios de confianza«. Entre los destacados se encuentran Age of Learning, HeyGen, Dimagi, Livox y el Instituto de Neurociencias Norman Prince en Lifespan. Estos socios están probando y explorando las posibilidades de Voice Engine en una variedad de contextos.

Limitaciones y Estrategia de Despliegue de Voice Engine

Sin embargo, Voice Engine no está exento de limitaciones. Por ahora, la tecnología es limitada y OpenAI no permite actualmente que el público use Voice Engine. La organización está tomando un enfoque cauteloso e informado para un lanzamiento más amplio debido al potencial de mal uso de la voz sintética.

En cuanto a su estrategia de despliegue, OpenAI se adhiere estrictamente a las directrices de seguridad y ética. Los socios involucrados en las pruebas de Voice Engine están obligados por políticas de uso que prohíben la suplantación no autorizada y requieren el consentimiento informado de los donantes de voz. Además, OpenAI ha implementado medidas de seguridad como la marca de agua y el monitoreo proactivo para garantizar el uso responsable de la tecnología.

En conclusión, Voice Engine de OpenAI es una prometedora innovación en el campo de la inteligencia artificial que tiene el potencial de transformar la forma en que interactuamos con la tecnología y entre nosotros. Sin embargo, su despliegue y uso generalizado requiere una cuidadosa consideración de las implicaciones éticas y de seguridad.

Sandra Palencia

Sandra es especialista en marketing digital y experta en redes sociales. Ha completado un posgrado en Comunicación y RRPP de marcas de moda en Idep Barcelona, así como otro en Marketing y reputación online: comunidades virtuales. Sandra está al tanto de las últimas tendencias y mejores prácticas en redes sociales, y eso se refleja en su trabajo diario generando un impacto positivo en el mundo digital.

Esta entrada también está disponible en: Français Português