De Speak & Spell a OpenAI: La Revolución de la Síntesis de Voz y sus Implicaciones Éticas

OpenAI y su revolucionaria tecnología de voz

Desde el juguete Speak & Spell de 1978, que permitía a los niños practicar la ortografía con una voz robótica, hasta los modelos de inteligencia artificial (IA) de aprendizaje profundo actuales, la síntesis de voz ha experimentado una evolución espectacular. En este contexto, OpenAI ha presentado su modelo de IA de texto a voz, Voice Engine, que promete revolucionar aún más este campo.

Voice Engine tiene la capacidad de crear voces sintéticas a partir de un segmento de audio grabado de tan solo 15 segundos. Una vez clonada una voz, el usuario puede introducir texto y obtener un resultado de voz generado por IA. Inicialmente, OpenAI planeó lanzar un programa piloto para desarrolladores para la API de Voice Engine, pero decidió no hacerlo debido a las implicaciones éticas que esto podría conllevar.

La evolución de la tecnología de clonación de voz

La tecnología de clonación de voz no es nueva. Desde 2022, existen varios modelos de síntesis de voz IA, y la comunidad de código abierto ha contribuido con paquetes como OpenVoice y XTTSv2. Sin embargo, lo que hace notorio a OpenAI es su enfoque para permitir el uso de su tecnología de voz.

Beneficios y desafíos éticos de la tecnología de voz

Los beneficios de la tecnología de voz de OpenAI son múltiples. Puede asistir en la lectura a través de voces naturales, permitir a los creadores de contenido alcanzar una audiencia global traduciendo su contenido y preservando acentos nativos, apoyar a individuos no verbales con opciones de habla personalizadas y asistir a pacientes para recuperar su propia voz después de condiciones que afectan el habla.

No obstante, esta tecnología también plantea implicaciones éticas y riesgos significativos. La posibilidad de clonar cualquier voz con 15 segundos de audio grabado abre la puerta a un uso indebido potencial, como estafas telefónicas y robocalls de campañas electorales. Además, existen riesgos de seguridad, como el acceso a cuentas bancarias que utilizan autenticación de voz.

OpenAI es consciente de estos posibles problemas si la tecnología se libera ampliamente. Por ello, ha implementado un conjunto de reglas para trabajar en torno a estos problemas y ha estado probando la tecnología con un conjunto de empresas asociadas seleccionadas desde el año pasado. De esta manera, OpenAI busca garantizar que su revolucionaria tecnología de voz se utilice de manera responsable y segura.

Sandra Palencia

Sandra es especialista en marketing digital y experta en redes sociales. Ha completado un posgrado en Comunicación y RRPP de marcas de moda en Idep Barcelona, así como otro en Marketing y reputación online: comunidades virtuales. Sandra está al tanto de las últimas tendencias y mejores prácticas en redes sociales, y eso se refleja en su trabajo diario generando un impacto positivo en el mundo digital.

Esta entrada también está disponible en: Français Português