La Revolución de la Voz por OpenAI
OpenAI y su Nueva Tecnología
OpenAI, la compañía liderada por Sam Altman, ha anunciado Voice Engine, una tecnología capaz de clonar cualquier voz a partir de una muestra de tan solo 15 segundos. Esta innovación es un paso más en la evolución de OpenAI, que ya cuenta con modelos de inteligencia artificial capaces de generar imágenes, texto y vídeo.
El Origen de la Voz
El modelo de Voice Engine no es nuevo. OpenAI comenzó a desarrollarlo a finales de 2022 y lo ha utilizado para generar la voz de su API de texto a voz. También se utilizó para crear la voz de ChatGPT en las aplicaciones móviles. Desde 2023, un “reducido grupo de partners de confianza” ha estado utilizando el modelo para explorar posibles casos de uso.
El Poder de 15 Segundos
Con solo 15 segundos de muestra y un poco de texto, Voice Engine puede clonar una voz. Aunque no sabemos cuán grande es el modelo, según OpenAI, “es notable que un modelo pequeño con una sola muestra de 15 segundos pueda crear voces emotivas y realistas”.
El Futuro de la Voz
OpenAI espera entablar un diálogo sobre el despliegue responsable de las voces sintéticas y sobre cómo la sociedad puede adaptarse a estas nuevas capacidades. A partir de estas conversaciones y de los resultados de estas pruebas a pequeña escala, tomarán una decisión más informada sobre si desplegar esta tecnología a gran escala y cómo hacerlo.
Los Buenos Usos
OpenAI ha aprovechado el anuncio para hablar de los casos de uso desarrollados por esos “partners de confianza”. Uno de ellos es la asistencia a la lectura, que permite a los más pequeños o a las personas que no saben leer escuchar el texto con una voz más natural y amigable.