Voice Engine de OpenAI promete la habilidad de clonar voces con tan solo 15 segundos de audio.

Empresas como Age of Learning, HeyGen y Dimagi tienen acceso a esta herramienta innovadora. Anteriormente, la creación de voces sintéticas y la clonación de voces estaban limitadas a grandes estudios, pero ahora estas tecnologías se están volviendo más accesibles y ampliamente utilizadas.

Recientemente, OpenAI anunció el lanzamiento de Voice Engine, una nueva herramienta de IA diseñada para crear voces personalizadas. Aunque los resultados aún están en una etapa preliminar, el adelanto del modelo impresionó por su calidad. Con solo 15 segundos de audio y un simple texto de entrada, Voice Engine puede generar voces emotivas y realistas que se asemejan mucho a la voz original.

Esta capacidad tiene implicaciones significativas, permitiendo que cualquier persona utilice la voz de individuos famosos para diversos propósitos, como crear contenido humorístico, falsificar grabaciones o incluso cometer fraudes. Considerando el potencial uso indebido de esta tecnología, la herramienta está siendo probada inicialmente por un grupo restringido de usuarios para garantizar su seguridad e integridad.

Aunque el sintetizador de voz asociado con Voice Engine se utilizó previamente para impulsar las características de audio de ChatGPT, ahora se presenta como una herramienta independiente que ofrece nuevas posibilidades para la creación y personalización de voces.

Entre las empresas con acceso a Voice Engine se encuentran Age of Learning, especializada en tecnología educativa, la plataforma de narrativa visual HeyGen, el desarrollador de software de salud Dimagi, el creador de la aplicación de comunicación de IA Livox y el sistema de salud Lifespan. Estas empresas, que ya trabajan con voces sintéticas, ahora tienen la oportunidad de explorar nuevas posibilidades con esta tecnología avanzada.

La publicación en el blog de OpenAI presenta varias muestras de Voice Engine en acción. En una de ellas, a partir de la lectura realizada por un individuo, se generaron versiones del mismo texto en diferentes idiomas como español, mandarín, alemán, francés y japonés. Sorprendentemente, en cada muestra generada por la IA, se preservaron el tono y el acento del locutor original, demostrando la precisión del sistema.

Esta demostración revela el potencial diversificado del generador de voz. En el campo de la accesibilidad, por ejemplo, una persona que haya perdido la capacidad de hablar debido a un accidente podría tener su voz clonada y utilizada en dispositivos, permitiendo una comunicación más natural. Aunque este uso ya existía, generalmente estaba asociado con voces genéricas. En el ámbito del entretenimiento y la producción de contenido, la capacidad de tener videos en varios idiomas puede convertir a los influenciadores locales en figuras globales con poco esfuerzo.

Sin embargo, el potencial de esta tecnología también plantea preocupaciones significativas, especialmente en relación con la desinformación, los delitos, las estafas y los fraudes. OpenAI es consciente de estas preocupaciones y espera iniciar un diálogo sobre el uso responsable de voces sintéticas con este lanzamiento y sus usuarios iniciales. Por esta razón, el lanzamiento público de Voice Engine solo ocurrirá después de implementar medidas de seguridad que prevengan la falsificación de audio. Imaginar el impacto de esta herramienta siendo liberada en un año electoral en varios países evidencia los posibles desafíos que deben ser considerados y enfrentados.

Además, es crucial contar con la colaboración de diversos sectores, incluyendo gobierno, medios de comunicación, entretenimiento, educación, sociedad civil y otros, para probar la herramienta y proporcionar retroalimentación que pueda contribuir a construir una plataforma más segura, aunque exista cierta desconfianza sobre esta posibilidad.

Como se destaca en el texto de la empresa, se han implementado varias medidas de seguridad. Esto incluye términos de uso que prohíben el uso de la voz de cualquier persona sin su consentimiento o derecho legal. Además, se requiere que se divulgue que las voces fueron generadas por Voice Engine, y cada archivo contiene una marca de agua para rastrear su origen. La herramienta también está siendo monitoreada para verificar cómo se está utilizando.

OpenAI reconoce la necesidad de cambios significativos a medida que el audio generado por IA se vuelve más ampliamente disponible. Por ejemplo, se está considerando la eliminación progresiva de la autenticación basada en voz para cuentas bancarias. La empresa enfatiza que cualquier implementación a gran escala de tecnología de voz sintética debe ir acompañada de experiencias de autenticación de voz que aseguren que el locutor original está agregando conscientemente su voz al servicio. Además, es esencial tener una lista de voces prohibidas que detecten y eviten la creación de voces muy similares a las de figuras prominentes.

Declaración de Open AI

Las consideraciones mencionadas resaltan la incertidumbre en torno a la disponibilidad de la herramienta para el público en general y subrayan la importancia de la simultaneidad entre el desarrollo técnico y ético-legal para garantizar la integridad de cualquier contenido. Aún queda por determinar cómo se entrenó el modelo.

La generación de audio a partir de textos es un área de IA generativa que sigue evolucionando. Otras empresas que utilizan esta técnica incluyen Podcastle y ElevenLabs. Una herramienta que atrajo mucha atención a principios del año pasado fue VALL-E, que con solo 3 segundos de audio puede capturar todas las sutilezas de la voz, preservando el tono emocional y el entorno acústico del locutor y simulando cualquier otra conversación, incluso si las condiciones y el tono emocional cambian ligeramente.

Todo esto refuerza la idea de que, en un futuro cercano, las personas necesitarán desarrollar la habilidad de cuestionar e investigar si algo es “real”, entre comillas, o no. Es probable que pronto los niños tengan materias que enseñen técnicas de verificación, incluso a través de códigos, para no ser engañados por metadatos manipulados.

Conclusión

Si anteriormente Spotify necesitaba asociarse con empresas de IA para producir música de cantantes fallecidos, como sucedió en 2016 cuando crearon una nueva canción del rapero brasileño Sabotage, fallecido en 2003, ahora cualquier persona puede crear canciones de cantantes famosos, vivos o muertos. Esto se evidenció con la canción “Heart On My Sleeve”, que simula las voces de Drake y The Weeknd, y que causó un gran impacto el año pasado.

Es innegable la revolución que la Inteligencia Artificial Generativa (GenAI) puede traer, especialmente para la industria audiovisual y, más específicamente, para la industria musical. La influencia en la música será significativa, no solo con computadoras escribiendo canciones, sino también estimulando nuevas formas de síntesis de audio, masterización de pistas, creación de instrumentos anteriormente imposibles y replicación de voz.

Sin embargo, al abstraer la parte creativa, es evidente que los riesgos involucrados son considerables. Por lo tanto, es crucial exigir que los desarrolladores abran la base de datos a través de la cual se entrenó la solución, garantizando transparencia en el proceso.

Simultáneamente, necesitamos mecanismos éticos y legales para protegernos, ya que incluso la grabación de una reunión podría ser utilizada con propósitos indebidos. Mientras que la GenAI puede abrir nuevas formas de creación y posibilidades de alcance antes inimaginables en la industria creativa, en nuestra vida diaria enfrentamos más riesgos que beneficios. El desafío radica en comprender hacia dónde nos llevará esta evolución.