OpenAI retrasa el lanzamiento de Voice Engine, su tecnología de clonación de voz, por temor a usos indebidos

La síntesis de voz ha avanzado mucho desde el juguete Speak & Spell de 1978, que en su día asombró a la gente con su capacidad de última generación para leer palabras en voz alta utilizando un sonido electrónico. Ahora, gracias a los modelos de inteligencia artificial (IA) de aprendizaje profundo, el software no solo crea voces que suenan realistas, sino que también imita de forma convincente las ya existentes mediante pequeñas muestras de audio.

En esta línea, OpenAI acaba de anunciar Voice Engine, un modelo de IA para crear voces sintéticas a partir de instrucciones escritas basadas en un segmento de 15 segundos de audio grabado. En su página web ofrece muestras del sistema en acción.


Persona con cabeza de cerdo habla por teléfono

En 2022, se robaron 11 millones de dólares a través de miles de estafas telefónicas de impostores. Cuídate en 2023.


¿Qué implicaría el lanzamiento de Voice Engine de OpenAI?

Una vez clonada una voz, un usuario introduce un texto en Voice Engine y obtiene un resultado generado por la IA. Pero OpenAI aún no está preparada para lanzar de forma generalizada su tecnología. Inicialmente, la empresa tenía previsto presentar un programa piloto para que los desarrolladores se inscribieran en la interfaz de programación de aplicaciones (API, por sus siglas en inglés) a principios de este mes. Pero tras considerar más detenidamente las implicaciones éticas, la compañía decidió frenar sus intenciones por el momento.

“En sintonía con nuestro enfoque de la seguridad de la IA y nuestros compromisos voluntarios, optamos por ofrecer una vista previa de esta tecnología, pero no difundirla ampliamente en este momento”, escribe la empresa. “Esperamos que este avance de Voice Engine destaque su potencial y también motive la necesidad de reforzar la resistencia de la sociedad frente a los retos que plantean unos modelos generativos cada vez más convincentes”.

La tecnología de clonación de voz en general no es particularmente nueva: hemos cubierto varios modelos de síntesis de voz de IA desde 2022 y ha estado activa en la comunidad de código abierto con paquetes como OpenVoice y XTTSv2. Pero la idea de que OpenAI esté dando un paso adelante para que cualquier persona use su peculiar tecnología de voz es notable. Y en cierto modo, la reticencia de la compañía a liberarla por completo quizá sea la historia más importante.

OpenAI asegura que entre las ventajas de su tecnología de voz se encuentran la asistencia a la lectura mediante voces que suenan naturales, el alcance global de los creadores mediante la traducción de contenidos conservando los acentos nativos, el apoyo a las personas con discapacidades verbales a través de opciones de voz personalizadas y el apoyo a los pacientes para que recuperen su propia voz tras sufrir trastornos del habla.

Pero también significa que cualquiera que tenga 15 segundos de la voz grabada de alguien podría clonarla, y eso tiene implicaciones obvias para un posible uso indebido. Aunque OpenAI nunca publique de forma generalizada Voice Engine, la capacidad de clonación ya ha causado problemas en la sociedad a través de estafas telefónicas en las que alguien imita la voz de un ser querido y de llamadas automatizadas en campañas electorales con voces clonadas de políticos como Joe Biden.

Además, investigadores y periodistas han demostrado que la tecnología de clonación de voz sirve para acceder a las cuentas bancarias que emplean la autenticación por voz, como Voice ID de Chase, lo que llevó al senador Sherrod Brown, demócrata de Ohio, presidente del Comité de Banca, Vivienda y Asuntos Urbanos del Senado de EE UU, a enviar una carta a los directores generales de varios bancos importantes en mayo de 2023 para preguntar por las medidas de seguridad que están tomando las instituciones financieras para contrarrestar los riesgos potenciados por la IA.

Captura de pantalla del sitio web Voice ID de Chase, realizada el 29 de marzo de 2024. Muchos bancos utilizan funciones de autenticación de voz ampliamente promocionadas que pueden ser burladas con tecnología de clonación de voz de IA, tanto de código abierto como comercial.

OpenAI reconoce que la tecnología causaría problemas si se difundiera ampliamente, por lo que, en un principio, está intentando resolver esos problemas con un conjunto de normas. La ha estado probando con un grupo de empresas asociadas selectas desde el año pasado. Por ejemplo, la compañía de síntesis de video HeyGen ha estado empleando el modelo para traducir la voz de un hablante a otros idiomas manteniendo el mismo tono vocal.

Para usar Voice Engine, cada socio debe aceptar unas condiciones de uso que prohíbenla suplantación de otro individuo u organización sin consentimiento o derecho legal”. Los términos también exigen que los asociados obtengan la autorización informada de las personas cuyas voces se clonan, y también deben revelar claramente que los resultados obtenidos son generados por inteligencia artificial. OpenAI también está incorporando una marca de agua en cada muestra de voz que ayudará a rastrear el origen de cualquier voz generada por su modelo.


Fotografía de Martí Batres, jefe de gobierno de la Ciudad de México, con un fondo gráfico que tiene ondas de voz para simular un audio de WhatsApp.

Los análisis de la supuesta voz de Martí Batres en un audio viral en México parten de una idea anticuada de la tecnología. Los verificadores están condenados a actualizarse.


Recomendaciones de OpenAI ante la clonación de voz con IA

Así que, tal y como está la situación ahora, OpenAI está presentando Voice Engine, pero la empresa aún no está dispuesta a jugársela por el posible caos social que provocaría una liberación generalizada. En su lugar, la compañía ha reajustado su enfoque de marketing para que parezca que nos está advirtiendo a todos sobre esta tecnología ya existente de una forma responsable.

“Estamos adoptando un enfoque cauteloso e informado ante un lanzamiento más amplio debido al potencial de uso indebido de la voz sintética”, declaró la empresa en un comunicado. “Esperamos iniciar un diálogo sobre la implementación responsable de las voces sintéticas y sobre cómo puede adaptarse la sociedad a estas nuevas capacidades. Con base en estas conversaciones y a los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si implantar esta tecnología a gran escala y el modo de llevarlo a cabo”.

De acuerdo con su misión de introducir la tecnología con cautela, OpenAI ha hecho tres recomendaciones en su blog sobre la manera en que la sociedad debería cambiar para adaptarse a su nuevo modelo. Estos pasos incluyen eliminar gradualmente la autenticación basada en la voz para las cuentas bancarias, educar a la población para que comprenda “la posibilidad de contenido engañoso” y acelerar el desarrollo de técnicas que rastreen el origen del contenido de audio, “para que siempre quede claro cuándo estás interactuando con una persona real o con una inteligencia artificial”.

OpenAI también resalta que la futura tecnología de clonación de voz debería exigir verificar que el hablante original “añade conscientemente su voz al servicio” y crear una lista de aquellas que están prohibida para tales usos, como las que son “demasiado parecidas a figuras prominentes”. Ese sistema de control quizá acabe excluyendo a cualquiera cuya voz se asemeje demasiado, de forma natural y accidental, a la de un famoso o a la de un presidente.

Tecnología desarrollada en 2022

Según la compañía, OpenAI desarrolló su tecnología de Voice Engine a finales de 2022, y muchas personas ya han estado usando una versión con voces predefinidas, y no clonadas, de dos formas: el modo de conversación hablada de la aplicación ChatGPT lanzada en septiembre y la API de texto a voz de la empresa que debutó en noviembre del año pasado.

Con toda la competencia de clonación de voz que existe, OpenAI sostiene que Voice Engine destaca por ser un modelo de IA “pequeño”; qué tanto, exactamente, no lo sabemos. Pero al haberse desarrollado en 2022, casi parece que llega tarde a la fiesta. Y tal vez no sea perfecto en su capacidad de clonación. Los modelos anteriores de texto a voz entrenados por el usuario, como los de ElevenLabs y Microsoft, han tenido problemas con los acentos que quedan fuera de su conjunto de datos de entrenamiento.

Por ahora, Voice Engine sigue siendo un lanzamiento limitado a socios selectos. Pero si tenemos la oportunidad de experimentar con la tecnología de clonación de voz de OpenAI, te lo contaremos en un próximo informe.

Artículo publicado originalmente en Ars Technica. Adaptado por Andrei Osornio.


Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *