A través de un comunicado reciente, OpenAI aseguró que logró desarrollar una herramienta lo suficientemente potente como para poder clonar voces humanas de manera más que satisfactoria. Sin embargo, notificaron que no lanzarán la herramienta porque tiene un riesgo muy grande, o al menos no lo harán en un futuro inmediato.
Este sistema de OpenAI se llama Voice Engine y tiene la capacidad de clonar las voces humanas, otorgándoles un sonido natural emotivo y realista con una duración de hasta 15 segundos. Según su consideración, como puede ser utilizado con fines maliciosos, no estará disponible para los usuarios en el próximo tiempo. Mientras tanto, se espera que la compañía lance Sora, su Inteligencia Artificial para generar vídeos de alta calidad.
El principal motivo detrás de la decisión de OpenAI
El 2024 está considerado como uno de los años electorales más importantes de todos los tiempos. Por primera vez en toda la historia de la humanidad, se elegirá presidente (o primeros ministros) en casi 100 países, incluyendo Estados Unidos, seis naciones de América Latina y más de 10 estados europeos.
Es por esta razón que la compañía consideró muy peligroso lanzar una herramienta que sea capaz de generar una cantidad ilimitada de fake news ya que esto podría tener un impacto más que importante en los votos de la población. Cabe destacar que en Estados Unidos ya se produjo una gran controversia en las elecciones de 2015 con el escándalo Cambridge Analytics, un episodio que fue decisivo para el triunfo de Donald Trump.
“Reconocemos que generar un discurso que se asemeje a las voces de las personas conlleva serios riesgos, que son especialmente importantes en un año electoral”, explicó OpenAI en su comunicado. A su vez, anteriormente también habían decidido que los políticos no puedan usar sus herramientas para generar contenido (esto incluye ChatGPT o DALL-E).
Cómo funciona Voice Engine, la nueva herramienta de la compañía
Esta aplicación de Inteligencia Artificial tiene la capacidad de convertir texto a voz para crear voces sintéticas. Hasta ahí, sus capacidades son iguales a muchos sistemas, aunque tiene un agregado importante que la vuelve relevante: permite a los usuarios traducir su trabajo en otros idiomas sin perder su propio acento nativo.
A su vez, también es de gran ayuda para las personas que tienen problemas de comunicación verbal, ya que pueden utilizar su propia voz para, por ejemplo, tener una llamada por teléfono. De hecho, al enseñar el potencial de la herramienta, OpenAI demostró como la voz de una persona anglosajona es traducida a varios idiomas, incluidos el español, el japonés, el francés, el alemán y el mandarín. Siempre manteniendo su acento natural.
Quiénes están probando la nueva herramienta
Más allá de que no haya sido lanzada para el público general, existe un puñado de compañías que tienen acceso a Voice Engine para probar todas sus funciones, descubrir errores y mejorar los servicios. Esta es una estrategia que OpenAI suele realizar con sus inteligencias artificiales para prevenir fallas en su funcionamiento.
Por ejemplo, Sora, la IA de generación de vídeos que promete ser la más potente del mundo gracias a la calidad de imagen que logra, está siendo testeada por cineastas. De hecho, según explicó la empresa, se contactaron con varios de los directores de Hollywood más importantes para que testeen su funcionamiento y lo puedan aplicar a su trabajo.
En este sentido, entre las compañías que ya tuvieron acceso a Voice Engine, se destacan la entidad de tecnología educativa Age of Learning, la institución fabricante de software de salud Dimagi, el sistema de salud Lifespan, la creadora de aplicaciones de comunicación de Inteligencia Artificial Livox y la plataforma de narración visual HeyGen. Todas están estrechamente relacionadas a los objetivos de la IA.
“Estamos adoptando un enfoque cauteloso e informado para una publicación más amplia debido al potencial de uso indebido de la voz sintética», aseguró OpenAI en el comunicado en el que presentaron la herramienta y explicaron las razones por la que no estará disponible. También avisaron que todas las compañías que probaron Voice Engine se mostraron de acuerdo con sus políticas de uso.
La principal medida de seguridad de Voice Engine
Más allá de que no estará disponible en la proximidad, desde la empresa detallaron que implementarán una política de uso con el objetivo de proteger a los usuarios y a las personas que podrían llegar a verse afectadas porque se clone su voz. Entre estas cuestiones, la que más preocupa es que la utilicen estafadores para acceder a cuentas bancarias.
“Finalmente, hemos implementado un conjunto de medidas de seguridad, que incluyen marcas de agua para rastrear el origen de cualquier audio generado por Voice Engine, así como un monitoreo proactivo de cómo se utiliza», mencionaron en el comunicado.
En este sentido, la principal estrategia para prevenir que haya estafas o delitos digitales será incluir una marca de agua que notifique a los usuarios la proveniencia del audio. También planean que exista una serie de lista de voces prohíbidas que esté compuesta por figuras mundiales, famosos que pueden ir desde presidentes hasta estrellas del espectáculo.
Una fecha aproximada de lanzamiento
Si bien esto no fue confirmado por OpenAI en el comunicado, el potencial que poseen Sora y Voice Engine para generar fake news (a través de videos falsos sobre personas reales o de voces inventadas de manera artificial) es una de las principales razones por las cuales se espera que no sean lanzadas antes de las elecciones en Estados Unidos.
En este sentido, ambas herramientas podrían llegar a estar disponibles a finales de 2024, aunque se espera que tengan un acceso premium, con precios que podrían ascender hasta a 15 dólares por suscripción, al menos de acuerdo a lo informado por el sitio especializado TechCrunch en un artículo sobre Voice Engine.