MelNet es la nueva tecnología con IA que imita la voz humanaLetra y voz libre

Agencias / InsurgentePress, Ciudad de México.- Facebook ha logrado desarrollar una red neuronal de inteligencia artificial que es capaz de imitar el sonido y entonación de la voz de cualquier persona con una precisión asombrosa. Te contamos qué es y en qué supera al asistente de voz de Google.

Sean Vasquez y Mike Lewis son los desarrolladores de inteligencia artificial de Facebok que han creado una IA capaz de imitar una voz humana a la perfección. De hecho, las pruebas ya son públicas: este clip con la voz del creador de Microsoft, Bill Gates, es una reproducción meramente tecnológica.

Según explicaron los autores, MelNet fue entrenada usando un 425 horas de charlas TED y numerosos audiolibros. Pero lo que no cuentan sus autores es que si esta tecnología se democratiza, puede facilitar el robo de identidades y generar ‘fake news’ para desinformar a la gente.

Cuando en 2016 el mundo conoció WaveNet, la tecnología basada en ‘machine learning’ responsable de generar la voz del asistente de Google, todos celebramos este gran logro tecnológico. Pero lo que hoy propone Facebook puede llegar a ser aterrador.

La clave de esta nueva tecnología radica en utilizar una red neuronal que ha sido entrenada usando espectogramas de alta resolución en lugar de los típicos diagramas de formas de onda. Esto proporciona una representación más detallada y compacta de las frecuencias de audio, al lograr representar los patrones sutiles y característicos que diferencian unas voces de otras, lo que era imposible hasta ahora, según explica el sitio The Verge.

No obstante, la limitación de MelNet está en que no puede replicar de forma realista el modo en que la voz humana varía a lo largo de un discurso. Esa es la razón por la que los creadores de MelNet han expuesto únicamente frases breves. Y esto sucede con todos los generadores de textos basados en IA.

Este avance es revolucionario pero puede representar un peligro en dependencia de para qué se use. El lado bueno podría ser un apoyo a los sistemas de audio para personas con problemas de habla, toda clase de aplicaciones en cine y televisión.

Pero en el mundo actual, donde las ‘fakes news’ engañan en masa a las personas a través de las redes sociales, podemos advertir que esta nueva tecnología puede convertirse en una herramienta más para contribuir al engaño. Las palabras de líderes políticos y celebridades ya están en remojo.

MelNet: A Generative Model for Audio in the Frequency Domain (unconditional & conditional speech & audio generation) https://t.co/mGGV5tm9yF pic.twitter.com/OEgb2G2W2i
— ML Papers Explained | A.I. Socratic Circles (@AISC_TO) June 7, 2019