Microsoft lo ha conseguido. Después de que OpenAI desarrollase una IA capaz de clonar voces con un gran precisión y que nunca llegó a ver la luz para el gran publico, la compañía fundada por Bill Gates, ha ido más allá y ha creado una IA que tampoco comercializará que es idéntica a la voz humana.

En un artículo publicado en arXiv, los investigadores de Microsoft afirman que VALL-E 2 es capaz de generar "un habla precisa y natural con la voz exacta del hablante original, comparable al rendimiento humano". En otras palabras, el nuevo generador de voz de IA es lo suficientemente convincente como para ser confundido con una persona real, según sus creadores.

"VALL-E 2 es el último avance en modelos lingüísticos de códec neural que marca un hito en la síntesis de texto a voz (TTS), alcanzando por primera vez la paridad humana", escriben los investigadores en el artículo. "Además, VALL-E 2 sintetiza de forma consistente habla de alta calidad, incluso para frases que tradicionalmente son un reto debido a su complejidad o frases repetitivas".

Microsoft puso a prueba VALL-E 2 con los conjuntos de datos LibriSpeech y VCTK, superándolos con creces. Cuando la empresa afirma que la herramienta de IA alcanza la paridad humana, se refiere a que VALL-E 2 obtuvo mejores resultados que las muestras reales en cuanto a robustez, similitud y naturalidad. En otras palabras, la herramienta puede producir un habla natural prácticamente idéntica a la del hablante original dominando incluso sutilezas como el énfasis correcto en las palabras de una frase.

 

Funcionamiento de VALL-E 2

Basándose en la tecnología de VALL-E, la nueva herramienta de voz de IA de Microsoft incluye dos mejoras significativas que aumentan enormemente su rendimiento. El modelado de códigos agrupados permite organizar mejor los códigos de los códecs, resultando en secuencias más cortas que aumentan la velocidad de inferencia y resuelven problemas asociados al modelado de secuencias largas.

El muestreo consciente de la repetición, por otro lado, replantea el proceso original de muestreo de núcleos para buscar la repetición de tokens al decodificar. Este proceso ayuda a estabilizar la decodificación y evita el problema del bucle infinito que presentaba el VALL-E original.

Según Microsoft, VALL-E 2 es un proyecto de investigación sin planes inmediatos de incorporar la tecnología a un producto de consumo ni de ponerla a disposición del público. La empresa también reconoce el riesgo potencial de uso indebido, como la suplantación de identidad o la falsificación de identificación de voz.

A pesar de estos riesgos, Microsoft cree que VALL-E 2 podría tener aplicaciones en educación, traducción, accesibilidad o chatbots, entre otros. Los beneficios de esta tecnología podrían contribuir a esfuerzos valiosos, como generar voz para individuos con afasia o personas con esclerosis lateral amiotrófica (ALS).