Una Inteligencia Artificial retrata el rostro de una persona con solo escuchar su voz

Investigadores del Instituto de tecnología de Massachusetts (MIT) han desarrollado una IA que es capaz de conocer el aspecto de una persona solo mediante un audio con su voz.

La Inteligencia Artificial (IA) nunca deja de sorprendernos y cada día van surgiendo nuevos avances que nos hacen replantearnos hasta dónde es capaz de llegar este tipo de tecnología. La última novedad se trata de una IA capaz de saber cómo es tu cara simplemente escuchando tu voz.

Esto, que parece de ciencia ficción, ya es una realidad gracias a los científicos del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) perteneciente al MIT, que han avanzado en su algoritmo denominado Speech2Face, que ya dieron a conocer en 2019.

Este algoritmo es capaz de reconstruir la cara de una persona mediante la voz y, para ello, solo necesita una única grabación de audio de la persona hablando, aunque también es cierto, que no siempre acierta.

Esto se ha conseguido desarrollar gracias al diseño y entrenamiento de una red neuronal profunda utilizando millones de videos de YouTube en las que salían personas hablando. En una primera fase de este entrenamiento, la IA pudo asimilar la correlación que existe entre el sonido de la voz de una persona y el aspecto de esta.

Con estas correlaciones se pudieron hacer unos primeros supuestos con respecto a la edad, el género o incluso el origen de la persona implicada.  No hubo ningún tipo de participación humana en esta primera parte del proceso, sino que, simplemente, recibió voces de muchos vídeos y los investigadores no necesitaron etiquetar de forma manual ningún dato.

Para lograr una mayor precisión a la hora de reconstruir las caras, los científicos crearon un descodificador de rostros que creaba una reconstrucción de este a través de un cuadro fijo ignorando variables como la pose o la luz.

Gracias a esto se logró comparar más fácilmente las reconstrucciones de la voz con unas características más realistas de la persona. Tras haber superado esta primera fase, se llevó a cabo una segunda en la que obtuvieron unos resultados que se acercaban de manera muy sorprendente a un hablante real.

Pese a todo, todavía no es un método 100% exacto, ya que, en algunos de los casos, la IA tuvo dificultades para visualizar al hablante porque hay algunos factores como el idioma o el tono de voz que causan diferencias entre el hablante y su rostro que determinaron de forma incorrecta su género, edad y procedencia.

Desde el MIT afirman que se trata de un modelo que “está diseñado para revelar las correlaciones estadísticas que existen entre rasgos faciales y las voces”. Además, hablaron de los datos que utilizaron con YouTube, ya que aseguran que “no representan por igual a toda la población mundial”.

Los objetivos que se pretenden conseguir con esta tecnología en el mundo real sería el poder crear un dibujo animado de una determinada persona para emplearla en videoconferencias. También serviría para dar una imagen a los asistentes de voz de tal manera que estos dispositivos estarían más personalizados.

Una de las polémicas respecto a esta Inteligencia Artificial es el uso que le podrían dar las fuerzas de seguridad, ya que se podría usar para producir un retrato que mostrarse a una persona sospechosa en caso de solo tener la voz para localizarlo.