VALL-E puede imitar cualquier voz
Microsoft anuncia VALL-E, el Comma 3 supera al Autopilot y las campañas de desinformación no son tan efectivas.
Puedes encontrar las versiones tanto en audio como en video de este contenido en sus respectivas ligas.
Noticias:
Fuentes de Semafor indican que Microsoft está en conversaciones para incrementar su inversión en OpenAI en $10 mil millones de dólares para tener una participación del 49% en la empresa. Microsoft por su parte anunció que adquirió al fabricante de las Unidades de Procesamiento de Datos, Fungible, en diciembre pasado. Los DPUs manejan las tareas de enrutamiento de red y seguridad en los centros de datos, lo cual resta precisión al trabajo hecho por CPUs y GPUs. En los últimos años, se han adquirido varios fabricantes de DPUs. Nvidia compró a BlueField en 2019 y AMD adquirió Pensando el año pasado.
A partir de febrero, Instagram eliminará la pestaña de Compras de la página principal de Instagram. La pestaña de Reels ocupará su lugar y el botón de Crear regresará al centro de la aplicación. Se desconoce cómo se ajustarán los menús para acceder a compras.
Un estudio hecho por el Centro de Medios Sociales y Política de la Universidad de Nueva York, publicado en la revista Nature Communications, encontró que las campañas de desinformación rusas en Twitter lanzadas durante 2016 llegaron a pocos usuarios y no hubo evidencia de una relación directa entre la exposición a estas campañas de influencia hechas por Rusia y un posible cambio de actitud, polarización o tendencia de votos. El estudio encontró que el 70% de las exposiciones a la desinformación alcanzaron al 1% de los usuarios.
Si eres de los que esperaban ansiosos a que Tesla implementara la conducción automática en sus vehículos, te tenemos una sorpresa. George Hotz presentó el Comma 3, una pieza de hardware para conducción asistida de siguiente generación lanzada por su compañía, Comma.ai. Tal vez no recuerdes el nombre de Hotz, pero desde los 17 años desbloqueaba iPhones, rompía la seguridad de PlayStations (por lo cual Sony lo demandó, aunque retiró la demanda si prometía no tocar su hardware de nuevo) y mientras que ha expresado su desprecio ante la tecnología del Autopilot de Tesla, ha trabajado en una versión superior. El Comma 3 es más grande que un teléfono, pero más pequeño que un iPad y trae preinstalado el software de asistencia Openpilot. Puedes montar el sistema en el parabrisas, conectarlo a la computadora de tu auto, para que se pueda conectar al sistema de control y detección de carriles y te ofrece un sistema de conducción de manos libres. El sistema es compatible con más de 200 vehículos, con modelos lanzados a partir del 2014, y funciona mejor con los Toyotas y Hyundais más recientes, de acuerdo con la compañía. Tiene un costo de $1,499 dólares más $200 dólares para la instalación en el vehículo.
Microsoft anunció un nuevo generador de texto a voz llamado VALL-E, el cual puede simular la voz de una persona cuando esta se graba diciendo un mensaje de tres segundos de duración. VALL-E usa EnCodec de Meta para seccionar las muestras de audio en tokens que pueden ser utilizados al compararlos con los datos de entrenamiento que le indican cómo hacer otros sonidos con el mismo tipo de narrador. VALL-E funciona mejor cuando la voz en la muestra coincide con una de las voces con las que fue entrenado. VALL-E también reproduce el sonido de la grabación de muestra, como el sonido metálico que se presenta en una llamada. Microsoft tiene un sitio web con demos, pero no reveló el código para su revisión.
Simulando la voz de los demás
El jueves pasado, investigadores de Microsoft presentaron su modelo de generación de texto a voz por Inteligencia Artificial llamado VALL-E. Con este se hace una ingesta de tres segundos de audio con la voz de una persona, y una vez que es entrenado, puede crear diálogos con la voz de la persona, imitando su estilo y manteniendo el tono narrativo del original.
Microsoft dice que VALL-E es un “modelo de lenguaje de codecs neuronales” y se desarrolló usando la tecnología EnCodec presentada por Meta en octubre del año pasado. A diferencia de otros métodos de texto a voz que sintetizan un sonido y manipulan la forma de onda, VALL-E genera códecs de audio discretos a partir de texto y comandos acústicos. ¿En español? Analiza como una persona se escucha, separa esa información en sus componentes o tokens, y es entrenada para igualar lo que analizó sobre cómo debe de sonar una voz para decir cosas que no se capturaron con la muestra de audio.
Microsoft ha invertido mucho dinero en proyectos innovadores. Así como en este momento invierte en empresas de desarrollo de herramientas de inteligencia artificial, en su momento fue de las inversoras más importantes en Facebook, ahora Meta. Quien diría que esa inversión serviría para poder tomar después gran parte de la investigación hecha por meta en la revisión y análisis de voz, lo cual ha usado para desarrollar traductores muy eficientes, y con esto desarrolló la herramienta de la que ahora hablamos.
Algo que a nivel personal me da cierta tranquilidad, es que mientras que otras herramientas como los generadores de texto o de imagen basados en inteligencia artificial han hecho cuestionarnos sobre los usos poco éticos que podrían tener, Microsoft ha hecho acuerdos para implementarlos de maneras útiles que ayudan a mostrar cómo no todo debe ser paranoia. En este caso, desde luego que un “deepfake” de voz es algo peligroso, especialmente porque VALL-E puede replicar la identidad y patrones de voz de la fuente, pero Microsoft tiene un récord bastante positivo para la implementación de herramientas que en otras manos serían muy cuestionables. En este caso se han desarrollado los Principios de Microsoft para inteligencia Artificial, así como la construcción de modelos de detección para poder discriminar cuando un clip de audio es real o fue una creación sintetizada hecha por este tipo de herramientas.
Si quieres saber más sobre el trabajo de Microsoft con DALL-E, no con VALL-E, revisa nuestro episodio 280, en donde hablamos de su futura integración en Bing.