Investigadores de la Universidad de Washington han desarrollado un nuevo sistema de auriculares llamado Traducción Espacial del Habla que puede traducir a múltiples hablantes simultáneamente, preservando la dirección y las cualidades únicas de sus voces. Esto aborda un problema común de la tecnología de traducción existente, que a menudo tiene dificultades en espacios públicos ruidosos y normalmente solo gestiona a un solo hablante a la vez.
Un equipo de investigadores de la Universidad de Washington (UW), liderado por el estudiante de doctorado Tuochao Chen, ha desarrollado Spatial Speech Translation, un innovador sistema de auriculares diseñado para traducir a múltiples hablantes simultáneamente, preservando la dirección y las cualidades de sus voces. Esta innovación aborda las limitaciones de las tecnologías de traducción existentes, que a menudo luchan en espacios públicos ruidosos y con múltiples hablantes. El sistema fue presentado en la Conferencia ACM CHI sobre Factores Humanos en Sistemas Informáticos en Yokohama, Japón, el 30 de abril de 2025.
La génesis de este proyecto surgió de la experiencia personal de Chen. Durante una visita a un museo en México, encontró serias dificultades al usar una aplicación de traducción en su teléfono debido al ruido de fondo y la presencia de múltiples hablantes. Esta experiencia destacó la necesidad de una solución de traducción más sofisticada, capaz de manejar escenarios del mundo real. Las tecnologías existentes, como las gafas de Meta, se limitan a traducir a un solo hablante a la vez, lo que enfatiza aún más la necesidad de una solución más versátil.
Spatial Speech Translation supera estas limitaciones a través de varias innovaciones clave. En primer lugar, el sistema emplea algoritmos que funcionan de manera similar al radar, escaneando un espacio de 360 grados para detectar y rastrear a múltiples hablantes, ya sea en interiores o exteriores. Según Chen, los algoritmos determinan y actualizan constantemente el número de hablantes presentes. Esto permite al sistema identificar y aislar las voces individuales incluso en medio de una cacofonía de sonidos.
En segundo lugar, el sistema traduce el habla manteniendo las cualidades expresivas y el volumen de la voz de cada hablante. Esto se logra ejecutando la traducción en un dispositivo, como dispositivos móviles con un chip Apple M2, como computadoras portátiles y Apple Vision Pro, evitando el uso de la computación en la nube debido a las preocupaciones de privacidad asociadas con la clonación de voz. Esto asegura que las voces traducidas conserven sus características únicas, lo que facilita al oyente la distinción entre los hablantes.
En tercer lugar, el sistema rastrea la dirección y las cualidades de las voces a medida que los hablantes mueven la cabeza. Esta característica proporciona una experiencia auditiva más inmersiva y natural, permitiendo a los usuarios percibir la ubicación espacial de cada hablante. El sistema fue probado en 10 entornos interiores y exteriores, demostrando su capacidad para funcionar eficazmente en diversos entornos.
El rendimiento del sistema fue evaluado a través de pruebas de usuario. En una prueba con 29 participantes, los usuarios prefirieron el sistema Spatial Speech Translation a los modelos que no rastreaban a los hablantes a través del espacio. Además, una prueba de usuario separada reveló que la mayoría de los participantes preferían un retraso de 3-4 segundos en la traducción, ya que los retrasos más cortos (1-2 segundos) resultaron en más errores. El equipo de investigación está trabajando activamente para reducir el retraso en la traducción en futuras iteraciones.
La iteración actual del sistema está diseñada para traducir el habla común, y el equipo se centra en español, alemán y francés para este artículo. Sin embargo, investigaciones anteriores han demostrado el potencial para entrenar modelos de traducción para manejar aproximadamente 100 idiomas. Esto sugiere un futuro prometedor para la tecnología, con el potencial de romper las barreras lingüísticas en todo el mundo.
El desarrollo de Spatial Speech Translation representa un paso significativo en el campo de la traducción de idiomas. Como afirmó Shyam Gollakota, profesor de la UW en la Paul G. Allen School of Computer Science & Engineering, “Por primera vez, hemos preservado el sonido de la voz de cada persona y la dirección de la que proviene”. El equipo cree que esta tecnología puede revolucionar la forma en que las personas interactúan a través de las barreras lingüísticas.
El equipo de investigación incluyó a Qirui Wang, un becario de investigación en HydroX AI y estudiante de pregrado de la UW, y a Runlin He, estudiante de doctorado de la UW. El proyecto fue financiado por un premio Moore Inventor Fellow y un UW CoMotion Innovation Gap Fund. Para obtener más información, los lectores pueden contactar a los investigadores en babelfish@cs.washington.edu.
Investigadores de la Universidad de Washington han creado audífonos de “Traducción Espacial del Habla” capaces de traducir a múltiples hablantes simultáneamente, preservando sus voces individuales y direccionalidad en sonido 3D. Este avance significativo podría disolver las barreras lingüísticas y fomentar el entendimiento intercultural, revolucionando la comunicación global y creando un mundo sin barreras idiomáticas.
Leave a Reply