Investigadores universitarios quieren expandir el reconocimiento automático por voz a 2000 idiomas

Un equipo de investigadores de la Universidad Carnegie Mellon está buscando expandir el reconocimiento automático de voz a 2000 idiomas.

En este momento, solamente una parte de los aproximadamente más de 7000 idiomas hablados en todo el mundo se beneficiaría de las tecnologías lingüísticas modernas, como la transcripción de voz a texto o los subtítulos automáticos.

Xinjian Li tiene un doctorado y es estudiante del Instituto de Tecnologías del Lenguaje (LTI) de la Facultad de Informática, dice:

“Muchas personas en este mundo hablan diversos idiomas, pero no se están desarrollando herramientas tecnológicas lingüísticas para todos”. “Desarrollar tecnología y un buen modelo de lenguaje para todas las personas es uno de los objetivos de esta investigación”.

Li pertenece a un equipo de expertos que buscan simplificar los requisitos de datos que los idiomas necesitan para desarrollar un modelo de reconocimiento de voz.

La investigación titulada “ASR2K: Reconocimiento de voz para alrededor de 2000 idiomas sin audio” se presentó en Interspeech 2022 en Corea del Sur.

La mayoría de los modelos de reconocimiento de voz existentes requieren conjuntos de datos de texto y audio. Si bien, existen datos de texto para miles de idiomas, no ocurre lo mismo con el audio.

El equipo quiere eliminar la necesidad de datos de audio, centrándose en elementos lingüísticos que son comunes en muchos idiomas.

Las tecnologías de reconocimiento de voz normalmente se centran en los fonemas de un idioma, que son sonidos distintos que lo distinguen de otros idiomas. Estos son exclusivos de cada idioma.

Al mismo tiempo, los idiomas tienen teléfonos que describen cómo suena físicamente una palabra y varios teléfonos pueden corresponder a un solo fonema.

Si bien, los idiomas separados pueden tener diferentes fonemas, los teléfonos subyacentes pueden ser los mismos.

El equipo está trabajando en un modelo de reconocimiento de voz que depende menos de los fonemas y más de la información sobre cómo se comparten los teléfonos entre idiomas. Eso ayuda a reducir el esfuerzo necesario para construir modelos separados para cada idioma individual.

Al emparejar el modelo con un árbol filogenético, que es un diagrama que mapea las relaciones entre idiomas, ayuda con las reglas de pronunciación.

El modelo del equipo y la estructura de árbol les ha permitido aproximarse al modelo de voz para miles de idiomas incluso sin datos de audio.

“Estamos tratando de eliminar este requisito de datos de audio, lo que nos ayuda a pasar de 100 a 200 idiomas a 2000”
“Esta es la primera investigación dirigida a una cantidad tan grande de idiomas y somos el primer equipo que tiene como objetivo expandir las herramientas lingüísticas a este alcance”.

La investigación, aunque aún se encuentra en una etapa inicial, ha mejorado las herramientas de aproximación lingüística existentes en un 5 %.

Artículos Relacionados
7 Predicciones Tecnológicas del Futuro

7 predicciones de innovaciones que quizás pueden llegar a lo largo del año 2019, un año más; no por ello, menos importante dentro de toda una década de grandes revoluciones tecnológicas.

PayPal ya permite pagar con Bitcoin, Ethereum y Litecoin (A los usuarios de EE. UU.)

Paypal lanzó ayer, la nueva función de Checkout with Crypto, lo que que amplía significativamente la utilidad de las criptomonedas. A partir de ahora, todos los clientes de PayPal con posesión de criptomonedas en los EE. UU., podrán optar por pagar con criptomonedas desde ¡SEGUIR LEYENDO!

El modo incógnito de Tinder permite ocultar tu perfil de las personas que no te gustan

Tinder permite navegar a través de los perfiles mientras permaneces ocultos del resto, pero para ello tendrás. El equipo de Tinder, anunció un nuevo modo de incógnito para la aplicación de ligoteo más usada del mundo. Con este nuevo modo de incógnito, vas a ¡SEGUIR LEYENDO!