Investigadores universitarios quieren expandir el reconocimiento automático por voz a 2000 idiomas

Un equipo de investigadores de la Universidad Carnegie Mellon está buscando expandir el reconocimiento automático de voz a 2000 idiomas.

En este momento, solamente una parte de los aproximadamente más de 7000 idiomas hablados en todo el mundo se beneficiaría de las tecnologías lingüísticas modernas, como la transcripción de voz a texto o los subtítulos automáticos.

Xinjian Li tiene un doctorado y es estudiante del Instituto de Tecnologías del Lenguaje (LTI) de la Facultad de Informática, dice:

“Muchas personas en este mundo hablan diversos idiomas, pero no se están desarrollando herramientas tecnológicas lingüísticas para todos”. “Desarrollar tecnología y un buen modelo de lenguaje para todas las personas es uno de los objetivos de esta investigación”.

Li pertenece a un equipo de expertos que buscan simplificar los requisitos de datos que los idiomas necesitan para desarrollar un modelo de reconocimiento de voz.

La investigación titulada “ASR2K: Reconocimiento de voz para alrededor de 2000 idiomas sin audio” se presentó en Interspeech 2022 en Corea del Sur.

La mayoría de los modelos de reconocimiento de voz existentes requieren conjuntos de datos de texto y audio. Si bien, existen datos de texto para miles de idiomas, no ocurre lo mismo con el audio.

El equipo quiere eliminar la necesidad de datos de audio, centrándose en elementos lingüísticos que son comunes en muchos idiomas.

Las tecnologías de reconocimiento de voz normalmente se centran en los fonemas de un idioma, que son sonidos distintos que lo distinguen de otros idiomas. Estos son exclusivos de cada idioma.

Al mismo tiempo, los idiomas tienen teléfonos que describen cómo suena físicamente una palabra y varios teléfonos pueden corresponder a un solo fonema.

Si bien, los idiomas separados pueden tener diferentes fonemas, los teléfonos subyacentes pueden ser los mismos.

El equipo está trabajando en un modelo de reconocimiento de voz que depende menos de los fonemas y más de la información sobre cómo se comparten los teléfonos entre idiomas. Eso ayuda a reducir el esfuerzo necesario para construir modelos separados para cada idioma individual.

Al emparejar el modelo con un árbol filogenético, que es un diagrama que mapea las relaciones entre idiomas, ayuda con las reglas de pronunciación.

El modelo del equipo y la estructura de árbol les ha permitido aproximarse al modelo de voz para miles de idiomas incluso sin datos de audio.

“Estamos tratando de eliminar este requisito de datos de audio, lo que nos ayuda a pasar de 100 a 200 idiomas a 2000”
“Esta es la primera investigación dirigida a una cantidad tan grande de idiomas y somos el primer equipo que tiene como objetivo expandir las herramientas lingüísticas a este alcance”.

La investigación, aunque aún se encuentra en una etapa inicial, ha mejorado las herramientas de aproximación lingüística existentes en un 5 %.

Relacionado

¿Puede Chat GPT traducir?

Chat GPT (Transformador pre entrenado generativo) es un modelo de lenguaje desarrollado por OpenAI que utiliza técnicas de aprendizaje profundo para generar respuestas humanoides a entradas de lenguaje natural. Averigüemos si Chat GPT es capaz de traducir. ¿Qué es la traducción de chat GPT? Chat GPT Translation es la capacidad del modelo de idioma para traducir texto de un idioma a otro. Utiliza algoritmos de aprendizaje ¡SEGUIR LEYENDO!

ElevenLabs permite Traducción Automática de Voz de Vídeo a 29 Idiomas Diferentes

ElevenLabs, que se encargar de realizar el desarrollo de síntesis de voces, ha lanzado una nueva función para el doblaje automático de vídeos. Esta oportunidad está disponible para todos directamente en el sitio web de la empresa. La tecnología de síntesis de IA traduce el habla y la inserta en la pista de audio original, tratando de preservar el tono y la pronunciación originales, con hasta ¡SEGUIR LEYENDO!