Solo una fracción de los 7000 u 8000 idiomas que se hablan en todo el mundo se beneficia de las tecnologías lingüísticas modernas, como la transcripción de voz a texto, los subtítulos automáticos, la traducción instantánea y el reconocimiento de voz. Los investigadores de la Universidad Carnegie Mellon quieren ampliar el número de idiomas con herramientas de reconocimiento automático de voz disponibles de alrededor de 200 a potencialmente 2000.
« Muchas personas en este mundo hablan diversos idiomas, pero no se están desarrollando herramientas de tecnología lingüística para todos », dijo Xinjian Li, Ph.D. estudiante del Instituto de Tecnologías del Lenguaje (LTI) de la Facultad de Informática. « Desarrollar tecnología y un buen modelo de lenguaje para todas las personas es uno de los objetivos de esta investigación ».
Li es parte de un equipo de investigación que tiene como objetivo simplificar los requisitos de datos que los idiomas necesitan para crear un modelo de reconocimiento de voz. El equipo, que también incluye a los miembros de la facultad de LTI Shinji Watanabe, Florian Metze, David Mortensen y Alan Black, presentó su trabajo más reciente, « ASR2K : Speech Recognition for Around 2,000 Languages Without Audio », en Interspeech 2022 en Corea del Sur.
La mayoría de los modelos de reconocimiento de voz requieren dos conjuntos de datos: texto y audio. Los datos de texto existen para miles de idiomas. Los datos de audio no. El equipo espera eliminar la necesidad de datos de audio centrándose en elementos lingüísticos comunes en muchos idiomas.
Históricamente, las tecnologías de reconocimiento de voz se centran en el fonema de un idioma. Estos sonidos distintivos que distinguen una palabra de otra, como la « d » que diferencia a « perro » de « registro » y « cog », son exclusivos de cada idioma. Pero los idiomas también tienen teléfonos, que describen cómo suena físicamente una palabra. Múltiples teléfonos pueden corresponder a un solo fonema. Entonces, aunque los idiomas separados pueden tener diferentes fonemas, sus teléfonos subyacentes podrían ser los mismos.
El equipo de LTI está desarrollando un modelo de reconocimiento de voz que se aleja de los fonemas y, en cambio, se basa en información sobre cómo se comparten los teléfonos entre idiomas, lo que reduce el esfuerzo de construir modelos separados para cada idioma. Específicamente, empareja el modelo con un árbol filogenético, un diagrama que mapea las relaciones entre idiomas, para ayudar con las reglas de pronunciación. A través de su modelo y la estructura de árbol, el equipo puede aproximar el modelo de voz para miles de idiomas sin datos de audio.
« Estamos tratando de eliminar este requisito de datos de audio, lo que nos ayuda a pasar de 100 o 200 idiomas a 2000 », dijo Li. « Esta es la primera investigación dirigida a una cantidad tan grande de idiomas, y somos el primer equipo que tiene como objetivo expandir las herramientas lingüísticas a este alcance ».
Todavía en una etapa inicial, la investigación ha mejorado las herramientas de aproximación del lenguaje existentes en un modesto 5 %, pero el equipo espera que sirva de inspiración no solo para su trabajo futuro sino también para el de otros investigadores.
Para Li, el trabajo significa más que hacer que las tecnologías del lenguaje estén disponibles para todos. Se trata de la preservación cultural.
« Cada idioma es un factor muy importante en su cultura. Cada idioma tiene su propia historia, y si no tratas de preservar los idiomas, esas historias podrían perderse », dijo Li. « Desarrollar este tipo de sistema de reconocimiento de voz y esta herramienta es un paso para tratar de preservar esos idiomas ».