Los subtítulos de los gráficos que explican tendencias y patrones complejos son importantes para mejorar la capacidad del lector para comprender y retener los datos que se presentan. Y para las personas con discapacidades visuales, la información en una leyenda a menudo proporciona su único medio para comprender el gráfico.

Pero escribir subtítulos efectivos y detallados es un proceso laborioso. Si bien las técnicas de subtítulos automáticos pueden aliviar esta carga, a menudo tienen dificultades para describir las características cognitivas que brindan un contexto adicional.

Para ayudar a las personas a crear subtítulos de gráficos de alta calidad, los investigadores del MIT han desarrollado un conjunto de datos para mejorar los sistemas de subtítulos automáticos. Con esta herramienta, los investigadores podrían enseñar un modelo de aprendizaje automático para variar el nivel de complejidad y el tipo de contenido incluido en el título de un gráfico en función de las necesidades de los usuarios.

Los investigadores del MIT descubrieron que los modelos de aprendizaje automático entrenados para subtítulos automáticos con su conjunto de datos generaron constantemente subtítulos que eran precisos, semánticamente ricos y describían tendencias de datos y patrones complejos. Los análisis cuantitativos y cualitativos revelaron que sus modelos subtitulaban los gráficos con más eficacia que otros sistemas de subtítulos automáticos.

El objetivo del equipo es proporcionar el conjunto de datos, llamado VisText, como una herramienta que los investigadores pueden usar mientras trabajan en el espinoso problema de los subtítulos automáticos de gráficos. Estos sistemas automáticos podrían ayudar a proporcionar subtítulos para los gráficos en línea sin subtítulos y mejorar la accesibilidad para las personas con discapacidades visuales, dice la coautora principal Angie Boggust, estudiante de posgrado en ingeniería eléctrica y ciencias de la computación en el MIT y miembro del Grupo de Visualización en Ciencias de la Computación y Ciencias de la Computación. Laboratorio de Inteligencia Artificial (CSAIL).

« Hemos tratado de incorporar muchos valores humanos en nuestro conjunto de datos para que cuando nosotros y otros investigadores construyamos sistemas automáticos de subtítulos de gráficos, no terminemos con modelos que no son lo que la gente quiere o necesita », dijo. dice.

A Boggust se unen en el artículo el coautor principal y estudiante de posgrado Benny J. Tang y el autor principal Arvind Satyanarayan, profesor asociado de informática en el MIT que dirige el Grupo de Visualización en CSAIL. La investigación se presentará en la Reunión Anual de la Asociación de Lingüística Computacional.

Análisis centrado en el ser humano

Los investigadores se inspiraron para desarrollar VisText a partir de un trabajo anterior en el Grupo de Visualización que exploró lo que constituye una buena leyenda para un gráfico. En ese estudio, los investigadores encontraron que los usuarios videntes y los usuarios ciegos o con baja visión tenían diferentes preferencias por la complejidad del contenido semántico en un subtítulo.

El grupo quería llevar ese análisis centrado en el ser humano a la investigación de subtítulos automáticos. Para hacer eso, desarrollaron VisText, un conjunto de datos de gráficos y subtítulos asociados que podrían usarse para entrenar modelos de aprendizaje automático para generar subtítulos precisos, semánticamente ricos y personalizables.

Desarrollar sistemas de subtítulos automáticos efectivos no es tarea fácil. Los métodos de aprendizaje automático existentes a menudo intentan subtitular los gráficos de la misma manera que lo harían con una imagen, pero las personas y los modelos interpretan las imágenes naturales de manera diferente a cómo leemos los gráficos. Otras técnicas omiten el contenido visual por completo y subtitulan un gráfico utilizando su tabla de datos subyacente. Sin embargo, dichas tablas de datos a menudo no están disponibles después de que se publican los gráficos.

Dadas las deficiencias del uso de imágenes y tablas de datos, VisText también representa gráficos como gráficos de escena. Los gráficos de escena, que se pueden extraer de una imagen de gráfico, contienen todos los datos del gráfico pero también incluyen contexto de imagen adicional.

« Un gráfico de escena es lo mejor de ambos mundos: contiene casi toda la información presente en una imagen y, al mismo tiempo, es más fácil de extraer de las imágenes que de las tablas de datos. Como también es texto, podemos aprovechar los avances en los modelos modernos de lenguaje grande para los subtítulos. « , explica Tang.

Recopilaron un conjunto de datos que contiene más de 12 000 gráficos, cada uno representado como una tabla de datos, una imagen y un gráfico de escena, así como leyendas asociadas. Cada gráfico tiene dos títulos separados: un título de bajo nivel que describe la construcción del gráfico (como los rangos de sus ejes) y un título de nivel superior que describe estadísticas, relaciones en los datos y tendencias complejas.

Los investigadores generaron subtítulos de bajo nivel utilizando un sistema automatizado y subtítulos de alto nivel de trabajadores humanos.

« Nuestros subtítulos se basaron en dos piezas clave de investigaciones anteriores: directrices existentes sobre descripciones accesibles de medios visuales y un modelo conceptual de nuestro grupo para categorizar el contenido semántico. Esto aseguró que nuestros subtítulos presentaran elementos gráficos de bajo nivel importantes como ejes, escalas, y unidades para lectores con discapacidades visuales, manteniendo la variabilidad humana en cómo se pueden escribir los subtítulos », dice Tang.

Traducir gráficos

Una vez que reunieron las imágenes y los subtítulos de los gráficos, los investigadores usaron VisText para entrenar cinco modelos de aprendizaje automático para subtítulos automáticos. Querían ver cómo cada representación (imagen, tabla de datos y gráfico de escena) y las combinaciones de las representaciones afectaban la calidad de la leyenda.

« Puede pensar en un modelo de subtítulos de gráficos como un modelo para la traducción de idiomas. Pero en lugar de decir, traduzca este texto alemán al inglés, estamos diciendo que traduzca este ‘idioma del gráfico’ al inglés », dice Boggust.

Sus resultados mostraron que los modelos entrenados con gráficos de escena se desempeñaron tan bien o mejor que los entrenados con tablas de datos. Dado que los gráficos de escena son más fáciles de extraer de los gráficos existentes, los investigadores argumentan que podrían ser una representación más útil.

También entrenaron modelos con subtítulos de bajo y alto nivel por separado. Esta técnica, conocida como ajuste de prefijo semántico, les permitió enseñar al modelo a variar la complejidad del contenido del subtítulo.

Además, realizaron un examen cualitativo de los subtítulos producidos por su método de mejor desempeño y categorizaron seis tipos de errores comunes. Por ejemplo, se produce un error direccional si un modelo dice que una tendencia está disminuyendo cuando en realidad está aumentando.

Esta evaluación cualitativa robusta y detallada fue importante para comprender cómo el modelo estaba cometiendo sus errores. Por ejemplo, al usar métodos cuantitativos, un error direccional podría tener la misma penalización que un error de repetición, donde el modelo repite la misma palabra o frase. Pero un error direccional podría ser más engañoso para un usuario que un error de repetición. El análisis cualitativo les ayudó a comprender este tipo de sutilezas, dice Boggust.

Este tipo de errores también exponen las limitaciones de los modelos actuales y plantean consideraciones éticas que los investigadores deben considerar mientras trabajan para desarrollar sistemas de subtítulos automáticos, agrega.

Se ha demostrado que los modelos generativos de aprendizaje automático, como los que impulsan ChatGPT, alucinan o brindan información incorrecta que puede ser engañosa. Si bien existe un claro beneficio en el uso de estos modelos para subtitular gráficos existentes, podría conducir a la difusión de información errónea si los gráficos se subtitulan incorrectamente.

« Tal vez esto signifique que no solo subtitulamos todo lo que está a la vista con IA. En cambio, tal vez proporcionemos estos sistemas de subtítulos automáticos como herramientas de autoría para que las personas los editen. Es importante pensar en estas implicaciones éticas a lo largo del proceso de investigación, no solo en al final cuando tengamos un modelo para implementar », dice ella.

Boggust, Tang y sus colegas quieren seguir optimizando los modelos para reducir algunos errores comunes. También quieren expandir el conjunto de datos de VisText para incluir más gráficos y gráficos más complejos, como aquellos con barras apiladas o varias líneas. Y también les gustaría obtener información sobre lo que estos modelos de subtítulos automáticos realmente están aprendiendo sobre los datos de los gráficos.

Esta investigación fue financiada, en parte, por un premio Google Research Scholar, la Fundación Nacional de Ciencias, la Iniciativa MLA@CSAIL y el Laboratorio de Investigación de la Fuerza Aérea de los Estados Unidos.