Imagina por un momento, que estamos en un safari viendo pastar a una jirafa. Después de mirar hacia otro lado por un segundo, vemos que el animal baja la cabeza y se sienta. Pero, nos preguntamos, ¿qué pasó mientras tanto? Científicos informáticos del Centro para el Estudio Avanzado del Comportamiento Colectivo de la Universidad de Konstanz han encontrado una manera de codificar la pose y la apariencia de un animal para mostrar los movimientos intermedios que estadísticamente es probable que hayan tenido lugar.
Un problema clave en la visión artificial es que las imágenes son increíblemente complejas. Una jirafa puede adoptar una gran variedad de poses. En un safari, no suele ser un problema perderse parte de una secuencia de movimiento, pero, para el estudio del comportamiento colectivo, esta información puede ser crítica. Aquí es donde entran los informáticos con el nuevo modelo « titiritero neuronal ».
Siluetas predictivas basadas en puntos 3D
« Una idea en la visión por computadora es describir el espacio muy complejo de las imágenes codificando solo la menor cantidad de parámetros posible », explica Bastian Goldlücke, profesor de visión por computadora en la Universidad de Konstanz. Una representación muy utilizada hasta ahora es el esqueleto. En un nuevo artículo publicado en Proceedings of the 16th Asian Conference on Computer Vision, Bastian Goldlücke y los investigadores doctorales Urs Waldmann y Simon Giebenhain presentan un modelo de red neuronal que hace posible representar secuencias de movimiento y mostrar la apariencia completa de los animales desde cualquier punto de vista. en algunos puntos clave. La vista 3D es más maleable y precisa que los modelos de esqueleto existentes.
« La idea era poder predecir puntos clave en 3D y también poder rastrearlos independientemente de la textura », dice el investigador doctoral Urs Waldmann. « Es por eso que construimos un sistema de inteligencia artificial que predice imágenes de siluetas desde cualquier perspectiva de cámara en función de puntos clave en 3D ». Al invertir el proceso, también es posible determinar puntos esqueléticos a partir de imágenes de siluetas. Sobre la base de los puntos clave, el sistema de IA puede calcular los pasos intermedios que son estadísticamente probables. Usar la silueta individual puede ser importante. Esto se debe a que, si solo trabaja con puntos esqueléticos, de lo contrario no sabría si el animal que está mirando es bastante grande o si está cerca de morir de hambre.
En el campo de la biología en particular, hay aplicaciones para este modelo : « En el Clúster de Excelencia ‘Centro para el Estudio Avanzado del Comportamiento Colectivo’, vemos que se rastrean muchas especies diferentes de animales y que también es necesario predecir poses en este contexto », dice Waldmann.
Objetivo a largo plazo : aplicar el sistema a la mayor cantidad de datos posible sobre animales salvajes
El equipo comenzó prediciendo los movimientos de las siluetas de humanos, palomas, jirafas y vacas. Los seres humanos se utilizan a menudo como casos de prueba en informática, señala Waldmann. Sus compañeros del Clúster de Excelencia trabajan con palomas. Sin embargo, sus finas garras suponen un verdadero desafío. Había buenos datos modelo para las vacas, mientras que el cuello extremadamente largo de la jirafa era un desafío que Waldmann estaba ansioso por asumir. El equipo generó siluetas basadas en algunos puntos clave, del 19 al 33 en total.
Ahora, los científicos informáticos están listos para la aplicación en el mundo real : en el Imaging Hanger de la Universidad de Konstanz, su laboratorio más grande para el estudio del comportamiento colectivo, se recopilarán datos sobre insectos y aves en el futuro. En el hangar de imágenes, es más fácil controlar aspectos ambientales como la iluminación o el fondo que en la naturaleza. Sin embargo, el objetivo a largo plazo es entrenar el modelo para tantas especies de animales salvajes como sea posible, con el fin de obtener nuevos conocimientos sobre el comportamiento de los animales.