Los investigadores han desarrollado una nueva forma de alta velocidad para detectar la ubicación, el tamaño y la categoría de múltiples objetos sin adquirir imágenes ni requerir una reconstrucción compleja de la escena. Debido a que el nuevo enfoque reduce en gran medida la potencia informática necesaria para la detección de objetos, podría ser útil para identificar peligros mientras se conduce.
« Nuestra técnica se basa en un detector de un solo píxel, que permite la detección eficiente y robusta de múltiples objetos directamente a partir de una pequeña cantidad de mediciones 2D », dijo el líder del equipo de investigación, Liheng Bian, del Instituto de Tecnología de Beijing en China. « Se espera que este tipo de tecnología de detección sin imágenes resuelva los problemas de la gran carga de comunicación, la alta sobrecarga informática y la baja tasa de percepción de los sistemas de percepción visual existentes ».
Los métodos de percepción sin imágenes de hoy en día solo pueden lograr la clasificación, el reconocimiento o el seguimiento de un solo objeto. Para lograr los tres a la vez, los investigadores desarrollaron una técnica conocida como detección de objetos de un solo píxel sin imágenes (SPOD). En la revista Optics Letters de Optica Publishing Group, informan que SPOD puede lograr una precisión de detección de objetos de poco más del 80 %.
La técnica SPOD se basa en los logros anteriores del grupo de investigación en el desarrollo de tecnología de detección sin imágenes como tecnología de percepción de escena eficiente. Su trabajo previo incluye clasificación sin imágenes, segmentación y reconocimiento de caracteres basado en un detector de un solo píxel.
« Para la conducción autónoma, SPOD podría usarse con lidar para ayudar a mejorar la velocidad de reconstrucción de escenas y la precisión de detección de objetos », dijo Bian. « Creemos que tiene una tasa de detección y una precisión lo suficientemente altas para la conducción autónoma, al mismo tiempo que reduce el ancho de banda de transmisión y los requisitos de recursos informáticos necesarios para la detección de objetos ».
Detección sin imágenes
La automatización de tareas visuales avanzadas, ya sea para navegar un vehículo o rastrear un avión en movimiento, generalmente requiere imágenes detalladas de una escena para extraer las características necesarias para identificar un objeto. Sin embargo, esto requiere un hardware de imagen complejo o algoritmos de reconstrucción complicados, lo que conduce a un alto costo computacional, un tiempo de ejecución prolongado y una gran carga de transmisión de datos. Por esta razón, los enfoques tradicionales de imagen primero, percepción posterior pueden no ser los mejores para la detección de objetos.
Los métodos de detección sin imágenes basados en detectores de un solo píxel pueden reducir la potencia computacional necesaria para la detección de objetos. En lugar de emplear un detector pixelado como un CMOS o CCD, las imágenes de un solo píxel iluminan la escena con una secuencia de patrones de luz estructurados y luego registran la intensidad de la luz transmitida para adquirir la información espacial de los objetos. Esta información se utiliza luego para reconstruir computacionalmente el objeto o para calcular sus propiedades.
Para SPOD, los investigadores utilizaron un patrón de luz estructurado pequeño pero optimizado para escanear rápidamente toda la escena y obtener mediciones en 2D. Estas medidas se introducen en un modelo de aprendizaje profundo conocido como codificador basado en transformador para extraer las características significativas de alta dimensión en la escena. Estas características luego se introducen en un decodificador basado en una red de atención de múltiples escalas, que genera la información de clase, ubicación y tamaño de todos los objetivos en la escena simultáneamente.
« En comparación con el patrón de tamaño completo utilizado por otros métodos de detección de un solo píxel, el patrón pequeño y optimizado produce un mejor rendimiento de detección sin imágenes », dijo Lintao Peng, miembro del grupo. « Además, la red de atención multiescala en el decodificador SPOD refuerza la atención de la red en el área objetivo de la escena. Esto permite una extracción más eficiente de las características de la escena, lo que permite un rendimiento de detección de objetos de última generación ».
Demostración de prueba de concepto
Para demostrar experimentalmente SPOD, los investigadores construyeron una configuración de prueba de concepto. Las imágenes seleccionadas al azar del conjunto de datos de prueba de Pascal Voc 2012 se imprimieron en una película y se usaron como escenas objetivo. Cuando se utilizó una tasa de muestreo del 5 %, el tiempo promedio para completar la modulación espacial de la luz y la detección de objetos sin imágenes por escena con SPOD fue de solo 0,016 segundos. Esto es mucho más rápido que realizar primero la reconstrucción de la escena (0,05 segundos) y luego la detección de objetos (0,018 segundos). SPOD mostró una precisión de detección promedio del 82,2 % para todas las clases de objetos incluidas en el conjunto de datos de prueba.
« Actualmente, SPOD no puede detectar todas las categorías de objetos posibles porque el conjunto de datos de detección de objetos existente utilizado para entrenar el modelo solo contiene 80 categorías », dijo Peng. « Sin embargo, cuando se enfrenta a una tarea específica, el modelo preentrenado se puede ajustar para lograr la detección de múltiples objetos sin imágenes de nuevas clases de objetivos para aplicaciones como la detección de peatones, vehículos o embarcaciones ».
A continuación, los investigadores planean extender la tecnología de percepción sin imágenes a otros tipos de detectores y sistemas de adquisición computacional para lograr una tecnología de detección sin reconstrucción.