Una técnica innovadora de baja memoria de los científicos informáticos de la Universidad de Rice podría poner una de las formas de inteligencia artificial más intensivas en recursos, los modelos de recomendación de aprendizaje profundo (DLRM), al alcance de las pequeñas empresas.

Los sistemas de recomendación DLRM son una forma popular de IA que aprende a hacer sugerencias que los usuarios encontrarán relevantes. Pero con modelos de entrenamiento de primera línea que requieren más de cien terabytes de memoria y procesamiento a escala de supercomputadora, solo han estado disponibles para una breve lista de gigantes tecnológicos con mucho dinero.

La «matriz de incrustación de bloques de desplazamiento aleatorio» de Rice, o ROBE Array, podría cambiar eso. Es un enfoque algorítmico para reducir el tamaño de las estructuras de memoria DLRM llamadas tablas de incrustación, y se presentará esta semana en la Conferencia sobre Sistemas y Aprendizaje Automático (MLSys 2022) en Santa Clara, California, donde obtuvo los honores de Documento Sobresaliente.

«Con solo 100 megabytes de memoria y una sola GPU, demostramos que podíamos igualar los tiempos de entrenamiento y duplicar la eficiencia de inferencia de los métodos de entrenamiento DLRM de última generación que requieren 100 gigabytes de memoria y múltiples procesadores», dijo Anshumali Shrivastava. , profesor asociado de informática en Rice que presenta la investigación en MLSys 2022 con los co-creadores de ROBE Array Aditya Desai, estudiante de posgrado de Rice en el grupo de investigación de Shrivastava, y Li Chou, ex investigador postdoctoral en Rice que ahora se encuentra en West Texas Universidad A&M.

«ROBE Array establece una nueva línea de base para la compresión DLRM», dijo Shrivastava. «Y pone DLRM al alcance de los usuarios promedio que no tienen acceso al hardware de gama alta o la experiencia en ingeniería que se necesita para entrenar modelos que tienen un tamaño de cientos de terabytes».

Los sistemas DLRM son algoritmos de aprendizaje automático que aprenden de los datos. Por ejemplo, un sistema de recomendación que sugiera productos para los compradores se entrenaría con datos de transacciones anteriores, incluidos los términos de búsqueda proporcionados por los usuarios, qué productos se les ofrecieron y cuáles compraron, si es que compraron alguno. Una forma de mejorar la precisión de las recomendaciones es ordenar los datos de entrenamiento en más categorías. Por ejemplo, en lugar de colocar todos los champús en una sola categoría, una empresa podría crear categorías para champús para hombres, mujeres y niños.

Para el entrenamiento, estas representaciones categóricas se organizan en estructuras de memoria llamadas tablas de incrustacin, y Desai dijo que el tamaño de esas tablas «se ha disparado» debido a una mayor categorización.

«Las tablas incrustadas ahora representan más del 99,9 % de la huella de memoria total de los modelos DLRM», dijo Desai. «Esto genera una gran cantidad de problemas. Por ejemplo, no se pueden entrenar de forma puramente paralela porque el modelo debe dividirse en partes y distribuirse entre múltiples nodos de entrenamiento y GPU. Y después de que estén entrenados y en producción , buscar información en tablas incrustadas representa aproximadamente el 80 % del tiempo necesario para devolver una sugerencia a un usuario».

Shrivastava dijo que ROBE Array elimina la necesidad de almacenar tablas de incrustación mediante el uso de un método de indexación de datos llamado hashing para crear «una matriz única de parámetros aprendidos que es una representación comprimida de la tabla de incrustación». El acceso a la información de incrustación de la matriz se puede realizar «utilizando hash universal compatible con GPU», dijo.

Shrivastava, Desai y Chou probaron ROBE Array usando el codiciado benchmark DLRM MLPerf, que mide qué tan rápido un sistema puede entrenar modelos a una métrica de calidad objetivo. Usando una serie de conjuntos de datos de referencia, encontraron que ROBE Array podía igualar o superar las técnicas DLRM publicadas anteriormente en términos de precisión de entrenamiento, incluso después de comprimir el modelo en tres órdenes de magnitud.

«Nuestros resultados muestran claramente que la mayoría de los puntos de referencia de aprendizaje profundo pueden ser anulados por completo por algoritmos fundamentales», dijo Shrivastava. «Dada la escasez mundial de chips, esta es una buena noticia para el futuro de la IA».

ROBE Array no es la primera gran aparición de Shrivastava en MLSys. En MLSys 2020, su grupo presentó SLIDE, un «motor de aprendizaje profundo sublineal» que se ejecutaba en CPU estándar y podía superar a los entrenadores basados ​​en GPU. Siguieron en MLSys 2021, mostrando que los aceleradores de vectorización y optimización de memoria podrían aumentar el rendimiento de SLIDE, permitiéndole entrenar redes neuronales profundas hasta 15 veces más rápido que los mejores sistemas de GPU.

La investigación de ROBE Array fue apoyada por la Fundación Nacional de Ciencias (1652131, 1838177), la Oficina de Investigación Científica de la Fuerza Aérea (YIP-FA9550-18-1-0152), la Oficina de Investigación Naval, Intel y VMware.