El descubrimiento de nuevos materiales y medicamentos generalmente implica un proceso manual de prueba y error que puede llevar décadas y costar millones de dólares. Para agilizar este proceso, los científicos suelen utilizar el aprendizaje automático para predecir las propiedades moleculares y reducir las moléculas que necesitan para sintetizar y probar en el laboratorio.
Investigadores del MIT y del MIT-Watson AI Lab han desarrollado un nuevo marco unificado que puede predecir simultáneamente las propiedades moleculares y generar nuevas moléculas de manera mucho más eficiente que estos populares enfoques de aprendizaje profundo.
Para enseñar a un modelo de aprendizaje automático a predecir las propiedades biológicas o mecánicas de una molécula, los investigadores deben mostrarle millones de estructuras moleculares etiquetadas, un proceso conocido como entrenamiento. Debido al costo de descubrir moléculas y los desafíos de etiquetar a mano millones de estructuras, a menudo es difícil obtener grandes conjuntos de datos de entrenamiento, lo que limita la efectividad de los enfoques de aprendizaje automático.
Por el contrario, el sistema creado por los investigadores del MIT puede predecir con eficacia las propiedades moleculares utilizando solo una pequeña cantidad de datos. Su sistema tiene una comprensión subyacente de las reglas que dictan cómo se combinan los componentes básicos para producir moléculas válidas. Estas reglas capturan las similitudes entre las estructuras moleculares, lo que ayuda al sistema a generar nuevas moléculas y predecir sus propiedades de manera eficiente en datos.
Este método superó a otros enfoques de aprendizaje automático en conjuntos de datos pequeños y grandes, y pudo predecir con precisión las propiedades moleculares y generar moléculas viables cuando se le proporcionó un conjunto de datos con menos de 100 muestras.
« Nuestro objetivo con este proyecto es utilizar algunos métodos basados en datos para acelerar el descubrimiento de nuevas moléculas, de modo que pueda entrenar un modelo para hacer la predicción sin todos estos experimentos costosos », dice el autor principal Minghao Guo, un Estudiante de posgrado en informática e ingeniería eléctrica (EECS).
Los coautores de Guo incluyen a Veronika Thost, Payel Das y Jie Chen, miembros del personal de investigación del MIT-IBM Watson AI Lab; los recién graduados del MIT Samuel Song ’23 y Adithya Balachandran ’23; y el autor principal Wojciech Matusik, profesor de ingeniería eléctrica e informática y miembro del MIT-IBM Watson AI Lab, que dirige el Grupo de diseño y fabricación computacional dentro del Laboratorio de informática e inteligencia artificial del MIT (CSAIL). La investigación se presentará en la Conferencia Internacional de Aprendizaje Automático.
Aprendiendo el lenguaje de las moléculas
Para lograr los mejores resultados con los modelos de aprendizaje automático, los científicos necesitan conjuntos de datos de entrenamiento con millones de moléculas que tengan propiedades similares a las que esperan descubrir. En realidad, estos conjuntos de datos específicos de dominio suelen ser muy pequeños. Por lo tanto, los investigadores usan modelos que han sido entrenados previamente en grandes conjuntos de datos de moléculas generales, que aplican a un conjunto de datos específico mucho más pequeño. Sin embargo, debido a que estos modelos no han adquirido mucho conocimiento específico del dominio, tienden a funcionar mal.
El equipo del MIT adoptó un enfoque diferente. Crearon un sistema de aprendizaje automático que aprende automáticamente el « lenguaje » de las moléculas, lo que se conoce como gramática molecular, utilizando solo un pequeño conjunto de datos de dominio específico. Utiliza esta gramática para construir moléculas viables y predecir sus propiedades.
En la teoría del lenguaje, uno genera palabras, oraciones o párrafos basados en un conjunto de reglas gramaticales. Puedes pensar en una gramática molecular de la misma manera. Es un conjunto de reglas de producción que dictan cómo generar moléculas o polímeros mediante la combinación de átomos y subestructuras.
Al igual que una gramática del lenguaje, que puede generar una plétora de oraciones usando las mismas reglas, una gramática molecular puede representar una gran cantidad de moléculas. Las moléculas con estructuras similares utilizan las mismas reglas gramaticales de producción y el sistema aprende a comprender estas similitudes.
Dado que las moléculas estructuralmente similares a menudo tienen propiedades similares, el sistema utiliza su conocimiento subyacente de la similitud molecular para predecir las propiedades de las nuevas moléculas de manera más eficiente.
« Una vez que tengamos esta gramática como representación de todas las diferentes moléculas, podemos usarla para impulsar el proceso de predicción de propiedades », dice Guo.
El sistema aprende las reglas de producción de una gramática molecular mediante el aprendizaje por refuerzo, un proceso de prueba y error en el que el modelo es recompensado por el comportamiento que lo acerca a lograr un objetivo.
Pero debido a que podría haber miles de millones de formas de combinar átomos y subestructuras, el proceso para aprender las reglas de producción de gramática sería demasiado costoso computacionalmente para cualquier cosa que no sea el conjunto de datos más pequeño.
Los investigadores separaron la gramática molecular en dos partes. La primera parte, llamada metagramática, es una gramática general y de amplia aplicación que diseñan manualmente y dan al sistema desde el principio. Luego, solo necesita aprender una gramática mucho más pequeña y específica de la molécula del conjunto de datos del dominio. Este enfoque jerárquico acelera el proceso de aprendizaje.
Grandes resultados, pequeños conjuntos de datos
En los experimentos, el nuevo sistema de los investigadores generó simultáneamente moléculas y polímeros viables, y predijo sus propiedades con mayor precisión que varios enfoques populares de aprendizaje automático, incluso cuando los conjuntos de datos específicos del dominio tenían solo unos pocos cientos de muestras. Algunos otros métodos también requerían un costoso paso de entrenamiento previo que el nuevo sistema evita.
La técnica resultó especialmente eficaz para predecir las propiedades físicas de los polímeros, como la temperatura de transición vítrea, que es la temperatura requerida para que un material pase de sólido a líquido. Obtener esta información manualmente suele ser extremadamente costoso porque los experimentos requieren temperaturas y presiones extremadamente altas.
Para impulsar aún más su enfoque, los investigadores redujeron un conjunto de entrenamiento a más de la mitad, a solo 94 muestras. Su modelo aún logró resultados que estaban a la par con los métodos entrenados usando todo el conjunto de datos.
« Esta representación basada en la gramática es muy poderosa. Y debido a que la gramática en sí es una representación muy general, se puede implementar en diferentes tipos de datos en forma de gráfico. Estamos tratando de identificar otras aplicaciones más allá de la química o la ciencia de los materiales », dice Guo. .
En el futuro, también quieren ampliar su gramática molecular actual para incluir la geometría 3D de moléculas y polímeros, que es clave para comprender las interacciones entre las cadenas de polímeros. También están desarrollando una interfaz que le mostraría al usuario las reglas de producción de gramática aprendidas y solicitaría comentarios para corregir las reglas que pueden estar equivocadas, aumentando la precisión del sistema.
Este trabajo está financiado, en parte, por MIT-IBM Watson AI Lab y su empresa miembro, Evonik. Ponencia: « Geometría jerárquica inducida por gramática para la predicción de propiedades moleculares con eficiencia de datos »