Investigadores del Instituto de Ciencia y Tecnología de Nara han desarrollado un nuevo modelo de trastorno obsesivo-compulsivo basado en los principios del aprendizaje por refuerzo. Este modelo puede conducir a un mejor tratamiento para los trastornos obsesivo-compulsivos y relacionados.

Científicos del Instituto de Ciencia y Tecnología de Nara (NAIST), el Instituto Internacional de Investigación de Telecomunicaciones Avanzadas y la Universidad de Tamagawa han demostrado que el trastorno obsesivo-compulsivo (TOC) puede entenderse como resultado de un aprendizaje desequilibrado entre el refuerzo y el castigo. Sobre la base de las pruebas empíricas de su modelo teórico, demostraron que las asimetrías en los cálculos cerebrales que vinculan los resultados actuales con las acciones pasadas pueden conducir a un comportamiento desordenado. Específicamente, esto puede suceder cuando la señal de seguimiento de la memoria de las acciones pasadas decae de manera diferente para los resultados buenos y malos. En este caso, «bueno» significa que el resultado fue mejor de lo esperado y «malo» significa que fue peor de lo esperado. Este trabajo ayuda a explicar cómo se desarrolla el TOC.

El TOC es una enfermedad mental que involucra ansiedad, caracterizada por pensamientos intrusivos y repetitivos, llamados obsesiones, junto con ciertas acciones repetidas, conocidas como compulsiones. Los pacientes con TOC a menudo se sienten incapaces de cambiar el comportamiento incluso cuando saben que las obsesiones o compulsiones no son razonables. En casos severos, estos pueden hacer que la persona sea incapaz de llevar una vida normal. Los comportamientos compulsivos, como lavarse las manos en exceso o verificar repetidamente si las puertas están cerradas antes de salir de la casa, son intentos de aliviar temporalmente la ansiedad causada por las obsesiones. Sin embargo, hasta ahora, no se entendía bien cómo se fortalecía el ciclo de obsesiones y compulsiones.

Ahora, un equipo dirigido por investigadores de NAIST ha utilizado la teoría del aprendizaje por refuerzo para modelar el ciclo desordenado asociado con el TOC. En este marco, un resultado mejor de lo previsto se vuelve más probable (error de predicción positivo), mientras que un resultado peor de lo esperado se suprime (error de predicción negativo). En la implementación del aprendizaje por refuerzo, también es importante tener en cuenta los retrasos, así como los errores de predicción positivos/negativos. En general, el resultado de una determinada elección está disponible después de un cierto retraso. Por lo tanto, el refuerzo y el castigo deben asignarse a elecciones recientes dentro de un marco de tiempo determinado. Esto se llama asignación de créditos, que se implementa como un rastro de memoria en la teoría del aprendizaje por refuerzo. Idealmente, las señales de seguimiento de memoria para acciones pasadas decaen a la misma velocidad para errores de predicción tanto positivos como negativos. Sin embargo, esto no puede realizarse completamente en sistemas neuronales discretos. Usando simulaciones, los científicos de NAIST descubrieron que los agentes aprenden implícitamente el comportamiento obsesivo-compulsivo cuando el factor de disminución del rastro para los rastros de memoria de acciones pasadas relacionadas con errores de predicción negativos (ν-) es mucho más pequeño que el relacionado con errores de predicción positivos (ν+). Esto significa que, desde la perspectiva opuesta, la visión de las acciones pasadas es mucho más estrecha para los errores de predicción negativos que para los errores de predicción positivos. «Nuestro modelo, con factores de descomposición de trazas desequilibrados (ν+ > ν-) representa con éxito el círculo vicioso de obsesión y compulsión característico del TOC», dicen los coautores Yuki Sakai y Yutaka Sakai.

Para probar esta predicción, los investigadores hicieron que 45 pacientes con TOC y 168 sujetos de control sanos jugaran un juego basado en computadora con recompensas y sanciones monetarias. Los pacientes con TOC mostraron una ν- mucho más pequeña en comparación con ν+, como predijeron las características computacionales del TOC. Además, esta configuración desequilibrada de factores de descomposición de trazas (ν+ > ν-) se normalizó con los potenciadores de la serotonina, que son medicamentos de primera línea para el tratamiento del TOC. «Aunque pensamos que siempre tomamos decisiones racionales, nuestro modelo computacional demuestra que a veces reforzamos implícitamente los comportamientos de mala adaptación», dice la autora correspondiente, Saori C. Tanaka.

Aunque actualmente es difícil identificar a los pacientes resistentes al tratamiento en función de sus síntomas clínicos, este modelo computacional sugiere que los pacientes con factores de descomposición de trazas altamente desequilibrados pueden no responder a la terapia conductual sola. Estos hallazgos pueden usarse algún día para determinar qué pacientes probablemente sean resistentes a la terapia conductual antes del comienzo del tratamiento.