ChatGPT es un chatbot de inteligencia artificial (IA) que utiliza un modelo de aprendizaje profundo para reconocer patrones y relaciones entre palabras en sus vastos datos de entrenamiento para generar respuestas similares a las humanas basadas en un aviso. Pero dado que no hay una fuente de verdad en sus datos de entrenamiento, la herramienta puede generar respuestas que son objetivamente incorrectas.

« El uso de modelos de lenguaje extenso como ChatGPT se está disparando y seguirá aumentando », dijo el autor principal Rajesh Bhayana, MD, FRCPC, radiólogo abdominal y líder tecnológico en University Medical Imaging Toronto, Toronto General Hospital en Toronto, Canadá. « Nuestra investigación proporciona información sobre el rendimiento de ChatGPT en un contexto de radiología, destacando el increíble potencial de los modelos de lenguaje grande, junto con las limitaciones actuales que lo hacen poco confiable ».

ChatGPT fue nombrada recientemente la aplicación de consumo de más rápido crecimiento en la historia, y chatbots similares se están incorporando en motores de búsqueda populares como Google y Bing que médicos y pacientes usan para buscar información médica, señaló el Dr. Bhayana.

Las preguntas no incluían imágenes y se agruparon por tipo de pregunta para obtener información sobre el desempeño : pensamiento de orden inferior (recordar conocimientos, comprensión básica) y de orden superior (aplicar, analizar, sintetizar). Las preguntas de pensamiento de orden superior se subclasificaron aún más por tipo (descripción de los hallazgos de imágenes, manejo clínico, cálculo y clasificación, asociaciones de enfermedades).

El rendimiento de ChatGPT se evaluó en general y por tipo de pregunta y tema. También se evaluó la confianza en el lenguaje de las respuestas.

Los investigadores encontraron que ChatGPT basado en GPT-3.5 respondió correctamente el 69% de las preguntas (104 de 150), cerca del 70% de calificación aprobatoria utilizada por el Royal College en Canadá. El modelo se desempeñó relativamente bien en las preguntas que requerían un pensamiento de orden inferior (84 %, 51 de 61), pero tuvo problemas con las preguntas que requerían un pensamiento de orden superior (60 %, 53 de 89). Más específicamente, tuvo problemas con preguntas de orden superior relacionadas con la descripción de hallazgos de imágenes (61 %, 28 de 46), cálculo y clasificación (25 %, 2 de 8) y aplicación de conceptos (30 %, 3 de 10). Su pobre desempeño en preguntas de pensamiento de orden superior no fue sorprendente dada su falta de entrenamiento previo específico en radiología.

GPT-4 se lanzó en marzo de 2023 de forma limitada para usuarios pagos, afirmando específicamente tener capacidades de razonamiento avanzadas mejoradas en comparación con GPT-3.5.

En un estudio de seguimiento, GPT-4 respondió correctamente el 81 % (121 de 150) de las mismas preguntas, superando a GPT-3.5 y superando el umbral de aprobación del 70 %. GPT-4 se desempeñó mucho mejor que GPT-3.5 en preguntas de pensamiento de orden superior (81 %), más específicamente aquellas relacionadas con la descripción de hallazgos de imágenes (85 %) y la aplicación de conceptos (90 %).

Los hallazgos sugieren que las capacidades de razonamiento avanzado mejoradas de GPT-4 se traducen en un rendimiento mejorado en un contexto de radiología. También sugieren una mejor comprensión contextual de la terminología específica de la radiología, incluidas las descripciones de imágenes, que es fundamental para permitir futuras aplicaciones posteriores.

« Nuestro estudio demuestra una mejora impresionante en el rendimiento de ChatGPT en radiología en un período de tiempo corto, lo que destaca el potencial creciente de los modelos de lenguaje grande en este contexto », dijo el Dr. Bhayana.

GPT-4 no mostró mejoras en las preguntas de pensamiento de orden inferior (80% frente a 84%) y respondió incorrectamente 12 preguntas que GPT-3.5 respondió correctamente, lo que generó preguntas relacionadas con su confiabilidad para recopilar información.

« Inicialmente nos sorprendieron las respuestas precisas y seguras de ChatGPT a algunas preguntas radiológicas desafiantes, pero luego nos sorprendieron igualmente algunas afirmaciones muy ilógicas e inexactas », dijo el Dr. Bhayana. « Por supuesto, dada la forma en que funcionan estos modelos, las respuestas inexactas no deberían ser particularmente sorprendentes ».

La peligrosa tendencia de ChatGPT a producir respuestas inexactas, denominadas alucinaciones, es menos frecuente en GPT-4, pero aún limita la usabilidad en la educación y la práctica médica en la actualidad.

Ambos estudios mostraron que ChatGPT usaba un lenguaje seguro de manera constante, incluso cuando era incorrecto. Esto es particularmente peligroso si solo se utiliza como información, señala el Dr. Bhayana, especialmente para los novatos que pueden no reconocer las respuestas incorrectas seguras como inexactas.

« Para mí, esta es su mayor limitación. En la actualidad, ChatGPT se usa mejor para generar ideas, ayudar a iniciar el proceso de redacción médica y resumir datos. Si se usa para recuperar información rápidamente, siempre debe verificarse », dijo el Dr. dijo Bhayana.