Investigadores de los Institutos Nacionales de Salud (NIH) descubrieron que un modelo de inteligencia artificial (IA) resolvió preguntas de un cuestionario médico (diseñado para evaluar la capacidad de los profesionales de la salud para diagnosticar pacientes basándose en imágenes clínicas y un breve resumen de texto) con gran precisión.
Sin embargo, los médicos evaluadores descubrieron que el modelo de IA cometía errores al describir imágenes y explicar cómo su toma de decisiones conducía a la respuesta correcta. Los hallazgos, que arrojan luz sobre el potencial de la IA en el ámbito clínico, se publicaron en npj Digital Medicine . El estudio fue dirigido por investigadores de la Biblioteca Nacional de Medicina (NLM) de los NIH y Weill Cornell Medicine, de la ciudad de Nueva York.
“La integración de la IA en la atención médica es una herramienta muy prometedora que ayudará a los profesionales médicos a diagnosticar a los pacientes más rápidamente, lo que les permitirá comenzar el tratamiento antes”, afirmó el director interino de la NLM, Stephen Sherry, PhD. “Sin embargo, como demuestra este estudio, la IA aún no está lo suficientemente avanzada como para reemplazar la experiencia humana, que es crucial para un diagnóstico preciso”.
Esta tecnología tiene el potencial de ayudar a los médicos a aumentar sus capacidades con información basada en datos que puede conducir a una mejor toma de decisiones clínicas. Comprender los riesgos y las limitaciones de esta tecnología es esencial para aprovechar su potencial en la medicina.
El modelo de IA y los médicos humanos respondieron preguntas del desafío de imágenes del New England Journal of Medicine (NEJM) . El desafío es un cuestionario en línea que proporciona imágenes clínicas reales y una breve descripción de texto que incluye detalles sobre los síntomas y la presentación del paciente, y luego pide a los usuarios que elijan el diagnóstico correcto entre las respuestas de opción múltiple.
Los investigadores le pidieron al modelo de IA que respondiera 207 preguntas de desafío de imágenes y proporcionara una justificación escrita para justificar cada respuesta. La indicación especificaba que la justificación debía incluir una descripción de la imagen, un resumen del conocimiento médico relevante y proporcionar un razonamiento paso a paso sobre cómo el modelo eligió la respuesta.
Se reclutaron nueve médicos de varias instituciones, cada uno con una especialidad médica diferente, y respondieron las preguntas asignadas primero en un entorno de "libro cerrado" (sin consultar ningún material externo como recursos en línea) y luego en un entorno de "libro abierto" (utilizando recursos externos). Luego, los investigadores proporcionaron a los médicos la respuesta correcta, junto con la respuesta del modelo de IA y la justificación correspondiente. Finalmente, se pidió a los médicos que calificaran la capacidad del modelo de IA para describir la imagen, resumir el conocimiento médico relevante y proporcionar su razonamiento paso a paso.
Los investigadores descubrieron que el modelo de IA y los médicos obtuvieron una alta puntuación en la selección del diagnóstico correcto. Curiosamente, el modelo de IA seleccionó el diagnóstico correcto con más frecuencia que los médicos en entornos de libro cerrado, mientras que los médicos con herramientas de libro abierto obtuvieron mejores resultados que el modelo de IA, especialmente al responder las preguntas clasificadas como más difíciles.
Es importante destacar que, según las evaluaciones de los médicos, el modelo de IA a menudo cometía errores al describir la imagen médica y explicar el razonamiento detrás del diagnóstico, incluso en los casos en que tomaba la decisión final correcta. En un ejemplo, se le proporcionó al modelo de IA una foto del brazo de un paciente con dos lesiones. Un médico reconocería fácilmente que ambas lesiones eran causadas por la misma afección. Sin embargo, debido a que las lesiones se presentaban en diferentes ángulos, lo que causaba la ilusión de diferentes colores y formas, el modelo de IA no reconoció que ambas lesiones podían estar relacionadas con el mismo diagnóstico.
Los investigadores sostienen que estos hallazgos subrayan la importancia de evaluar más a fondo la tecnología de IA multimodal antes de introducirla en el ámbito clínico. "Esta tecnología tiene el potencial de ayudar a los médicos a aumentar sus capacidades con información basada en datos que puede conducir a una mejor toma de decisiones clínicas", afirmó el investigador principal de la NLM y autor correspondiente del estudio, el Dr. Zhiyong Lu. "Comprender los riesgos y las limitaciones de esta tecnología es esencial para aprovechar su potencial en la medicina".
El estudio utilizó un modelo de IA conocido como GPT-4V (Transformador preentrenado generativo 4 con visión), que es un "modelo de IA multimodal" que puede procesar combinaciones de múltiples tipos de datos, incluidos texto e imágenes. Los investigadores señalan que, si bien se trata de un estudio pequeño, arroja luz sobre el potencial de la IA multimodal para ayudar a los médicos a tomar decisiones médicas. Se necesita más investigación para comprender cómo se comparan estos modelos con la capacidad de los médicos para diagnosticar a los pacientes.
El estudio fue coescrito por colaboradores del Instituto Nacional del Ojo y el Centro Clínico del NIH; la Universidad de Pittsburgh; el Centro Médico UT Southwestern, Dallas; la Facultad de Medicina Grossman de la Universidad de Nueva York, Ciudad de Nueva York; la Facultad de Medicina de Harvard y el Hospital General de Massachusetts, Boston; la Facultad de Medicina de la Universidad Case Western Reserve, Cleveland; la Universidad de California en San Diego, La Jolla; y la Universidad de Arkansas, Little Rock.