Los recientes avances en inteligencia artificial han destacado el potencial de los grandes modelos multimodales (LMM) para diversas aplicaciones, incluido el diagnóstico médico. Sin embargo, un estudio innovador titulado "¿Peor que al Azar? Una evaluación sorprendentemente simple de la evaluación de modelos multimodales grandes en Med-VQA" muestra que estos modelos pueden no ser tan confiables como se pensaba.
El estudio, realizado por investigadores de diferentes instituciones y publicado en arXiv en mayo de 2024, evalúa la precisión diagnóstica de los LMM en la respuesta a preguntas visuales médicas (Med-VQA). El objetivo es determinar la fiabilidad de estos modelos y su aplicabilidad en el mundo real. Para ello, se introdujo un conjunto de datos único, ProbMed, para probar las capacidades diagnósticas de los modelos.
Modelos multimodales grandes como GPT-4V y Gemini Pro han sido elogiados por su desempeño en benchmarks generales. Sin embargo, su aplicación en áreas especializadas como el diagnóstico médico requiere una validación rigurosa. El estudio tiene como objetivo evaluar si estos modelos pueden responder de manera fiable a preguntas médicas basadas en datos visuales, algo determinante para poder usarse en la atención médica.
Para evaluar los LMM, los investigadores desarrollaron un nuevo conjunto de datos llamado ProbMed. Este conjunto de datos contiene preguntas médicas complejas diseñadas para probar el razonamiento diagnóstico de los modelos y su capacidad para manejar preguntas adversariales. La evaluación se centró en procedimientos diagnósticos y preguntas adversariales para evaluar la capacidad del modelo para interpretar imágenes médicas, sugerir pasos diagnósticos apropiados y manejar preguntas complicadas diseñadas para probar la profundidad del entendimiento del modelo.
Los resultados fueron sorprendentes y algo inquietantes. El rendimiento de modelos avanzados como GPT-4V y Gemini Pro estuvo muy por debajo de las expectativas. En muchos casos, estos modelos rindieron peor que el azar al responder correctamente a preguntas diagnósticas. Los modelos, a menudo, no lograron proporcionar respuestas correctas a preguntas sobre procedimientos diagnósticos, destacando la discrepancia entre sus capacidades percibidas y reales. Además, los modelos tuvieron dificultades con preguntas antagonistas y a menudo dieron respuestas incorrectas o sin sentido. Esto indica una comprensión superficial del contenido médico en lugar de un pensamiento diagnóstico profundo.
Implicaciones
Estos hallazgos tienen implicaciones de gran alcance para el uso de la IA en el diagnóstico médico. Aunque los LMM prometen mejorar la atención médica a través de la automatización y el soporte a la toma de decisiones, su estado actual de desarrollo no es lo suficientemente confiable para aplicaciones críticas. El estudio destaca la necesidad de marcos de evaluación más robustos y mejores métodos de entrenamiento para garantizar que estos modelos puedan ser confiables en la práctica médica.
El estudio sugiere varias formas de mejorar la fiabilidad de los LMM en el diagnóstico médico. Estas incluyen mejores datos de entrenamiento, la inclusión de datos médicos más diversos y representativos para mejorar la comprensión del modelo y métricas de evaluación especializadas que reflejen mejor la complejidad de las tareas diagnósticas médicas. Además, la colaboración interdisciplinaria que involucra a expertos en el proceso de desarrollo y evaluación es esencial para garantizar que los resultados de los modelos sean clínicamente relevantes.
El estudio "¿Peor que al Azar?" es un recordatorio importante de que, aunque la tecnología de IA está avanzando rápidamente, su aplicación en áreas sensibles como la atención médica requiere una validación cuidadosa y minuciosa. A pesar de sus capacidades impresionantes en otros dominios, la generación actual de modelos multimodales grandes es inadecuada cuando se trata de responder preguntas visuales médicas. Esta investigación llama a un enfoque renovado en el desarrollo de IA que pueda comprender y apoyar verdaderamente los diagnósticos médicos, garantizando la seguridad y precisión en las aplicaciones de atención médica.