Los modelos de lenguaje grandes (LLM, por sus siglas en inglés), como GPT-4 de OpenAI o Med-PaLM de Google, han irrumpido con fuerza en la práctica médica. Entrenados con vastas cantidades de textos biomédicos y clínicos, estos modelos pueden analizar descripciones clínicas complejas, generar diagnósticos diferenciales y explicar razonamientos diagnósticos con una fluidez sorprendente (Ríos-Hoyo et al., 2024). Pero, ¿qué tan útiles son realmente en la práctica clínica? ¿Pueden ayudar al médico a tomar mejores decisiones o incluso llegar más lejos que él en ciertos escenarios?
Aplicaciones en Casos Clínicos Difíciles
Desde su aparición, los LLM han sido puestos a prueba en casos clínicos complejos, especialmente aquellos en los que el diagnóstico es desafiante incluso para profesionales experimentados. Por ejemplo, un estudio evaluó el desempeño de GPT-4 frente a casos reales del Massachusetts General Hospital, publicados en el New England Journal of Medicine. Sorprendentemente, GPT-4 incluyó el diagnóstico correcto en el 68% de los casos, superando ampliamente a su predecesor (GPT-3.5) y mostrando habilidades de razonamiento sofisticadas (Kanjee et al., 2023).
Otra aplicación interesante ocurrió en el contexto de emergencias médicas. En un análisis retrospectivo de 100 casos atendidos en urgencias, ChatGPT (basado en GPT-4) identificó correctamente el diagnóstico en el 97% de los pacientes, frente a un 93% por parte de médicos residentes (Hoppe et al., 2024). Estos resultados no implican que los LLM sustituyan al juicio clínico, pero sí sugieren su valor como herramienta de apoyo, particularmente útil para generar diagnósticos diferenciales o detectar posibilidades que podrían ser pasadas por alto.
En salud mental, los resultados también son alentadores. Un estudio reciente publicado en NPJ Digital Medicine mostró que ChatGPT-4 identificó correctamente todos los casos de trastorno obsesivo-compulsivo (TOC) en un conjunto de viñetas clínicas, superando el desempeño de psiquiatras y psicólogos que participaron en el experimento (Kim et al., 2024). Esto refuerza el potencial de los LLM para funcionar como herramientas de tamizaje o apoyo diagnóstico en trastornos mentales donde el subdiagnóstico es común.

Figura. generada por Dall-e 3
Comparación con el Desempeño de Médicos
Los estudios han comparado el rendimiento de los LLM con médicos humanos en distintas especialidades. Los resultados son mixtos: en tareas puramente textuales o de razonamiento clínico, como análisis de síntomas o generación de hipótesis, los LLM pueden igualar o incluso superar a médicos residentes (Hirosawa et al., 2023). Sin embargo, en especialidades que dependen fuertemente de habilidades visuales (como la radiología o la dermatología), los LLM aún tienen limitaciones, aunque su combinación con modelos de visión artificial abre nuevas posibilidades (Horiuchi et al., 2025; Shah et al., 2024).
En términos de exactitud, los modelos más avanzados como GPT-4 han logrado aprobar exámenes médicos estandarizados (como el USMLE en EE.UU.) con calificaciones elevadas, y su desempeño mejora si se les proporciona información clínica detallada (Ríos-Hoyo et al., 2024). Sin embargo, también se ha demostrado que pueden fallar estrepitosamente si la información es ambigua o está incompleta, o si el prompt (entrada del usuario) está mal formulado (Hirosawa et al., 2023).
Un Paso Más: El Ensayo Clínico Aleatorizado
El verdadero punto de inflexión vino con la publicación, en octubre de 2024, del primer ensayo clínico aleatorizado que evaluó el impacto del uso de un LLM (GPT-4) en el razonamiento diagnóstico de médicos reales. Publicado en JAMA Network Open, este estudio incluyó a 50 médicos (residentes y especialistas) que fueron divididos en dos grupos: uno con acceso libre a GPT-4 (además de sus recursos habituales como UpToDate o Google) y otro sin acceso al LLM (Goh et al., 2024).
A todos se les presentaron los mismos seis casos clínicos simulados y se evaluó su razonamiento diagnóstico usando una herramienta estandarizada que analizaba no solo si el diagnóstico final era correcto, sino también cómo se había llegado a él.
El resultado: no hubo diferencia significativa entre ambos grupos. El grupo con acceso al LLM obtuvo un puntaje de 76% en razonamiento diagnóstico, mientras que el grupo control alcanzó un 74%. Sin embargo, cuando se evaluó a GPT-4 actuando solo (sin médicos), su desempeño fue notablemente superior: alcanzó un 92% de precisión (Goh et al., 2024).
Esto sugiere que, aunque los LLM pueden tener una capacidad diagnóstica impresionante, su mera inclusión en el flujo de trabajo del médico no garantiza una mejora del desempeño clínico. Se requiere capacitación específica, integración inteligente en el entorno clínico, y sobre todo, una redefinición del rol del profesional humano frente a estas herramientas emergentes.
Aspectos éticos, legales y regulatorios del uso de LLM en diagnóstico clínico

Figura. Generada automáticamente con ChatGPT 4o
| Categoría | Preocupaciones principales | Recomendaciones / Buenas prácticas |
| Seguridad y no maleficencia | – Posibilidad de errores o alucinaciones – Diagnósticos erróneos con explicaciones convincentes que pueden inducir a error clínico. | – Validación rigurosa antes de uso. – Usar LLM como herramienta de apoyo, no como fuente única. – Mecanismos de doble verificación. – Informar al paciente que se ha usado IA. |
| Privacidad y confidencialidad | – Riesgo de exposición de datos sensibles del paciente. – Preocupaciones si se usan servicios en la nube (ej. ChatGPT). | – Usar versiones locales o compatibles con regulaciones (ej. HIPAA). – Consentimiento informado para uso de datos. – Anonimización previa de la información. – Políticas claras sobre el tipo de datos que se ingresan. |
| Sesgos y equidad | – Sesgos por datos históricos (etnia, género, SES). – Diagnóstico menos preciso en poblaciones subrepresentadas. | – Evaluar desempeño en cohortes diversas. – Monitorear y mitigar sesgos durante el entrenamiento. – Transparencia en limitaciones del modelo. – Aplicar principios de justicia y equidad. |
| Responsabilidad profesional y legal | – ¿Quién responde por errores? – IA no es sujeto legal. – Riesgo de delegar decisiones médicas a la IA. | – Médico sigue siendo responsable final. – Usar como herramienta complementaria. – Requiere clasificación y aprobación regulatoria como software médico (ej. FDA, EMA). – Consulta con comités de ética y legales. |
| Otros aspectos éticos | – Exceso de confianza o dependencia en la IA. – Pérdida de habilidades clínicas. – Despersonalización de la relación médico-paciente. | – Capacitación en uso responsable de IA. – Conversaciones abiertas con pacientes sobre el rol de la IA. – Aprovechar la IA para liberar tiempo administrativo y potenciar la empatía y comunicación. |

Figura. Generada automaticamente con Dall-e 3
Reflexión Final
Los modelos de lenguaje grandes tienen un enorme potencial como copilotos clínicos. Pueden ayudar a ampliar el razonamiento diagnóstico, reducir el error humano y facilitar el acceso a conocimiento actualizado. Pero no reemplazan al médico: requieren supervisión crítica, juicio clínico y un entorno ético y regulatorio sólido (Ríos-Hoyo et al., 2024).
El futuro de la medicina con IA no será una competencia entre humano y máquina, sino una colaboración inteligente que, bien diseñada, puede llevarnos a una atención más segura, eficiente y humana.
Referencias:
- Ríos-Hoyo A, Shan NL, Li A, Pearson AT, Pusztai L, Howard FM. Evaluation of large language models as a diagnostic aid for complex medical cases. Front Med (Lausanne). 20 de junio de 2024;11:1380148.
- Kanjee Z, Crowe B, Rodman A. Accuracy of a Generative Artificial Intelligence Model in a Complex Diagnostic Challenge. JAMA. 3 de julio de 2023;330(1):78-80.
- Hoppe JM, Auer MK, Strüven A, Massberg S, Stremmel C. ChatGPT With GPT-4 Outperforms Emergency Department Physicians in Diagnostic Accuracy: Retrospective Analysis. J Med Internet Res. 8 de julio de 2024;26:e56110.
- Kim J, Leonte KG, Chen ML, Torous JB, Linos E, Pinto A, et al. Large language models outperform mental and medical health care professionals in identifying obsessive-compulsive disorder. npj Digit Med. 19 de julio de 2024;7(1):1-5.
- Hirosawa T, Kawamura R, Harada Y, Mizuta K, Tokumasu K, Kaji Y, et al. ChatGPT-Generated Differential Diagnosis Lists for Complex Case–Derived Clinical Vignettes: Diagnostic Accuracy Evaluation. JMIR Medical Informatics. 9 de octubre de 2023;11(1):e48808.
- Horiuchi D, Tatekawa H, Oura T, Shimono T, Walston SL, Takita H, et al. ChatGPT’s diagnostic performance based on textual vs. visual information compared to radiologists’ diagnostic performance in musculoskeletal radiology. Eur Radiol. 1 de enero de 2025;35(1):506-16.
- Shah A, Wahood S, Guermazi D, Brem CE, Saliba E. Skin and Syntax: Large Language Models in Dermatopathology. Dermatopathology (Basel). 14 de febrero de 2024;11(1):101-11.
- Goh E, Gallo R, Hom J, Strong E, Weng Y, Kerman H, et al. Large Language Model Influence on Diagnostic Reasoning: A Randomized Clinical Trial. JAMA Network Open. 28 de octubre de 2024;7(10):e2440969.


Deja un comentario