La educación médica enfrenta desafíos constantes en la formación clínica y la evaluación de competencias, especialmente en lo que respecta a la retroalimentación oportuna y objetiva de los estudiantes. Entre los principales problemas identificados se encuentran la subjetividad en la evaluación de notas clínicas, la falta de retroalimentación inmediata en la toma de historia clínica, la dificultad en la detección de errores quirúrgicos en escenarios de entrenamiento, la limitación en la generación de hipótesis diagnósticas, la variabilidad en la percepción y aceptación de los modelos de IA por parte de los estudiantes, y la necesidad de fortalecer la toma de decisiones clínicas.

Figura 1. representación de la educación médica e inteligencia artificial (generada con DAll-E 3)
Además, la carga de trabajo de los docentes y la escasez de expertos disponibles para proporcionar una supervisión constante agravan estos desafíos, dificultando la implementación de estrategias de evaluación efectiva. En el ámbito quirúrgico, la subjetividad en la identificación y corrección de errores técnicos sigue siendo una preocupación clave, y en el diagnóstico clínico, el cierre prematuro de hipótesis sin considerar otras posibles alternativas representa una limitación frecuente en la formación médica. La retroalimentación deficiente o insuficiente impacta en la curva de aprendizaje de los estudiantes, generando un entorno de formación menos efectivo.
Diversos estudios recientes han explorado cómo la inteligencia artificial generativa puede abordar estos problemas, ofreciendo soluciones innovadoras que prometen transformar tanto el proceso de enseñanza como la práctica clínica. Estas tecnologías pueden automatizar la evaluación de notas clínicas, proporcionar retroalimentación estructurada en la toma de historia clínica, mejorar el reconocimiento de errores quirúrgicos y ampliar el espectro de hipótesis diagnósticas.
Además, los modelos de lenguaje pueden ayudar a reducir la carga de los docentes al proporcionar feedback inmediato y personalizado, lo que facilita un aprendizaje más eficiente y autónomo para los estudiantes. La IA también se está utilizando en la simulación de interacciones médico-paciente, mejorando la toma de decisiones clínicas mediante entornos de aprendizaje basados en casos realistas.
En esta entrada de blog mostramos, a través de ejemplos concretos, cómo los modelos de lenguaje han comenzado a posicionarse rápidamente en diversas tareas dentro del ámbito clínico y educativo, destacando su aplicación temprana en la automatización de evaluaciones, la generación de retroalimentación inmediata y la mejora en la toma de decisiones médicas. Esto proporciona una visión integral del impacto de la inteligencia artificial en la educación y la práctica médica.
- Evaluación de Notas Clínicas en Lenguaje Libre
Burke et al., 2024 examinaron la capacidad de ChatGPT para evaluar notas clínicas escritas por estudiantes de medicina. Se compararon las evaluaciones realizadas por el modelo con aquellas de pacientes estandarizados, encontrándose que ChatGPT tenía un error del 1.0% frente al 7.2% de los evaluadores humanos, lo que sugiere que los modelos de lenguaje pueden proporcionar una evaluación más objetiva y consistente.
Además, el estudio destacó que el uso de ChatGPT permitió identificar patrones en la redacción de notas clínicas, proporcionando retroalimentación inmediata a los estudiantes sobre la estructura, contenido y coherencia de sus informes. También se observó que el modelo podía detectar omisiones críticas en la historia clínica y recomendar mejoras en la presentación de la información.
Un hallazgo adicional fue que los estudiantes que utilizaron ChatGPT como herramienta de evaluación mejoraron significativamente en la calidad de sus notas clínicas a lo largo del tiempo. Esto sugiere que la IA no solo puede actuar como un evaluador confiable, sino también como un recurso de aprendizaje que refuerza buenas prácticas en la documentación médica, optimizando así la formación en escritura clínica y promoviendo una mejor organización del pensamiento clínico.
- Retroalimentación en la Toma de Historia Clínica

Figura 2. Pacientes virtuales (generada con DAll-E 3)
Holderried et al., 2024 desarrollaron un paciente virtual basado en GPT-4 que interactuaba con estudiantes y proporcionaba retroalimentación estructurada en tiempo real sobre la toma de historia clínica. La precisión médica del modelo fue superior al 99% y mostró una concordancia casi perfecta con evaluaciones humanas (Cohen κ≈0.83), lo que lo convierte en una herramienta valiosa para el entrenamiento clínico.
Además de evaluar la precisión de la historia clínica obtenida, el modelo también proporcionaba comentarios detallados sobre la estructura y el enfoque de las preguntas formuladas por los estudiantes, ayudándoles a mejorar la lógica y coherencia en sus entrevistas médicas. Otro aspecto clave fue la capacidad del paciente virtual para adaptarse dinámicamente a las respuestas de los estudiantes, proporcionando escenarios variados y permitiendo la personalización del entrenamiento según el nivel de habilidad de cada usuario.
Los estudiantes que participaron en el estudio informaron que el uso de este sistema no solo mejoró su confianza al realizar entrevistas clínicas, sino que también fomentó un enfoque más analítico en la formulación de preguntas, permitiéndoles detectar detalles clínicos que podrían haber pasado desapercibidos en un entorno tradicional. La posibilidad de recibir retroalimentación inmediata y precisa optimizó significativamente la curva de aprendizaje, resaltando el potencial de la inteligencia artificial para complementar la educación médica en entornos clínicos simulados.
- Feedback en Escenarios Quirúrgicos
Trujillo et al., 2024 evaluaron la capacidad de ChatGPT para generar retroalimentación en escenarios quirúrgicos reales. Los resultados mostraron que el feedback del modelo fue considerado tan útil y de calidad comparable al proporcionado por cirujanos experimentados, con tasas altas de detección de errores y utilidad del feedback.
Además, el estudio reveló que la IA no solo identificaba fallos técnicos en los procedimientos quirúrgicos, sino que también proporcionaba sugerencias específicas para la corrección de técnicas y estrategias de mejora. Se observó que los participantes que utilizaron el feedback de ChatGPT mostraron una mejora en la precisión de sus intervenciones y una mayor seguridad en la toma de decisiones intraoperatorias.
Otro hallazgo clave fue que el modelo de IA facilitó una retroalimentación más accesible y en tiempo real, reduciendo la dependencia de la supervisión directa por parte de cirujanos expertos y permitiendo una curva de aprendizaje más dinámica para los residentes y estudiantes de cirugía. Esto sugiere que la IA podría desempeñar un papel fundamental en la formación quirúrgica, optimizando los procesos de enseñanza y mejorando la calidad del aprendizaje.
- Asistencia Diagnóstica con Coaching Basado en IA

Figura 3. Asistencia al diagnóstico (generada con DAll-E 3)
Kämmer et al., 2024 diseñaron un estudio controlado para evaluar el impacto de ChatGPT en la ampliación del espacio de hipótesis y mejora del proceso diagnóstico. Aunque los resultados aún están pendientes, el protocolo describe una metodología robusta para analizar el impacto de la IA en la toma de decisiones clínicas. Este estudio contempla el uso de escenarios clínicos simulados en los que los estudiantes interactúan con ChatGPT para generar diagnósticos diferenciales, evaluar la relevancia de la información obtenida y optimizar el proceso de toma de decisiones.
Además, se investigará cómo la intervención de la IA afecta la precisión diagnóstica y la confianza de los estudiantes en sus elecciones clínicas. Se espera que ChatGPT fomente un enfoque más sistemático y estructurado en la generación de hipótesis, ayudando a los participantes a considerar un espectro más amplio de posibilidades diagnósticas y reducir el sesgo cognitivo. La retroalimentación generada por la IA también será analizada para determinar su influencia en el aprendizaje adaptativo y el desarrollo del razonamiento clínico a lo largo del estudio.
- Percepción de los Estudiantes sobre el Uso de Modelos de Lenguaje
Mondal et al., 2024 llevaron a cabo un estudio cualitativo con estudiantes de medicina en India, explorando sus percepciones sobre el uso de la IA en su aprendizaje. Se identificaron tres grandes áreas de interés: los escenarios de uso (clarificación de conceptos, generación de notas, creación de preguntas de opción múltiple), las ventajas percibidas (ahorro de tiempo, integración de conocimientos, accesibilidad a información estructurada) y preocupaciones (errores, privacidad, dependencia excesiva, falta de supervisión experta).
El estudio también destacó que los estudiantes perciben la IA como una herramienta de apoyo en la comprensión de conceptos complejos, facilitando el aprendizaje autodidacta y reduciendo la necesidad de búsqueda manual de información en múltiples fuentes. Sin embargo, señalaron que, si bien la IA puede acelerar la adquisición de conocimientos, su uso requiere una supervisión adecuada para evitar la propagación de información errónea o sesgada.
Otro aspecto relevante identificado en el estudio es la variabilidad en la confianza de los estudiantes respecto a la precisión de las respuestas generadas por la IA. Algunos consideraron que, al complementar sus estudios con IA, su desempeño mejoró en la resolución de casos clínicos y exámenes, mientras que otros manifestaron preocupaciones sobre la posible disminución del pensamiento crítico si dependen demasiado de estos modelos.
Estos hallazgos resaltan la importancia de integrar la IA de manera equilibrada en los programas educativos, combinando sus beneficios con estrategias que fomenten la validación de la información y el pensamiento analítico en los estudiantes.
- Mejora en la Toma de Decisiones Clínicas mediante Feedback Estructurado
Brügge et al., 2024 demostraron que los modelos de lenguaje pueden mejorar significativamente la toma de decisiones clínicas mediante simulaciones de interacción médico-paciente con retroalimentación estructurada. Se observó una mejora en la capacidad de “crear contexto” y “asegurar información” en los estudiantes que utilizaron IA para recibir feedback. Además, el estudio destacó que los participantes que recibieron retroalimentación automatizada lograron una mayor precisión en sus diagnósticos diferenciales, mejoraron su capacidad de sintetizar información clínica relevante y mostraron mayor confianza en la toma de decisiones. Estos hallazgos sugieren que la integración de modelos de lenguaje en la educación médica puede contribuir significativamente al desarrollo de habilidades críticas en escenarios clínicos complejos, fomentando una formación más dinámica y adaptativa.
Limitaciones y Retos
A pesar de los avances significativos en la integración de la inteligencia artificial generativa en la educación y práctica médica, existen diversas limitaciones y desafíos que deben ser abordados para garantizar su implementación efectiva y segura.
Uno de los principales desafíos es la dependencia de la calidad y diversidad de los datos de entrenamiento de los modelos de lenguaje. La información con la que estos modelos han sido entrenados puede contener sesgos o estar incompleta, lo que puede llevar a respuestas inexactas o inapropiadas en el contexto clínico. Además, la falta de transparencia en la forma en que los modelos generan sus respuestas plantea problemas en términos de confiabilidad y validación.
Otro reto importante es la necesidad de supervisión y regulación en el uso de la IA en la formación y toma de decisiones médicas. Si bien los modelos de lenguaje han demostrado ser herramientas útiles para el aprendizaje, su implementación en entornos clínicos requiere validaciones rigurosas y mecanismos que permitan la verificación de sus recomendaciones por parte de profesionales de la salud.
Desde el punto de vista educativo, aunque la IA puede proporcionar retroalimentación instantánea y detallada, sigue siendo esencial la interacción con instructores humanos que puedan contextualizar y complementar la información generada por estos modelos. Asimismo, es fundamental que los estudiantes desarrollen habilidades de pensamiento crítico para evaluar la validez de la información proporcionada por la IA, en lugar de depender exclusivamente de ella.
Además, el uso de modelos de IA en la educación médica plantea preocupaciones éticas y de privacidad. La recopilación y procesamiento de datos clínicos para entrenar estos modelos debe cumplir con normativas estrictas de protección de datos para evitar la exposición o uso indebido de información sensible.
En el ámbito de la práctica médica, la integración de la IA debe garantizar que su uso no reemplace la toma de decisiones basada en la experiencia y juicio clínico de los profesionales de la salud, sino que actúe como una herramienta de apoyo que refuerce y optimice los procesos existentes.
Finalmente, la brecha digital y la desigualdad en el acceso a estas tecnologías pueden representar un obstáculo para su adopción generalizada. Es necesario que las instituciones académicas y médicas trabajen en estrategias que permitan la capacitación y acceso equitativo a estas herramientas, garantizando que todos los estudiantes y profesionales de la salud puedan beneficiarse de sus ventajas sin restricciones tecnológicas o económicas.
Consideraciones Éticas
El uso de modelos de lenguaje en la educación y práctica médica plantea diversas consideraciones éticas que deben abordarse cuidadosamente para garantizar su implementación de manera responsable y segura.
Uno de los aspectos más relevantes es la privacidad y confidencialidad de los datos clínicos. Los modelos de IA requieren grandes volúmenes de información para su entrenamiento y operación, lo que plantea preocupaciones sobre la protección de los datos de los pacientes y el cumplimiento de normativas como el Reglamento General de Protección de Datos (GDPR) y la Ley de Portabilidad y Responsabilidad de Seguro Médico (HIPAA). Es fundamental que las instituciones que desarrollan y utilizan estas herramientas implementen estrictos protocolos de anonimización y almacenamiento seguro de la información.
Otro punto crucial es la transparencia en el funcionamiento de estos modelos. Muchas soluciones de IA, incluidos los modelos de lenguaje, funcionan como “cajas negras”, lo que dificulta comprender cómo llegan a determinadas conclusiones. Esto puede generar desconfianza entre los profesionales de la salud y plantea la necesidad de mecanismos que permitan auditar y validar sus recomendaciones antes de ser adoptadas en entornos clínicos.
Además, la equidad en la implementación de estas herramientas es una preocupación clave. Existen riesgos de sesgo en los datos utilizados para entrenar modelos de IA, lo que podría llevar a resultados clínicos inconsistentes o discriminatorios. Es fundamental desarrollar estrategias para evaluar y mitigar estos sesgos, asegurando que las tecnologías de IA beneficien a todos los pacientes sin distinción de origen étnico, género o nivel socioeconómico.
Otro desafío ético importante es el equilibrio entre la asistencia brindada por la IA y el papel del juicio clínico humano. Si bien estos modelos pueden optimizar la toma de decisiones médicas, no deben sustituir la evaluación y criterio de los profesionales de la salud. La formación médica debe garantizar que los estudiantes adquieran habilidades críticas para interpretar y validar la información proporcionada por la IA, evitando la dependencia ciega de estas herramientas.
Por último, es imprescindible contar con normativas claras sobre la responsabilidad en caso de errores en el diagnóstico o tratamiento derivados del uso de modelos de IA. Definir el grado de responsabilidad de los desarrolladores, instituciones médicas y profesionales de la salud en la implementación de estas tecnologías es un aspecto fundamental para su integración ética y segura en la práctica clínica.
Conclusión
Los estudios revisados muestran un panorama prometedor en el que la inteligencia artificial generativa se posiciona como una solución viable para mejorar la formación médica y la práctica clínica. Desde la evaluación de notas clínicas hasta la mejora en la toma de decisiones, la IA ofrece herramientas para proporcionar feedback más objetivo y oportuno. La convergencia de metodologías cuantitativas y cualitativas en estos estudios resalta la diversidad de aplicaciones y el potencial transformador de la IA en la educación médica. En el futuro, la integración de modelos de lenguaje en la formación y práctica clínica podría contribuir significativamente a la preparación de médicos más competentes y mejor capacitados para enfrentar los desafíos del entorno de salud actual.
Referencias:
- Burke HB, Hoang A, Lopreiato JO, King H, Hemmer P, Montgomery M, Gagarin V. Assessing the Ability of a Large Language Model to Score Free-Text Medical Student Clinical Notes: Quantitative Study. JMIR Med Educ. 2024;10:e56342. doi:10.2196/56342
- Holderried F, Stegemann-Philipps C, Herrmann-Werner A, Festl-Wietek T, Holderried M, Eickhoff C, Mahling M. A Language Model–Powered Simulated Patient With Automated Feedback for History Taking: Prospective Study. JMIR Med Educ. 2024;10:e59213. doi:10.2196/59213
- Trujillo CJ, Vela Ulloa J, Escalona Vivas G, Grasset Escobar E, Villagrán Gutiérrez I, Achurra Tirado P, Varas Cohen J. Surgeons vs ChatGPT: Assessment and Feedback Performance Based on Real Surgical Scenarios. J Surg Educ. 2024;81:960–966. doi:10.1016/j.jsurg.2024.03.012
- Kämmer JE, Hautz WE, Krummrey G, Sauter TC, Penders D, Birrenbach T, Bienefeld N. Effects of interacting with a large language model compared with a human coach on the clinical diagnostic process and outcomes among fourth-year medical students: study protocol for a prospective, randomised experiment using patient vignettes. BMJ Open. 2024;14:e087469. doi:10.1136/bmjopen-2024-087469
- Mondal H, Karri JKK, Ramasubramanian S, Mondal S, Juhi A, Gupta P. A qualitative survey on perception of medical students on the use of large language models for educational purposes. Adv Physiol Educ. 2024;ahead of print.
- Brügge E, Ricchizzi S, Arenbeck MA, Keller MN, Schur L, Stummer W, Holling M, Lu MH, Darici D. Large language models improve clinical decision making of medical students through patient simulation and structured feedback: a randomized controlled trial. BMC Med Educ. 2024;24:1391. doi:10.1186/s12909-024-06399-7.


Deja un comentario