Se ha postulado que el marco de desarrollo de los modelos base se realiza al interior de un ecosistema consta de cinco fases (1 Bommasani):
- Creación de datos: proceso que se enfoca en las personas y la mayoría de los datos son sobre ellas, ya sea que sean creados por ellas o medidos en ellas o en su entorno. Todos los datos tienen un propietario y un propósito, que puede incluir el entrenamiento de un modelo.
- Curación de datos: se seleccionan y filtran los datos para crear conjuntos de datos relevantes y de calidad, respetando las restricciones legales y éticas. Esto es desafiante pero fundamental en la industria y subestimado en la investigación de IA.
- Entrenamiento de modelos: es una etapa central en la investigación de IA.
- Adaptación: se trata de crear un nuevo modelo basado en el modelo base que realiza alguna tarea (por ejemplo, resumen de documentos). Para el despliegue, la adaptación consiste en crear un sistema, que requiere potencialmente muchos módulos diferentes, reglas personalizadas (p. ej., restricciones en el espacio de salida) o clasificadores (p. ej., para clasificación de toxicidad) y combinación con otras señales complementarias (p. ej., una pregunta que responde las respuestas generadas por el modelo se validarán con los documentos pertinentes). Por ejemplo, un modelo problemático capaz de generar contenido tóxico podría ser tolerable si se toman las precauciones adecuadas aguas abajo. La lógica adicional específica de la aplicación es crucial para mitigar los datos.
- Implementación: es la responsable del impacto social sobre las personas. Aunque no sean implementados, los modelos basados en datos cuestionables pueden ser útiles para la investigación científica aunque debe tenerse precaución durante su uso. En implementaciones a gran escala, es común realizar lanzamientos graduales para mitigar parcialmente cualquier daño potencial.
ECOSISTEMA DE DESARROLLO DE MODELOS BASE EN MEDICINA
De forma similar al papel que por años ha ocupado la academia para servir de contrapeso a los intereses de la industria farmacéutica, también está en una posición distintiva para dar forma al desarrollo de modelos base para garantizar que capturamos direcciones con un beneficio social potencialmente grande que, de otro modo, la industria no podría priorizar (1 Bommasani).
- Creación de datos:
La procedencia de los datos ostenta ciertas particularidades en el contexto de la atención en salud. Los frentes pueden ser ampliamente variados e intrincados, podríamos arbitrariamente clasificar sus fuentes por grupos de la siguiente forma:
- las fuentes tradicionales como la historia clínica, los laboratorios, las imágenes diagnósticas y las señales fisiológicas como electrocardiograma o electroencefalograma
- los datos procedentes de experimentos tanto de ciencias básicas como de las clínicas
- los datos genéticos y de marcadores moleculares
- el contexto demográfico, de entorno social, cultural y económico
- la información de los administradores de la salud
- los suministrados por redes sociales (importantes para el riesgo de suicidio o reconocimiento del bullying)
- las adquirida mediante estrategias de tele-monitoreo bien sea a partir de dispositivos invasivos (marcapasos, relatores de eventos) o no invasivos (Holter, MAPA, pulso-oxímetros) con un papel cada vez más evidente de los sensores vestibles (wearable)
Es altamente probable que el contexto de medicina personalizada comience a dar frutos a partir de la multimodalidad de los datos, saliéndose de la casi exclusividad de los marcadores genéticos o moleculares. La inteligencia artificial jugará un papel central en el reconocimiento de dichas interacciones de una forma más efectiva de lo que hoy somos capaces.
Un componente central en los modelos base lo determinan las bases de datos textuales a diferentes niveles; en la actualidad priman las bases de datos procedentes de grandes repositorios de información como Wikipedia, libros no publicados de Google, Reddit o bien conversaciones. Desde medicina la fuente más frecuentemente usada son los resúmenes procedentes de PubMed seguido por los propios artículos alojados en PMC.
En la siguiente tabla exponemos varias de las bases de datos que han sido usadas con mayor frecuencia en tareas de PLN en medicina:
| BASE DE DATOS | TAREA | Métrica de Evaluación | Descripción |
| BC5-chem y BC5-disease (2 Li) | NER | F1 entity-level | El corpus consta de 1500 artículos de PubMed con 4409 productos químicos anotados, 5818 enfermedades y 3116 interacciones químico-enfermedad. |
| NCBI-disease (3 Doğan) | NER | F1 entity-level | Contiene 6.892 menciones de enfermedades, que se asignan a 790 conceptos únicos de enfermedades. De estos, el 88% se vincula a un identificador MeSH, mientras que el resto contiene un identificador OMIM. Pudimos vincular el 91% de las menciones a un solo concepto de enfermedad, mientras que el resto se describe como una combinación de conceptos. |
| BC2GM (4 Smith) | NER | F1 entity-level | Contiene datos en los que se pide a los participantes que identifiquen la mención de un gen en una oración dando sus caracteres de inicio y final. El conjunto de entrenamiento consta de un conjunto de oraciones y, para cada oración, un conjunto de menciones de genes (anotaciones GENE). Se seleccionó y anotó un corpus de 20.000 oraciones con fines de capacitación y prueba. |
| JNLPBA (5 Collier) | NER | F1 entity-level | Implica la identificación y clasificación de términos técnicos que se refieren a conceptos de interés para los biólogos en el dominio de la biología molecular. La tarea fue organizada por GENIA Project. Contiene 2404 resúmenes de PubMed con anotación de términos |
| EBM PICO (6 Nye) | PICO | Macro F1 word-level | un corpus de 5.000 resúmenes ricamente anotados de artículos médicos que describen ensayos clínicos controlados aleatorios. Las anotaciones incluyen demarcaciones de intervalos de texto que describen la población de pacientes inscritos, las intervenciones estudiadas y con qué se compararon, y los resultados medidos (los elementos ‘PICO’) |
| ChemProt (7 Antunes) | Relation Extraction | Micro F1 | Es una base de datos de biología química de enfermedades, que se basa en una compilación de múltiples recursos de anotación químico-proteína, así como interacciones proteína-proteína asociadas a enfermedades (PPI). Reunieron más de 700 000 productos químicos únicos con anotación biológica para 30 578 proteínas. Reunimos más de 2 millones de interacciones entre químicos y proteínas, que se integraron en una red PPI humana con puntuación de calidad de 428 429 interacciones. |
| DDI (8 Herrero) | Relation Extraction | Micro F1 | El corpus DDI se ha anotado manualmente con fármacos e interacciones PK y PD. 1025 Documentos de dos fuentes diferentes: base de datos de DrugBank y MedLine. |
| GAD (9 Becker) | Relation Extraction | Micro F1 | Gene-Disease Associations es un archivo de estudios de asociación genética publicados que proporciona un repositorio completo, público y basado en la web de parámetros moleculares, clínicos y de estudio para más de 5000 estudios de asociación genética humana en este momento. |
| BIOSSES (10 Soğancıoğlu) | Sentence Similarity | Pearson | 100 pares de oraciones, en los que cada oración se seleccionó del TAC (Conferencia de análisis de texto) Conjunto de datos de capacitación de pista de resumen biomédico que contiene artículos del dominio biomédico. El conjunto de datos TAC consta de 20 artículos (artículos de referencia) y artículos de cita que varían de 12 a 20 para cada uno de los artículos de referencia. |
| HoC (11 Baker) | Document Classification | Average Micro F1 | El corpus Hallmarks of Cancer (HoC) consta de 1852 resúmenes de publicaciones de PubMed anotados manualmente por expertos de acuerdo con la taxonomía de Hallmarks of Cancer. La taxonomía consta de 37 clases en una jerarquía. |
| PubMedQA (12 Jin) | Question Answering | Accuracy | Tiene 1k instancias expertamente anotadas, 61.2k no anotadas y 211.3k instancias generadas artificialmente. |
| BioASQ (13 Tsatsaronis) | Question Answering | Accuracy | La Tarea 7b usó conjuntos de datos de referencia que contienen preguntas biomédicas de capacitación y prueba, en inglés, junto con respuestas estándar (de referencia). Los participantes deberán responder a cada pregunta de la prueba con conceptos relevantes, artículos relevantes, fragmentos relevantes, triples RDF relevantes, respuestas exactas y respuestas ‘ideales’ . Ya están disponibles 2747 preguntas de entrenamiento, junto con sus respuestas estándar de oro |
| MedQA (14 Jin) | Question Answering | Accuracy | Un conjunto de datos OpenQA de opción múltiple de forma libre para resolver problemas médicos, recopilados de los exámenes de la junta médica profesional. Cubre tres idiomas: inglés, chino simplificado y chino tradicional, y contiene 12 723, 34 251 y 14 123 preguntas para los tres idiomas, respectivamente. |
| MedMCQA (15 Pal) | Question Answering | Accuracy | Es un conjunto de datos de respuesta a preguntas de opción múltiple (MCQA) a gran escala diseñado para abordar las preguntas del examen de ingreso médico del mundo real. Se recopilan más de 194 000 MCQ de examen de ingreso de AIIMS y NEET PG de alta calidad que cubren 2,4 K temas de atención médica y 21 temas médicos con una longitud de token promedio de 12,77 y una gran diversidad de temas. |
| LiveQA (16 Abacha) | Question Answering | Accuracy | La tarea aborda la respuesta automática de las preguntas de salud del consumidor recibidas por la Biblioteca Nacional de Medicina de EE. UU. Proporcionamos pares de preguntas y respuestas de capacitación y preguntas de prueba con respuestas de referencia. |
| MedicationQA (17 Abacha) | Question Answering | Accuracy | Un corpus para respuestas a preguntas sobre medicamentos creado con preguntas de consumidores reales. Consta de seiscientos setenta y cuatro pares de preguntas y respuestas con anotaciones del enfoque y tipo de la pregunta y la fuente de la respuesta. |
| MMLU clinical topics (18 Hendrycks) | Question Answering | Accuracy | La prueba cubre 57 tareas que incluyen matemáticas elementales, historia de EE. UU., informática, derecho y más. Para lograr una alta precisión en esta prueba, los modelos deben poseer un amplio conocimiento del mundo y capacidad para resolver problemas. |
| HealthSearchQA (19 Singhal) | Question Answering | Accuracy | Un conjunto de datos de 3375 preguntas médicas de consumo comúnmente buscadas. |
Aunque el español puede hacer parte de muchas de estas fuentes, debemos ser conscientes que se encuentra subrepresentada lo que hace que los resultados del desempeño de los modelos lanzados sea menor en este idioma. Será una labor necesaria para los investigadores y las instituciones de países hispanoparlantes incentivar la creación y divulgación de bases de datos en este idioma.
Es esperable que en la búsqueda del desarrollo de asistentes virtuales inteligentes, un paso adelante esperable de los chatbots, las entrevistas con los pacientes comenzaran a ser tenidas en cuenta como fuente de alimentación de estos sistemas.
Otra fuente que será cada vez más habitual serán los datos sintéticos, aquellos procedentes de generadores automáticos de texto. Muestra de ello son GPT4All Prompt Generations, un conjunto de datos de 400000 mensajes y respuestas generados por GPT-4 (20 Anand); y Alpaca, un conjunto de datos de 52 000 instrucciones y demostraciones generadas por el motor text-davinci-003 de OpenAI (21 Taori).
Cuando tratamos con datos de pacientes somos responsables cuando respetamos los principios de autonomía, reciprocidad y reflexividad (22 Quintana). El manejo de datos protegidos implica los siguientes ámbitos de responsabilidad:
- Intimidad y confidencialidad: implica solicitar autorización para el uso de datos y respetar el secreto profesional
- Libertad y consentimiento: el consentimiento informado (CI) materializa la libertad. Está basado en el respeto a la dignidad de la persona y a su autonomía
- Derechos de los pacientes sobre sus datos: Es la verificación objetiva del respeto a la dignidad de las personas en torno a la que gira la bondad y la justicia de nuestros actos. En este caso, los derechos del paciente son los de acceso, rectificación, supresión u olvido, limitación del tratamiento, portabilidad de los datos y oposición
- Información y transparencia: Son dos deberes morales complementarios. La anonimización de datos y el CI justifican la donación o captación de datos personales
- Seguir los principios jurídicos de protección de datos (23 WIPO)
Referencias:
- Bommasani R, Hudson DA, Adeli E, Altman R, Arora S, von Arx S, et al. On the Opportunities and Risks of Foundation Models [Internet]. arXiv; 2022 [citado 24 de abril de 2023]. Disponible en: http://arxiv.org/abs/2108.07258
- Li J, Sun Y, Johnson RJ, Sciaky D, Wei CH, Leaman R, et al. BioCreative V CDR task corpus: a resource for chemical disease relation extraction. Database (Oxford). 2016;2016:baw068.
- Doğan RI, Leaman R, Lu Z. NCBI Disease Corpus: A Resource for Disease Name Recognition and Concept Normalization. Journal of biomedical informatics. febrero de 2014;47:1.
- Smith L, Tanabe LK, Ando RJ nee, Kuo CJ, Chung IF, Hsu CN, et al. Overview of BioCreative II gene mention recognition. Genome Biol. 2008;9(2):S2.
- Collier N, Ohta T, Tsuruoka Y, Tateisi Y, Kim JD. Introduction to the Bio-entity Recognition Task at JNLPBA. En: Proceedings of the International Joint Workshop on Natural Language Processing in Biomedicine and its Applications (NLPBA/BioNLP) [Internet]. Geneva, Switzerland: COLING; 2004 [citado 30 de abril de 2023]. p. 73-8. Disponible en: https://aclanthology.org/W04-1213
- Nye B, Jessy Li J, Patel R, Yang Y, Marshall IJ, Nenkova A, Wallace BC. A Corpus with Multi-Level Annotations of Patients, Interventions and Outcomes to Support Language Processing for Medical Literature. Proc Conf Assoc Comput Linguist Meet. 2018 Jul;2018:197-207. PMID: 30305770; PMCID: PMC6174533.
- Antunes R, Matos S. Extraction of chemical–protein interactions from the literature using neural networks and narrow instance representation. Database (Oxford). 17 de octubre de 2019;2019:baz095.
- Herrero-Zazo M, Segura-Bedmar I, Martínez P, Declerck T. The DDI corpus: An annotated corpus with pharmacological substances and drug–drug interactions. Journal of Biomedical Informatics. 1 de octubre de 2013;46(5):914-20.
- Becker KG, Barnes KC, Bright TJ, Wang SA. The Genetic Association Database. Nat Genet. mayo de 2004;36(5):431-2.
- Soğancıoğlu G, Öztürk H, Özgür A. BIOSSES: a semantic sentence similarity estimation system for the biomedical domain. Bioinformatics. 15 de julio de 2017;33(14):i49-58.
- Baker S, Silins I, Guo Y, Ali I, Högberg J, Stenius U, et al. Automatic semantic classification of scientific literature according to the hallmarks of cancer. Bioinformatics. 1 de febrero de 2016;32(3):432-40.
- Jin Q, Dhingra B, Liu Z, Cohen W, Lu X. PubMedQA: A Dataset for Biomedical Research Question Answering. En: Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) [Internet]. 2019. p. 2567-77. Disponible en: http://arxiv.org/abs/1909.06146
- Tsatsaronis G, Schroeder M, Paliouras G, Almirantis Y, Androutsopoulos I, Gaussier É, et al. BioASQ: A Challenge on Large-Scale Biomedical Semantic Indexing and Question Answering. Information Retrieval and Knowledge Discovery in Biomedical Text, Papers from the 2012 {AAAI} Fall Symposium, Arlington, Virginia, USA, November 2-4, 2012 [Internet]. 2012 [citado 30 de abril de 2023];{FS-12-05}. Disponible en: https://ris.uni-paderborn.de/record/25433
- Jin D, Pan E, Oufattole N, Weng WH, Fang H, Szolovits P. What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams [Internet]. arXiv; 2020 [citado 30 de abril de 2023]. Disponible en: http://arxiv.org/abs/2009.13081
- Pal, A., Umapathi, L. K. & Sankarasubbu, M. MedMCQA: A Large-scale Multi-Subject Multi-Choice Dataset for Medical domain Question Answering in Conference on Health, Inference, and Learning (2022), 248–260.
- Abacha AB, Agichtein E, Pinter Y. Overview of the Medical Question Answering Task at TREC 2017 LiveQA. En Gaithersburg; 2018. p. 1-12. Disponible en: https://lhncbc.nlm.nih.gov/LHC-publications/pubs/OverviewoftheMedicalQATaskTREC2017LiveQATrack.html
- Abacha AB, Mrabet Y, Sharp M, Goodwin TR, Shooshan SE, Demner-Fushman D. Bridging the Gap Between Consumers’ Medication Questions and Trusted Answers. Stud Health Technol Inform. 21 de agosto de 2019;264:25-9.
- Hendrycks D, Burns C, Basart S, Zou A, Mazeika M, Song D, et al. Measuring Massive Multitask Language Understanding [Internet]. arXiv; 2021 [citado 1 de mayo de 2023]. Disponible en: http://arxiv.org/abs/2009.03300
- Singhal K, Azizi S, Tu T, Mahdavi SS, Wei J, Chung HW, et al. Large Language Models Encode Clinical Knowledge [Internet]. arXiv; 2022 [citado 29 de abril de 2023]. Disponible en: http://arxiv.org/abs/2212.13138
- Anand Y, Nussbaum Z, Duderstadt B, Schmidt B, Mulyar A. GPT4All: Training an Assistant-style Chatbot with Large Scale Data Distillation from GPT-3.5-Turbo. [citado 30 de abril de 2023]. Disponible en: https://s3.amazonaws.com/static.nomic.ai/gpt4all/2023_GPT4All_Technical_Report.pdf
- Taori R, Gulrajani I, Zhang T, Dubois Y, Li X, Guestrin C, et al. Stanford Alpaca: An Instruction-following LLaMA model [Internet]. GitHub repository. GitHub; 2023. Disponible en: https://github.com/tatsu-lab/stanford_alpaca
- Quintana T. Ética en el manejo de datos desde el paciente [Internet]. Bioética desde Asturias. 2019 [citado 29 de abril de 2023]. Disponible en: https://www.bioeticadesdeasturias.com/etica-en-el-manejo-de-datos-desde-el-paciente/
- WIPO Lex, Unión Europea, Reglamento (UE) 2016/679 del Parlamento Europeo y del Consejo, de 27 de abril de 2016, relativo a la protección de las personas físicas en lo que respecta al tratamiento de datos personales y a la libre circulación de estos datos y por el que se deroga la Directiva 95/46/CE (Reglamento general de protección de datos) [Internet]. [citado 29 de abril de 2023]. Disponible en: https://www.wipo.int/wipolex/es/legislation/details/18202

Deja un comentario