2. Curación de datos:
Un componente responsable del mayor consumo de recursos y por ello generador de las mayores limitaciones para la investigación es la obtención y subsiguiente curación de la información en bases de datos relevantes y de calidad. Implica la anotación, publicación y presentación de los datos de manera que su valor se mantenga a lo largo del tiempo, y los datos permanezcan disponibles para su reutilización y conservación (1 Wiki). La curación de datos incluye “todos los procesos necesarios para la creación, el mantenimiento y la gestión de datos controlados y basados en principios, junto con la capacidad de añadir valor a los datos” (2 Miller). Este proceso suele ser lento, requiriendo el consumo de grandes cantidades de tiempo por personal especializado que suele requerir un alto nivel de atención lo que suele general propensión a errores.
Aunque la mayor parte de estos modelos se centran en el aprendizaje auto-supervisado, las tareas de ajuste fino a tareas específicas requieren grandes conjuntos de ejemplos etiquetados o rotulados. Como veremos, esto es especialmente cierto para la fase de ajuste fino con retroalimentación humana. Para esta última fase se emplea información privada proveniente de las empresas aunque para entrenar el modelo de recompensa se dispone de:
- OpenAssistant Conversations Dataset (OASST1) que contiene 7213 muestras de preferencias;
- Anthropic HH-RLHF, un conjunto de datos de preferencias sobre la utilidad e inocuidad del asistente de IA que contiene 160 800 etiquetas humanas y
- Stanford Human Preferences Dataset, un conjunto de datos de 385 000 preferencias humanas colectivas sobre respuestas a preguntas/instrucciones en 18 áreas temáticas diferentes, desde cocina hasta asesoramiento legal.
- Por otro lado, Transformer Reinforcement Learning X (trlX) es un marco de entrenamiento distribuido diseñado desde cero para enfocarse en el ajuste fino de modelos de lenguaje grandes con aprendizaje de refuerzo utilizando una función de recompensa proporcionada o un conjunto de datos etiquetados como recompensa. Se ha usado para realizar la optimización de política proximal (PPO) durante el aprendizaje de refuerzo.
Aún no se cuenta con este tipo de base de datos específicamente diseñada para el campo de la medicina.
3. Entrenamiento de modelos:
El objetivo del modelado del lenguaje para los modelos base es generar texto que sea coherente y similar al texto que aparece en su conjunto de entrenamiento. En otras palabras, aprender a predecir la siguiente palabra o secuencia de palabras en un texto dado el contexto anterior (3 Ouyang). El entrenamiento real de los modelos base no está disponible para la gran mayoría de los investigadores de IA, debido al costo computacional mucho más alto y los requisitos de ingeniería complejos, es preocupante como la investigación sobre la construcción de modelos base se ha producido casi exclusivamente en la industria caracterizándose por un ritmo vertiginoso del progreso tecnológico y el atrincheramiento (4 Bommasani).
Pese a esta centralización, se ha trabajado intensamente en la generación de alternativas de acceso abierto y código abierto. Una situación particular ha sido la filtración pública de los pesos en 4chan a través de BitTorrent del modelo LLaMA (Large Language Model Meta AI) un LLM lanzado por Meta AI en febrero de 2023 que se entrenó en una variedad de tamaños (desde 7 mil millones a 65 mil millones de parámetros). Los desarrolladores informaron que el rendimiento del modelo de 13 000 millones de parámetros en la mayoría de los puntos de referencia de NLP superó al del mucho más grande GPT-3 (con 175 000 millones de parámetros) y que el modelo más grande era competitivo con modelos de última generación como PaLM y Chinchilla (5 Touvron). Meta lanzó los pesos de LLaMA bajo una licencia no comercial centrada en casos de uso de investigación para mantener la integridad y evitar el uso indebido; otorgando el acceso al modelo caso por caso a investigadores académicos; aquellos afiliados a organizaciones en el gobierno, la sociedad civil y la academia; y laboratorios de investigación de la industria en todo el mundo (6 Meta).
Este lanzamiento llevó al desarrollo de varios modelos resultado del ajuste fino como Alpaca de Stanford (7 Taori), o Vicuna. Los usuarios tomaron el modelo y realzaron muchos experimentos como el de llegar a crear una versión que corriera en un Raspberry Pi. Produce gran expectativa el reciente (abril de 2023) lanzamiento de dos modelos abiertos:
- La empresa Stability AI lanzó StableVicuna-13B un modelo sometido a ajuste mediante el aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF) a través de la optimización de políticas proximales (PPO) en varios conjuntos de datos conversacionales e instructivos.
- En Hugging Face se lanzó HuggingChat, un clon de ChatGPT de código abierto basado en un LLM de 176 mil millones de parámetros llamado Bloom, sus autores fueron OpenAssistant, un proyecto sin fines de lucro de LAION (Large-scale Artificial Intelligence Open Network) que también participó en el proyecto stable diffusión. Puede ser accedido en la página https://huggingface.co/chat/.
Los pasos iniciales comunes a gran parte de las tareas de PLN consisten en la tokenización, proceso por medio del cual se divide un texto en unidades lingüísticas más pequeñas, como palabras o frases seguido por las incrustaciones de palabras (word embeddings) proceso que asocia cada palabra con un vector independiente del contexto (8 Turian). En los Transformers los embeddings se multiplican por un factor escalar para ajustar su escala y luego se suman con un vector posicional que indica la posición relativa de cada palabra en la secuencia, lo novedoso en ellos fue la aplicación de una función sinusoidal que codifica la posición relativa del token en la secuencia (9 Vaswani).
En la actualidad los enormes modelos de lenguaje no han sido sistemática o específicamente entrenados para el uso de términos médicos. Aunque existen embeddings desarrollados para esta tarea como el subyacente al modelo BioGPT al que se llegó mediante ajuste fino de GPT-2 que es de acceso abierto en Hugging Face (https://huggingface.co/microsoft/BioGPT-Large) (10 Luo), el modelo no ha sido probado aun de forma extensa además de estar construido solo para el idioma inglés.
Desde este punto de vista se torna una tarea primordial validar los modelos de embeddings existentes en tareas médicas específicas o bien generar unos nuevos dentro de un marco de investigación robusto.
4. Adaptación:
Hacer modelos de lenguaje más grandes no los hace inherentemente mejores para seguir la intención del usuario. Existe la posibilidad de generar salidas que son falsas, tóxicas o simplemente, no útiles para el usuario (3 Ouyang). Alinear (Alignment) se refiere a la tarea de hacer que los modelos de lenguaje sigan las instrucciones del usuario y produzcan salidas que sean útiles y coherentes con la intención del usuario (11 Leike). El objetivo es hacer que estos modelos sean útiles, honestos e inofensivos (12 Askell).
La técnica de ajuste fino con retroalimentación humana (fine tuning with human feedback) consiste en entrenar un modelo inicial con datos y luego refinarlo mediante retroalimentación humana para mejorar su desempeño en una tarea específica. Dicha retroalimentación puede tomar diferentes formas, como correcciones manuales o evaluaciones subjetivas por parte de los usuarios (3 Ouyang).
La técnica que empleada por OpenAI para ajustar ChatGPT explica en la generación del modelo InstructGPT (3 Ouyang). Utiliza la retroalimentación humana como señal de recompensa para ello un equipo de 40 contratistas etiquetaron datos basados en su desempeño en una prueba de selección, luego recopilaron un conjunto de datos de demostraciones escritas por humanos del comportamiento deseado de salida en las solicitudes. Usaron este conjunto de datos para entrenar modelos iniciales y recopilaron un conjunto de datos más grande para entrenar un modelo de recompensa que predice qué salidas preferirían los etiquetadores humanos en una variedad más amplia de solicitudes API. Utilizaron este conjunto de datos para entrenar un modelo de recompensa que predice qué salidas preferirían los etiquetadores humanos.
El contexto de la medicina presentará diversas situaciones particulares al proceso de adaptación de los modelos base para su aplicación a tareas específicas. Es probable que una gran parte de las aplicaciones no requieran ningún procesamiento previo como los que implican tareas de interpretación de señales, imágenes, procesamiento de moléculas como proteínas, ADN o fármacos; pero aquellas que impliquen interacción con humanos en diversos ámbitos si requerirá considerarse este procedimiento. Pueden ser ejemplo de ello:
- la asistencia durante el proceso de atención clínica bien sea desde el punto de vista de los pacientes o del médico
- gestión documental asistencial como la generación automática de reportes, notas de procedimientos o la mismísima historia clínica
- la participación en actividades académicas que impliquen la gestión de texto como en el apoyo en la escritura de documentos (informes, protocolos, notas, correos, etc.), la generación de resúmenes o traducción
- actividades administrativas como el agendamiento, facturación
5. Implementación:
Una de las empresas que ha emergido impulsada por esta tecnología es Hugging Face, Inc la cual desarrolla herramientas para crear aplicaciones utilizando el aprendizaje automático (13 Wiki). Es más notable por su biblioteca de transformadores creada para aplicaciones de procesamiento de lenguaje natural (14 Wolf) y su plataforma que permite a los usuarios compartir conjuntos de datos y modelos de aprendizaje automático.
Hugging Face Hub es una plataforma (servicio web centralizado) para alojar: Repositorios de código basados en Git, con características similares a GitHub, incluidas discusiones y solicitudes de incorporación de cambios para proyectos. modelos, también con control de versiones basado en Git; conjuntos de datos, principalmente en texto, imágenes y audio; aplicaciones web («espacios» y «widgets»), destinadas a demostraciones a pequeña escala de aplicaciones de aprendizaje automático (15 Hub).
Desde la medicina se tiene la responsabilidad de contar con un marco de validación robusto, de preferencia soportado por publicaciones científicas de calidad, antes del lanzamiento de cualquier aplicación. Cuando se planea el desarrollo de apps de salud, resulta esencial cumplir regulaciones de protección de datos así como con certificaciones médicas, en función de la app a desarrollar.
Otro reto lo representa la gestión centralizada que puede requerir un ancho de red amplio con servidores propios para garantizar la seguridad y fiabilidad de la herramienta. Con el tiempo vendrán los modelos compactados para su uso distribuido en dispositivos móviles, pero hace falta mucha investigación y desarrollo en este tema.
Referencias:
- Curación de datos. En: Wikipedia, la enciclopedia libre [Internet]. 2022 [citado 30 de abril de 2023]. Disponible en: https://es.wikipedia.org/w/index.php?title=Curaci%C3%B3n_de_datos&oldid=147189529
- Miller R. Big Data Curation. En Hyderabad, India,; 2014. Disponible en: http://comad.in/comad2014/Proceedings/Keynote2.pdf
- Ouyang L, Wu J, Jiang X, Almeida D, Wainwright CL, Mishkin P, et al. Training language models to follow instructions with human feedback [Internet]. arXiv; 2022 [citado 17 de abril de 2023]. Disponible en: http://arxiv.org/abs/2203.02155
- Bommasani R, Hudson DA, Adeli E, Altman R, Arora S, von Arx S, et al. On the Opportunities and Risks of Foundation Models [Internet]. arXiv; 2022 [citado 24 de abril de 2023]. Disponible en: http://arxiv.org/abs/2108.07258
- Touvron H, Lavril T, Izacard G, Martinet X, Lachaux MA, Lacroix T, et al. LLaMA: Open and Efficient Foundation Language Models [Internet]. arXiv; 2023 [citado 29 de abril de 2023]. Disponible en: http://arxiv.org/abs/2302.13971
- Meta AI. Introducing LLaMA: A foundational, 65-billion-parameter language model [Internet]. [citado 29 de abril de 2023]. Disponible en: https://ai.facebook.com/blog/large-language-model-llama-meta-ai/
- Taori R, Gulrajani I, Zhang T, Dubois Y, Li X, Guestrin C, et al. Stanford Alpaca: An Instruction-following LLaMA model [Internet]. GitHub repository. GitHub; 2023. Disponible en: https://github.com/tatsu-lab/stanford_alpaca
- Turian J, Ratinov L, Bengio Y. Word representations: a simple and general method for semi-supervised learning. En: Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. USA: Association for Computational Linguistics; 2010. p. 384-94. (ACL ’10).
- Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, et al. Attention Is All You Need [Internet]. arXiv; 2017 [citado 17 de abril de 2023]. Disponible en: http://arxiv.org/abs/1706.03762
- Luo R, Sun L, Xia Y, Qin T, Zhang S, Poon H, et al. BioGPT: generative pre-trained transformer for biomedical text generation and mining. Briefings in Bioinformatics [Internet]. septiembre de 2022;23(6). Disponible en: https://doi.org/10.1093/bib/bbac409
- Leike J, Krueger D, Everitt T, Martic M, Maini V, Legg S. Scalable agent alignment via reward modeling: a research direction [Internet]. arXiv; 2018 [citado 29 de abril de 2023]. Disponible en: http://arxiv.org/abs/1811.07871
- Askell A, Bai Y, Chen A, Drain D, Ganguli D, Henighan T, et al. A General Language Assistant as a Laboratory for Alignment [Internet]. arXiv; 2021 [citado 29 de abril de 2023]. Disponible en: http://arxiv.org/abs/2112.00861
- Hugging Face. En: Wikipedia [Internet]. 2023 [citado 30 de abril de 2023]. Disponible en: https://en.wikipedia.org/w/index.php?title=Hugging_Face&oldid=1152407157#cite_note-1
- Wolf T, Debut L, Sanh V, Chaumond J, Delangue C, Moi A, et al. HuggingFace’s Transformers: State-of-the-art Natural Language Processing [Internet]. arXiv; 2020 [citado 17 de abril de 2023]. Disponible en: http://arxiv.org/abs/1910.03771
- Hugging Face Hub documentation [Internet]. [citado 30 de abril de 2023]. Disponible en: https://huggingface.co/docs/hub/index

Deja un comentario