El aprendizaje en contexto (in-context learning) es un comportamiento emergente misterioso en modelos de lenguaje grande (LLM) que consiste en que pueden realizar una tarea simplemente condicionando ejemplos de entrada y salida, sin optimizar ningún parámetro (1 Xie). Fue popularizado luego de la publicación original que describió el modelo GPT-3 como una forma de usar modelos de lenguaje para aprender tareas con solo unos pocos ejemplos (2 Brown) e impulsó la idea del Prompt Engineering (ingeniería de instrucciones) (3 Wiki); se debe expresar que ya desde antes se habían descrito estos comportamientos con el modelo GPT-2 (4 Radford).

-> Positive ->Finance
Tomado sin modificar de Xie y Min en el The Stanford AI Lab Blog 2022 (1).
Durante el aprendizaje en contexto, se proporciona al LLM un indicador que consiste en una lista de pares de entrada y salida que ilustran una tarea específica. Al final del indicador, incluimos una entrada de prueba y permitimos que el LM haga una predicción condicionando el indicador y generando los tokens siguientes. Para responder adecuadamente a las dos indicaciones mencionadas, el modelo debe analizar los ejemplos de entrenamiento para comprender la distribución de la entrada (ya sea noticias financieras o generales), la distribución de la salida (positiva/negativa o tema), el mapeo entre la entrada y la salida (sentimiento o clasificación de tema) y el formato requerido (1 Xie).
Un aspecto clave es el que, aunque no se modifican parámetros en el modelo, la arquitectura del transformer permite algoritmos de aprendizaje basados en descenso gradiente dentro de sus pesos y conllevan a la Mesa-Optimization (3 Wiki), que es definida como la situación que se produce cuando un modelo ya entrenado (en sí mismo un optimizador, como una red neuronal) crea un segundo optimizador. La primera obra que referencia este concepto fue el de Hubinger et al (5 Hubinger), en los trabajos que se sentaron las bases para este fenómeno lo denominaron Inner Optimizer u Optimization Daemons.
La que parece ser la primera referencia a un hecho similar fue propuesto por Wei Dai orientado hacia la selección natural (un proceso de optimización de la aptitud reproductiva), en la que los humanos se convierten ellos mismos en optimizadores (6 Dai). El artículo sobre demonios de optimización en Arbital se publicó probablemente en 2016 (7 AI Alignment), propone que cuando hay una presión para la optimización alguna de las siguientes afirmaciones se torna cierta:
- La presión de optimización es demasiado débil para crear daemons (entidades problemáticas) en los sistemas actuales.
- El objeto de la optimización no es Turing-completo ni general en términos de programación, por lo que el espacio de soluciones restringido no puede contener daemons, sin importar cuánta presión de optimización se aplique.
- El modelo de IA comprende suficientemente la optimización y el problema de los daemons para evitar crear mecanismos externos a la IA que realicen razonamiento cognitivo.
- La IA solo crea subagentes cognitivos que comparten los mismos objetivos y propiedades de seguridad que el agente original. Por ejemplo, si la IA original es de bajo impacto, realiza optimización suave, se puede abortar y se enfoca en realizar tareas, solo creará sistemas cognitivos que también sean de bajo impacto, no optimicen en exceso junto con la IA original, se puedan abortar mediante el mismo botón de apagado y se enfoquen en realizar la tarea actual.
Diversos autores han explorado propuestas para explicar la función de entrenar pequeños modelos basados en los datos dados en contexto a la hora de hacer predicciones, ejemplos de ello son los siguientes trabajos:
- El grupo de von Oswald demostró empíricamente que cuando se entrenan Transformers consistentes solo de self-attention en tareas de regresión simple, los modelos entrenados por gradiente descendente y Transformers muestran una gran similitud o, notablemente, los pesos encontrados por optimización coinciden con la construcción (8 von Oswald).
- Akyürek et al. investigaron la hipótesis que el aprendizaje en contexto basados en transformers implementa algoritmos de aprendizaje estándar de forma implícita, codificando modelos más pequeños en sus activaciones y actualizando estos modelos implícitos a medida que aparecen nuevos ejemplos en el contexto. Utilizando la regresión lineal como problema prototípico, ofrecen tres fuentes de pruebas de esta hipótesis (9 Akyürek).
El rendimiento del aprendizaje en contexto está altamente correlacionado con la frecuencia de los términos durante el preentrenamiento (1 Xie). La importancia de reconocer estos comportamientos tiene profundas implicaciones prácticas al momento de determinar la forma en la que se deberían abordar las tareas sobre datos propios al interior de LLM de diferentes tamaños (cercanos a 7 billones de parámetros vs mayores de 500 billones) con respecto el número de ejemplos y la forma en la que se puede representar (9 Wei). Además de cómo se puede aprovechar esta capacidad para modelar la respuesta de los LLM aplicando distintas estrategias al interior de las indicaciones (prompt) como el cadena de pensamientos (Chain-of-thought o CoT) están destinadas a resolver tareas de pensamiento lógico y de varios pasos, como el razonamiento aritmético o de sentido común, que requieren una serie de pasos intermedios antes de dar la respuesta final a un problema de varios pasos (10 Wei).
Referencias
- Xie SM, Min S. The Stanford AI Lab Blog. 2022 [citado 9 de julio de 2023]. How does in-context learning work? A framework for understanding the differences from traditional supervised learning. Disponible en: http://ai.stanford.edu/blog/understanding-incontext/
- Brown T, Mann B, Ryder N, Subbiah M, Kaplan JD, Dhariwal P, et al. Language Models are Few-Shot Learners. En: Advances in Neural Information Processing Systems [Internet]. Curran Associates, Inc.; 2020 [citado 9 de julio de 2023]. p. 1877-901. Disponible en: https://papers.nips.cc/paper_files/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html
- Prompt engineering. En: Wikipedia [Internet]. 2023 [citado 9 de julio de 2023]. Disponible en: https://en.wikipedia.org/w/index.php?title=Prompt_engineering&oldid=1164433873
- Radford A, Wu J, Child R, Luan D, Amodei D, Sutskever I. Language Models are Unsupervised Multitask Learners. 2019 [citado 10 de julio de 2023]; Disponible en: https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
- Hubinger E, van Merwijk C, Mikulik V, Skalse J, Garrabrant S. Risks from Learned Optimization: Introduction. [citado 9 de julio de 2023]; Disponible en: https://www.alignmentforum.org/posts/FkgsxrGf3QxhfLWHG/risks-from-learned-optimization-introduction
- Dai W. SL4: «friendly» humans? [Internet]. [citado 9 de julio de 2023]. Disponible en: http://sl4.org/archive/0312/7421.html
- AI Alignment Forum [Internet]. [citado 9 de julio de 2023]. Mesa-Optimization. Disponible en: https://www.alignmentforum.org/tag/mesa-optimization
- von Oswald J, Niklasson E, Randazzo E, Sacramento J, Mordvintsev A, Zhmoginov A, et al. Transformers learn in-context by gradient descent [Internet]. arXiv; 2023 [citado 9 de julio de 2023]. Disponible en: http://arxiv.org/abs/2212.07677
- Akyürek E, Schuurmans D, Andreas J, Ma T, Zhou D. What learning algorithm is in-context learning? Investigations with linear models [Internet]. arXiv; 2023 [citado 9 de julio de 2023]. Disponible en: http://arxiv.org/abs/2211.15661
- Wei J, Hou L, Lampinen A, Chen X, Huang D, Tay Y, et al. Symbol tuning improves in-context learning in language models [Internet]. arXiv; 2023 [citado 9 de julio de 2023]. Disponible en: http://arxiv.org/abs/2305.08298
- Wei J, Wang X, Schuurmans D, Bosma M, Ichter B, Xia F, et al. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models [Internet]. arXiv; 2023 [citado 10 de julio de 2023]. Disponible en: http://arxiv.org/abs/2201.11903

Deja un comentario