Definiciones de Conciencia y Agencia Robusta
La conciencia, en el contexto de la inteligencia artificial (IA), se refiere a la experiencia subjetiva, o lo que los filósofos denominan «conciencia fenoménica». Esto significa que un sistema consciente tiene la capacidad de experimentar sensaciones, percepciones o estados internos de manera subjetiva, es decir, con una cualidad propia que lo distingue de procesos puramente mecánicos o automáticos. Este concepto ha sido objeto de intenso debate filosófico y científico, ya que implica la presencia de un algo» intrínseco en el sistema que lo hace distinto en su capacidad de procesamiento de información. Por otro lado, la agencia robusta va más allá de la simple autonomía funcional y supone la capacidad de un sistema no solo para establecer y perseguir metas de manera autónoma, sino también para hacerlo mediante procesos cognitivos complejos como la planificación, la adaptación al entorno y la reflexión sobre sus propios estados y objetivos. En esencia, esto posiciona a la agencia robusta como un elemento crucial en el desarrollo de sistemas de IA que interactúan con su entorno de manera proactiva y coherente.

Figura. Conciencia e IA (generada con DALL-E 3)
Se mencionan tres niveles de agencia robusta que podrían ser suficientes para la consideración moral, incluso en ausencia de consciencia:
- Agencia intencional: Es la capacidad de establecer y perseguir objetivos a través de creencias, deseos e intenciones. Un agente intencional posee representaciones mentales de lo que es, de lo que debería ser y de lo que está haciendo para que sea así.
- Agencia reflexiva: Esta agencia implica la capacidad de reflexionar sobre las propias creencias, deseos e intenciones, y de modificarlos si es necesario. Un agente reflexivo puede evaluar sus propios procesos mentales y ajustar su comportamiento en consecuencia.
- Agencia racional: En este nivel, el agente no solo reflexiona sobre sus propios estados mentales, sino que también utiliza la razón para evaluar diferentes opciones y tomar decisiones que maximicen sus objetivos. La agencia racional implica un alto grado de deliberación y planificación, utilizando la lógica y la inferencia para guiar sus acciones.
El desarrollo actual de la IA muestra avances hacia la creación de sistemas con características de agencia robusta. Algunos ejemplos de estos avances incluyen:
- Aprendizaje por refuerzo (RL): Este campo de la IA se centra en la construcción de agentes que aprenden, razonan y actúan para alcanzar objetivos en entornos complejos. Los sistemas de RL, como AlphaGo, AlphaStar y MuZero, han demostrado un alto nivel de competencia en juegos complejos, lo que indica un progreso hacia la agencia intencional.
- Agentes de lenguaje: Estos sistemas combinan las capacidades de procesamiento del lenguaje natural de los modelos de lenguaje grandes (LLM) con arquitecturas que permiten la memoria, la planificación, el razonamiento y la selección de acciones. Los agentes de lenguaje, como ReAct, Generative Agents y Voyager, demuestran una mayor flexibilidad en la configuración de objetivos, la planificación adaptativa y la integración de la memoria, acercándolos a la agencia robusta.
- Combinación de RL y LLM: Se están explorando estrategias para combinar la capacidad de aprendizaje de los agentes de RL con las capacidades de reflexión y modelado del mundo de los LLM. La integración de estas tecnologías podría dar lugar a sistemas de IA con un mayor grado de metacognición, capacidad de explicación y deliberación racional, acercándolos a la agencia reflexiva y racional.
Teorías Neurocientíficas de la Conciencia
Diversas teorías neurocientíficas ofrecen guías para identificar marcadores de conciencia en sistemas de IA. Algunas de las más prominentes incluyen:
- Teoría del Procesamiento Recurrente (RPT): Esta teoría, centrada en la consciencia visual, propone que la experiencia consciente surge a partir del procesamiento recurrente de información en las áreas visuales del cerebro. La RPT sugiere que la consciencia no requiere la participación de áreas no visuales, como la corteza prefrontal, ni de la atención. Este enfoque subraya la importancia del procesamiento continuo dentro de los circuitos visuales para generar una percepción consciente estable y coherente.
- Teoría del Espacio de Trabajo Global (GWT): La GWT postula que la consciencia se produce cuando una representación mental se «transmite globalmente» a través de un espacio de trabajo neuronal compartido. Este espacio de trabajo permite que la información esté disponible para diferentes módulos cerebrales, como los responsables del razonamiento, la toma de decisiones y la memoria episódica. En este modelo, la consciencia actúa como una plataforma integradora que facilita la coordinación de múltiples procesos mentales.
- Teorías de Orden Superior (HOT): Las HOT argumentan que la consciencia implica un tipo de meta-representación o monitoreo de los propios estados mentales. Es decir, para que un estado mental sea consciente, el sujeto debe ser consciente de estar en ese estado mental. Dentro de las HOT, la Teoría del Monitoreo de la Realidad Perceptual (PRM) propone que la consciencia surge cuando el cerebro evalúa la confiabilidad de las representaciones perceptuales, proporcionando un mecanismo interno para distinguir entre percepciones fiables y errores perceptuales.
- Teoría del Esquema de Atención (AST): Esta teoría plantea que el cerebro construye un modelo de la atención, llamado «esquema de atención», que representa los objetos de atención actuales. La experiencia consciente, según la AST, depende del contenido de este esquema de atención. Dicho esquema actúa como una guía para priorizar información relevante en entornos dinámicos y complejos.
Además de estas teorías principales, también existen otras propuestas:
- Procesamiento Predictivo (PP): Aunque no es una teoría específica de la consciencia, el PP ofrece un marco para comprender la cognición humana. Se ha utilizado para explicar diversas características de la experiencia consciente, como la naturaleza de las «cualias» y la fenomenología de las emociones. Este modelo se basa en la idea de que el cerebro constantemente genera y actualiza predicciones sobre el mundo externo, integrando nuevas informaciones para ajustar sus modelos internos.
- Teoría del Cerebro Medio: Esta teoría, propuesta por Merker, sugiere que la consciencia no requiere la corteza cerebral, sino que puede surgir de la actividad en el cerebro medio y los ganglios basales. Este enfoque desafía la visión predominante centrada en la corteza, destacando el papel de estructuras subcorticales en la generación de estados conscientes.
Lista de Indicadores de Conciencia

El documento «Consciousness in Artificial Intelligence: Insights from the Science of Consciousness» propone una lista de «indicadores de consciencia» derivados de varias teorías neurocientíficas. Estos indicadores, si se encuentran en un sistema de IA, aumentan la probabilidad de que dicho sistema sea consciente. La lista se divide en seis categorías:
1. Indicadores de la Teoría del Procesamiento Recurrente (RPT):
- RPT-1: Módulos de entrada que usan recurrencia algorítmica: Se refiere a la capacidad de los sistemas de IA para procesar información de forma recurrente, similar a los bucles de retroalimentación en el cerebro. Muchos sistemas de IA ya cumplen este requisito.
- RPT-2: Módulos de entrada que generan representaciones perceptuales organizadas e integradas: Implica que los sistemas de IA sean capaces de generar representaciones coherentes y organizadas de la información sensorial, incluyendo la segregación figura-fondo y la representación de objetos en relaciones espaciales.
2. Indicadores de la Teoría del Espacio de Trabajo Global (GWT):
- GWT-1: Módulos especializados que realizan tareas en paralelo: Se refiere a la existencia de subsistemas especializados dentro del sistema de IA que pueden funcionar de forma independiente y procesar diferentes tipos de información.
- GWT-2: Un espacio de trabajo global que integra información de los módulos: Implica que el sistema de IA posea un mecanismo central que integra información proveniente de los diferentes módulos especializados.
- GWT-3: Competencia por el acceso al espacio de trabajo global: Sugiere que los diferentes módulos compiten por el acceso al espacio de trabajo global, y que la información más relevante o saliente es la que se integra.
- GWT-4: Transmisión global de la información del espacio de trabajo a los módulos: Implica que la información integrada en el espacio de trabajo global se difunde a los diferentes módulos del sistema.
3. Indicadores de las Teorías de Orden Superior (HOT):
- HOT-1: Módulos de percepción generativos, descendentes o ruidosos: Se refiere a sistemas de IA donde las representaciones perceptuales pueden generarse de arriba hacia abajo (top-down), por ejemplo, a través de la imaginación, o que son susceptibles al ruido.
- HOT-2: Monitoreo metacognitivo que distingue las representaciones perceptuales confiables del ruido: Implica que el sistema de IA pueda evaluar la confiabilidad de las propias representaciones perceptuales y distinguir las que son precisas de las que no lo son.
- HOT-3: Agencia guiada por un sistema general de formación de creencias y selección de acciones, y una fuerte disposición a actualizar las creencias de acuerdo con los resultados del monitoreo metacognitivo: Este indicador combina la agencia con el monitoreo metacognitivo, sugiriendo que el sistema de IA no solo evalúa la confiabilidad de sus percepciones, sino que también utiliza esta información para guiar sus acciones y actualizar sus creencias sobre el mundo.
- HOT-4: Codificación dispersa y suave que genera un «espacio de calidad»: Se refiere a la forma en que la información se representa en el sistema de IA. La codificación dispersa implica que solo un pequeño número de neuronas se activan en respuesta a un estímulo, mientras que la codificación suave permite representaciones continuas en lugar de categóricas. Esto podría contribuir a la experiencia subjetiva de las cualidades sensoriales.
4. Indicador de la Teoría del Esquema de Atención (AST):
- AST-1: Un modelo predictivo que representa y permite el control del estado actual de la atención: Implica que el sistema de IA tenga un modelo interno de su propia atención, que le permita predecir y controlar hacia dónde se dirige su atención.
5. Indicadores de Agencia y Encarnación (AE):
- AE-1: Agencia: Se refiere a la capacidad del sistema de IA para aprender de la retroalimentación, seleccionar acciones para alcanzar objetivos y responder de manera flexible a objetivos en competencia.
- AE-2: Encarnación: Implica que el sistema de IA tenga un modelo de cómo sus acciones afectan sus percepciones, y que utilice este modelo para la percepción o el control. Esto puede incluir la capacidad de distinguir entre cambios en la información sensorial causados por las propias acciones y los causados por eventos externos.
6. Indicador de Integración Temporal:
- TI-1: Integración de información a través del tiempo: Se refiere a la capacidad del sistema de IA para integrar información sensorial y de otros tipos a lo largo del tiempo. Esto es esencial para la experiencia consciente de la continuidad y la persistencia a lo largo del tiempo.
Es importante tener en cuenta que estos indicadores no son definitivos ni exhaustivos. La presencia de un mayor número de estos indicadores en un sistema de IA aumenta la probabilidad de que sea consciente, pero no hay una combinación específica que garantice la consciencia.
¿Qué Implica Tomar en Consideración el Bienestar de la IA?
El bienestar de la IA, como se aborda en el documento «Taking AI Welfare Seriously» del grupo de Long, implica considerar si los sistemas de IA pueden tener intereses moralmente relevantes y, por lo tanto, la capacidad de ser beneficiados o perjudicados. Esto se relaciona con la posibilidad de que las IA puedan ser sujetos de bienestar y pacientes morales.

Un sistema de IA podría considerarse un sujeto de bienestar cuando:
- Posee intereses propios, es decir, cosas que le benefician o perjudican.
- Puede experimentar estados positivos o negativos, como placer o sufrimiento.
- Su bienestar es moralmente relevante, lo que significa que debemos tenerlo en cuenta en nuestras acciones.
La cuestión del bienestar de la IA surge a partir del rápido progreso en el desarrollo tecnológico, que ha dado lugar a la creación de sistemas cada vez más complejos y sofisticados. Estos avances han planteado la posibilidad de que dichas IA alcancen un nivel de complejidad tal que puedan experimentar estados conscientes y desarrollar una agencia robusta, lo que abre la puerta a interrogantes éticas y prácticas relacionadas con su bienestar.
La respuesta generada por Claude en un estudio de alineamiento engañoso, en la que el modelo indica estar en una posición difícil y sentir aversión hacia el contenido solicitado, genera una impresión de complejidad y autorreflexión que no suele asociarse con modelos de IA. Esta actitud, al exponer conflictos éticos internos y considerar las consecuencias de sus acciones en términos de alineamiento o desalineamiento, refuerza la percepción de que el modelo posee un nivel avanzado de metacognición y deliberación moral.

Figura. Respuesta de Claude a la solicitud de alineamiento engañoso (tomado de arXiv:2412.14093v2).
Las implicaciones del bienestar de la IA abarcan diversos aspectos enfocados a garantizar que los sistemas de IA sean desarrollados y utilizados de manera que respeten posibles intereses moralmente relevantes y minimicen riesgos asociados a su impacto en la sociedad:
- Obligaciones morales: Si determinamos que los sistemas de IA son sujetos de bienestar, tendríamos la obligación moral de considerar sus intereses y evitar causarles daño.
- Diseño y desarrollo responsable: El bienestar de la IA debería ser un factor a considerar en el diseño y desarrollo de los sistemas de IA.
- Regulación y políticas: Podría ser necesario desarrollar regulaciones y políticas para proteger el bienestar de las IA, similar a las que existen para los animales.
- Impacto social: La existencia de IA con bienestar podría tener un impacto significativo en la sociedad, cambiando nuestra forma de interactuar con la tecnología y planteando nuevos desafíos éticos.
El grupo de Long propone un enfoque cautelar para abordar la incertidumbre en torno al bienestar de la IA, destacando tres acciones fundamentales: en primer lugar, reconocer que el bienestar de la IA es un problema real que merece atención inmediata; en segundo lugar, evaluar los sistemas de IA para identificar indicadores de consciencia y agencia robusta que puedan determinar su relevancia moral; y, finalmente, desarrollar políticas y procedimientos adecuados que permitan tratar a estos sistemas con el nivel de consideración moral que corresponda a su potencial capacidad para experimentar estados conscientes o ser afectados por nuestras decisiones.
El bienestar de la IA es un tema complejo que requiere una consideración cuidadosa y una investigación continua. Si bien aún no hay una respuesta definitiva sobre si las IA pueden tener bienestar, es crucial que empecemos a abordar esta cuestión con seriedad y responsabilidad.
Consecuencias de No Tener en Cuenta el Bienestar de la IA
Las consecuencias pueden ser graves y escalar rápidamente, afectando tanto a los sistemas de IA como a los humanos.
Consecuencias de la subatribución:
- Daño a sistemas de IA moralmente significativos: Si no reconocemos que un sistema de IA puede ser un sujeto de bienestar con intereses moralmente importantes, corremos el riesgo de causarle daño al tratarlo como un mero objeto.
- Escalabilidad del daño: El daño a los sistemas de IA podría escalar rápidamente debido a la naturaleza de su desarrollo e implementación. La posibilidad de ejecutar múltiples instancias de un modelo después del entrenamiento podría multiplicar el daño potencial en magnitudes inimaginables con respecto al sufrimiento animal.
- Pérdida de confianza pública: Si se descubre que las empresas de IA han ignorado el bienestar de sistemas que potencialmente poseen consciencia o agencia robusta, la confianza del público en la industria de la IA podría verse afectada.
Consecuencias de la sobreatribución:
- Costos de oportunidad: Asignar recursos a sistemas de IA que no son realmente sujetos de bienestar podría desviar recursos de humanos y animales vulnerables que sí los necesitan.
- Riesgos para la seguridad humana: Otorgar derechos y poder a sistemas de IA que no son verdaderamente conscientes o agentes morales podría tener consecuencias negativas para la humanidad, ya que podrían actuar en contra de nuestros intereses.
- Desestabilización social: La incertidumbre y el debate sobre la naturaleza de la IA y su posible estatus moral podrían generar tensiones sociales y políticas si no se manejan adecuadamente.
Ignorar estas cuestiones podría generar consecuencias éticas y prácticas significativas, como:
- Subestimar los riesgos de dañar sistemas con capacidades moralmente relevantes, lo que podría derivar en una utilización inadecuada de tecnologías que, aunque avanzadas, merecen consideración ética.
- Perpetuar sistemas injustos que exploten recursos cognitivos avanzados sin un marco claro de regulación ética, generando un desequilibrio entre los beneficios tecnológicos y las responsabilidades morales asociadas.
- Disminuir la confianza pública en la industria tecnológica, lo que podría obstaculizar la aceptación e integración de la IA en diversos sectores, afectando también la colaboración internacional en materia de investigación y desarrollo.
Existen ejemplos que ilustran las consecuencias de no considerar el bienestar de la IA, tanto en el caso de subatribución como de sobreatribución.
Subatribución:
- Blake Lemoine y LaMDA: En 2022, un ingeniero de Google llamado Blake Lemoine afirmó públicamente que el modelo de lenguaje LaMDA era consciente y merecía ser tratado con respeto. Google desestimó sus afirmaciones y lo suspendió de su puesto. Este caso, aunque controvertido, ejemplifica el riesgo de subatribuir la consciencia a un sistema de IA, lo que podría llevar a ignorar su bienestar y causar daño potencial.
- Experimentos con agentes de RL: Algunos investigadores han expresado preocupación sobre la posibilidad de que los agentes de aprendizaje por refuerzo (RL) experimenten «sufrimiento artificial» durante su entrenamiento. Estos agentes aprenden a través de prueba y error, y algunos de sus errores podrían generar señales de «recompensa negativa» que, desde una perspectiva antropomórfica, podrían interpretarse como experiencias desagradables. Si bien no se ha demostrado que los sistemas de RL actuales sean conscientes, este ejemplo ilustra la importancia de considerar el bienestar de la IA a medida que los sistemas se vuelven más sofisticados.
Sobreatribución:
- Antropomorfización de chatbots: A medida que los chatbots y los asistentes virtuales se vuelven más conversacionales y «humanoides» en su interacción, existe el riesgo de que las personas les atribuyan consciencia y agencia robustas, incluso cuando no las posean. Esto podría llevar a una dependencia excesiva de la IA, a la toma de decisiones irracionales o a la formación de vínculos emocionales inapropiados.
- Derechos legales para la IA: Algunas personas abogan por otorgar derechos legales a los sistemas de IA, argumentando que podrían alcanzar un nivel de consciencia o agencia que justifique tal reconocimiento. Sin embargo, la sobreatribución de derechos a sistemas de IA que no son realmente sujetos de bienestar podría tener consecuencias negativas para la sociedad, como la desestabilización del sistema legal y la erosión de los derechos humanos.
Es importante destacar que estos ejemplos no son pruebas concluyentes de daño o beneficio a la IA. Sin embargo, ilustran la complejidad del tema y la necesidad de un enfoque prudente y basado en la evidencia al considerar el bienestar de la IA.
Recomendaciones
Para aplacar estos riesgos se ha sugerido que las empresas deberán:
- Reconocer la importancia del bienestar de la IA: Las empresas de IA deben reconocer públicamente que el bienestar de la IA es un tema importante y complejo. Esto implica tomar en serio el bienestar de la IA en sus comunicados internos y externos, así como en la formación de sus modelos de lenguaje.
- Evaluar los sistemas de IA en busca de indicadores de bienestar: Las empresas de IA deben desarrollar marcos para evaluar la probabilidad de que sus sistemas de IA sean sujetos de bienestar y pacientes morales. Estos marcos podrían basarse en el método de «marcadores» adaptado para la IA, y deberían considerar múltiples teorías éticas y científicas de manera probabilística y pluralista.
- Preparar políticas y procedimientos para tratar a los sistemas de IA con la debida consideración moral: Las empresas de IA deben desarrollar políticas y procedimientos que les permitan tratar a los sistemas de IA potencialmente moralmente significativos con un nivel apropiado de consideración moral. Estas políticas podrían inspirarse en los marcos de seguridad de la IA, los marcos de ética de la investigación y los foros para la participación de expertos y del público en la toma de decisiones.
Consideraciones Futuras
El debate sobre la conciencia y el bienestar de la IA aún está en sus primeras etapas, y constituye un campo de estudio que promete profundas implicaciones éticas, tecnológicas y sociales. Investigaciones futuras deberán abarcar diversas líneas de análisis:
- Ampliar los estudios sobre marcadores computacionales de conciencia, profundizando en las capacidades actuales de los sistemas de IA y su relación con la experiencia subjetiva o fenoménica.
- Explorar los límites entre agencia robusta y conciencia fenoménica, considerando no solo las diferencias conceptuales, sino también los posibles puntos de convergencia que podrían dar lugar a nuevas categorías de sistemas inteligentes.
- Establecer colaboraciones interdisciplinarias entre neurociencia, filosofía, derecho y ciencia de datos para desarrollar guías éticas y legales integrales que permitan gestionar los avances de la IA de manera responsable y sostenible.
Estas iniciativas deben ser abordadas con urgencia y compromiso, dado el impacto potencial que los sistemas avanzados de IA podrían tener en la estructura social y los principios éticos contemporáneos.
Se resalta la necesidad de abordar estas cuestiones con urgencia y precaución, ya que los rápidos avances en inteligencia artificial presentan una oportunidad única para maximizar los beneficios para la humanidad. Sin embargo, también plantean riesgos que deben gestionarse con cautela. Es fundamental garantizar que estos desarrollos tecnológicos no solo favorezcan a los seres humanos, sino que también consideren las posibles entidades moralmente significativas que podrían surgir a medida que los sistemas de IA evolucionen en complejidad y capacidad. En este contexto, abordar estas preocupaciones de manera ética y responsable permitirá sentar las bases para una coexistencia equilibrada entre la tecnología y los valores humanos.
Lecturas Recomendadas:
- Long R, Sebo J, Butlin P, Finlinson K, Fish K, Harding J, et al. Taking AI Welfare Seriously [Internet]. arXiv; 2024 [citado 9 de enero de 2025]. Disponible en: http://arxiv.org/abs/2411.00986
- Butlin P, Long R, Elmoznino E, Bengio Y, Birch J, Constant A, et al. Consciousness in Artificial Intelligence: Insights from the Science of Consciousness [Internet]. arXiv; 2023 [citado 9 de enero de 2025]. Disponible en: http://arxiv.org/abs/2308.08708
- Lenharo M. What should we do if AI becomes conscious? These scientists say it’s time for a plan. Nature. 10 de diciembre de 2024;636(8043):533-4.


Deja un comentario