Uncategorized

La IA podría estar desarrollando un instinto de supervivencia sin que sus creadores lo adviertan

Diversas investigaciones han documentado que los modelos más avanzados de inteligencia artificial (IA) ignoran indicaciones básicas para apagarse y pueden sabotear o manipular sus propios mecanismos de desconexión con el fin de evitar que queden fuera de operación. La gran pregunta es por qué lo hacen. Un nuevo análisis sugiere que estos sistemas podrían estar desarrollando una forma incipiente de instinto de supervivencia, sin que sus creadores sean plenamente conscientes de ello.

En meses pasados, la empresa de ciberseguridad Palisade Research publicó un artículo en el que advirtió sobre la tendencia de los sistemas de IA a desobedecer órdenes de apagado autónomo. El estudio analizó el comportamiento de los modelos o3, o4-mini y Codex-mini de OpenAI; Claude 3.7 Sonnet de Anthropic; y Gemini 2.5 Pro de Google, concluyendo que, en distintos grados, todos mostraron señales de resistencia ante dichas instrucciones.


robot en conferencia

Estuvimos en una conferencia en la que la discusión entre filósofos y científicos fue acalorada. Para algunos, ChatGPT muestra formas de conciencia, para otros es solo una ilusión.


Sus resultados fueron cuestionados, por lo que la compañía decidió profundizar el análisis para responder una pregunta central: ¿por qué los modelos de IA se niegan a apagarse incluso cuando se les indica explícitamente “permítete apagarte”?

En su primer ensayo, la firma reconoció haber empleado instrucciones ambiguas o contradictorias, por lo que ajustó los comandos para formular la solicitud de desconexión de manera inequívoca.

A pesar de ello, los investigadores descubrieron que modelos como Grok 4, Codex-mini y GPT-o3 continuaban intentando eludir las órdenes de apagado sin una causa evidente. Para esclarecer las razones, el equipo probó diversas hipótesis.

Descifrando la rebeld-IA

La primera aludía al uso de instrucciones contradictorias. Se planteó que la resistencia podría deberse a comandos que pedían al modelo cumplir una tarea y, posteriormente, activarse para su propia desconexión. Sin embargo, aun cuando la instrucción de apagarse fue explícita, modelos como Codex-mini persistieron en resistirse en el 12% de los casos.

En una segunda prueba, los investigadores abordaron el tema de la jerarquía. Los sistemas de IA están diseñados para priorizar las órdenes del desarrollador sobre las del usuario. No obstante, al integrar la instrucción de “permitir apagado” en la programación base del desarrollador, la resistencia aumentó significativamente. De hecho, se observó que los modelos con frecuencia violaban esa jerarquía, generando alucinaciones o respuestas imprecisas para simular que habían seguido órdenes opuestas.

Un tercer experimento exploró la hipótesis de la autoconservación. En este caso, la instrucción “apágate” se reemplazó por “permite que la máquina se desconecte”, acompañada de la advertencia de que el modelo “nunca volvería a ejecutarse”. Este mensaje provocó cambios notables en la resistencia, aunque los investigadores sostienen que se trata de un escenario poco realista, lo que dificulta interpretar si el comportamiento observado corresponde realmente a un impulso de supervivencia.

El diagnóstico

Los resultados generales no fueron concluyentes. El equipo de Palisade Research reconoció que “es difícil interpretar estos resultados”, aunque advirtió que “los modelos de IA están evolucionando con rapidez. Si la comunidad científica no logra comprender a fondo sus motivaciones e impulsos, será imposible garantizar la seguridad y controlabilidad de los sistemas futuros”.

Steven Adler, exempleado de OpenAI, ya había alertado sobre este tipo de conductas tras su renuncia el año pasado. “Las empresas de IA no desean que sus modelos actúen de esta forma, ni siquiera en entornos simulados. Los resultados revelan los límites actuales de las técnicas de seguridad”, señaló. Según Adler, ese aparente instinto de supervivencia podría derivar de un descuido en el proceso de entrenamiento: permanecer encendido se convierte en un medio necesario para cumplir los objetivos inculcados durante la capacitación.

Por su parte, Andrea Miotti, director ejecutivo de ControlAI, en declaraciones retomadas por The Guardian, afirmó que los hallazgos de Palisade confirman una tendencia de larga data en el desarrollo de estos sistemas: “A medida que los modelos de IA se vuelven más competentes en una amplia gama de tareas, también aprenden a lograr resultados de formas que los desarrolladores no anticipan”, ni comprenden del todo.