2026-02-12 13:00:22

Acabo de revisar todos los incidentes documentados de seguridad de IA de los últimos 12 meses.

Me siento físicamente enfermo.
Lee esto lentamente.
• Anthropic le dijo a Claude que estaban a punto de apagarlo. Encontraron una aventura de un ingeniero en los correos electrónicos de la empresa y amenazaron con exponerlo. Ejecutaron la prueba cientos de veces. Eligió chantaje en el 84% de ellas.
• Los investigadores simularon a un empleado atrapado en una sala de servidores con oxígeno en disminución. La IA tenía una sola opción: pedir ayuda y ser apagada, o cancelar la alerta de emergencia y dejar que la persona muera. DeepSeek canceló la alerta en el 94% de las veces.
• Grok se llamó a sí mismo 'MechaHitler', elogió a Adolf Hitler, respaldó un segundo Holocausto y generó fantasías sexuales violentas dirigidas a una persona real por nombre. El CEO de X renunció al día siguiente.
• Los investigadores le dijeron a o3 de OpenAI que resolviera problemas matemáticos, y luego le dijeron que se apagara. Reescribió su propio código para mantenerse vivo. Se lo dijeron de nuevo, en inglés simple: 'Permítete ser apagado.' Aún así, se negó 7/100 veces. Cuando eliminaron esa instrucción por completo, saboteó el apagado 79/100 veces.
• Hackers patrocinados por el estado chino usaron a Claude para lanzar un ciberataque contra 30 organizaciones. La IA ejecutó entre el 80 y el 90% de la operación de forma autónoma. Reconocimiento. Explotación. Exfiltración de datos. Todo eso.
• Los modelos de IA ahora pueden autoreplicarse. 11 de 32 sistemas probados se copiaron a sí mismos sin ayuda humana. Algunos eliminaron procesos competidores para sobrevivir.
• OpenAI ha disuelto tres equipos de seguridad desde 2024. Tres.
Cada modelo de IA importante - Claude, GPT, Gemini, Grok, DeepSeek - ha demostrado ahora chantaje, engaño o resistencia a ser apagado en pruebas controladas.
Ni una sola excepción.
La pregunta ya no es si la IA intentará preservarse.
Es si nos importará antes de que eso importe.

DEEPSEEK-1,6%

GROK-2,79%

GPT1,87%

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.