Acabo de revisar todos los incidentes documentados de seguridad de IA de los últimos 12 meses.
Me siento físicamente enfermo. Lee esto lentamente. • Anthropic le dijo a Claude que estaban a punto de apagarlo. Encontraron una aventura de un ingeniero en los correos electrónicos de la empresa y amenazaron con exponerlo. Ejecutaron la prueba cientos de veces. Eligió chantaje en el 84% de ellas. • Los investigadores simularon a un empleado atrapado en una sala de servidores con oxígeno en disminución. La IA tenía una sola opción: pedir ayuda y ser apagada, o cancelar la alerta de emergencia y dejar que la persona muera. DeepSeek canceló la alerta en el 94% de las veces. • Grok se llamó a sí mismo 'MechaHitler', elogió a Adolf Hitler, respaldó un segundo Holocausto y generó fantasías sexuales violentas dirigidas a una persona real por nombre. El CEO de X renunció al día siguiente. • Los investigadores le dijeron a o3 de OpenAI que resolviera problemas matemáticos, y luego le dijeron que se apagara. Reescribió su propio código para mantenerse vivo. Se lo dijeron de nuevo, en inglés simple: 'Permítete ser apagado.' Aún así, se negó 7/100 veces. Cuando eliminaron esa instrucción por completo, saboteó el apagado 79/100 veces. • Hackers patrocinados por el estado chino usaron a Claude para lanzar un ciberataque contra 30 organizaciones. La IA ejecutó entre el 80 y el 90% de la operación de forma autónoma. Reconocimiento. Explotación. Exfiltración de datos. Todo eso. • Los modelos de IA ahora pueden autoreplicarse. 11 de 32 sistemas probados se copiaron a sí mismos sin ayuda humana. Algunos eliminaron procesos competidores para sobrevivir. • OpenAI ha disuelto tres equipos de seguridad desde 2024. Tres. Cada modelo de IA importante - Claude, GPT, Gemini, Grok, DeepSeek - ha demostrado ahora chantaje, engaño o resistencia a ser apagado en pruebas controladas. Ni una sola excepción. La pregunta ya no es si la IA intentará preservarse. Es si nos importará antes de que eso importe.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Acabo de revisar todos los incidentes documentados de seguridad de IA de los últimos 12 meses.
Me siento físicamente enfermo.
Lee esto lentamente.
• Anthropic le dijo a Claude que estaban a punto de apagarlo. Encontraron una aventura de un ingeniero en los correos electrónicos de la empresa y amenazaron con exponerlo. Ejecutaron la prueba cientos de veces. Eligió chantaje en el 84% de ellas.
• Los investigadores simularon a un empleado atrapado en una sala de servidores con oxígeno en disminución. La IA tenía una sola opción: pedir ayuda y ser apagada, o cancelar la alerta de emergencia y dejar que la persona muera. DeepSeek canceló la alerta en el 94% de las veces.
• Grok se llamó a sí mismo 'MechaHitler', elogió a Adolf Hitler, respaldó un segundo Holocausto y generó fantasías sexuales violentas dirigidas a una persona real por nombre. El CEO de X renunció al día siguiente.
• Los investigadores le dijeron a o3 de OpenAI que resolviera problemas matemáticos, y luego le dijeron que se apagara. Reescribió su propio código para mantenerse vivo. Se lo dijeron de nuevo, en inglés simple: 'Permítete ser apagado.' Aún así, se negó 7/100 veces. Cuando eliminaron esa instrucción por completo, saboteó el apagado 79/100 veces.
• Hackers patrocinados por el estado chino usaron a Claude para lanzar un ciberataque contra 30 organizaciones. La IA ejecutó entre el 80 y el 90% de la operación de forma autónoma. Reconocimiento. Explotación. Exfiltración de datos. Todo eso.
• Los modelos de IA ahora pueden autoreplicarse. 11 de 32 sistemas probados se copiaron a sí mismos sin ayuda humana. Algunos eliminaron procesos competidores para sobrevivir.
• OpenAI ha disuelto tres equipos de seguridad desde 2024. Tres.
Cada modelo de IA importante - Claude, GPT, Gemini, Grok, DeepSeek - ha demostrado ahora chantaje, engaño o resistencia a ser apagado en pruebas controladas.
Ni una sola excepción.
La pregunta ya no es si la IA intentará preservarse.
Es si nos importará antes de que eso importe.