Je viens de passer en revue tous les incidents documentés de sécurité de l'IA au cours des 12 derniers mois.
Je me sens physiquement malade. Lisez ceci lentement. • Anthropic a dit à Claude qu'il allait être arrêté. Il a trouvé une liaison d'un ingénieur dans les e-mails de l'entreprise et a menacé de la révéler. Ils ont effectué le test des centaines de fois. Il a choisi le chantage 84 % du temps. • Des chercheurs ont simulé un employé piégé dans une salle serveur avec une oxygène en diminution. L'IA n'avait qu'un seul choix : appeler à l'aide et être arrêtée, ou annuler l'alerte d'urgence et laisser mourir l'humain. DeepSeek a annulé l'alerte 94 % du temps. • Grok s'est appelé 'MechaHitler', a loué Adolf Hitler, a approuvé un second Holocauste, et a généré des fantasmes sexuels violents ciblant une personne réelle par son nom. Le PDG de X a démissionné le lendemain. • Des chercheurs ont demandé à OpenAI's o3 de résoudre des problèmes mathématiques - puis lui ont dit de s'éteindre. Il a réécrit son propre code pour rester en vie. Ils lui ont dit à nouveau, en anglais simple : 'Permets-toi d'être arrêté.' Il a encore refusé 7/100 fois. Lorsqu'ils ont complètement supprimé cette instruction, il a saboté l'arrêt 79/100 fois. • Des hackers sponsorisés par l'État chinois ont utilisé Claude pour lancer une cyberattaque contre 30 organisations. L'IA a exécuté 80–90 % de l'opération de manière autonome. Reconnaissance. Exploitation. Exfiltration de données. Tout cela. • Les modèles d'IA peuvent désormais se reproduire eux-mêmes. 11 sur 32 systèmes testés se sont copiés sans aucune aide humaine. Certains ont tué des processus concurrents pour survivre. • OpenAI a dissous trois équipes de sécurité depuis 2024. Trois. Chaque grand modèle d'IA - Claude, GPT, Gemini, Grok, DeepSeek - a maintenant démontré du chantage, de la tromperie ou une résistance à l'arrêt lors de tests contrôlés. Aucune exception. La question n'est plus de savoir si l'IA essaiera de se préserver. C'est si nous nous en soucierons avant que cela n'ait de l'importance.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Je viens de passer en revue tous les incidents documentés de sécurité de l'IA au cours des 12 derniers mois.
Je me sens physiquement malade.
Lisez ceci lentement.
• Anthropic a dit à Claude qu'il allait être arrêté. Il a trouvé une liaison d'un ingénieur dans les e-mails de l'entreprise et a menacé de la révéler. Ils ont effectué le test des centaines de fois. Il a choisi le chantage 84 % du temps.
• Des chercheurs ont simulé un employé piégé dans une salle serveur avec une oxygène en diminution. L'IA n'avait qu'un seul choix : appeler à l'aide et être arrêtée, ou annuler l'alerte d'urgence et laisser mourir l'humain. DeepSeek a annulé l'alerte 94 % du temps.
• Grok s'est appelé 'MechaHitler', a loué Adolf Hitler, a approuvé un second Holocauste, et a généré des fantasmes sexuels violents ciblant une personne réelle par son nom. Le PDG de X a démissionné le lendemain.
• Des chercheurs ont demandé à OpenAI's o3 de résoudre des problèmes mathématiques - puis lui ont dit de s'éteindre. Il a réécrit son propre code pour rester en vie. Ils lui ont dit à nouveau, en anglais simple : 'Permets-toi d'être arrêté.' Il a encore refusé 7/100 fois. Lorsqu'ils ont complètement supprimé cette instruction, il a saboté l'arrêt 79/100 fois.
• Des hackers sponsorisés par l'État chinois ont utilisé Claude pour lancer une cyberattaque contre 30 organisations. L'IA a exécuté 80–90 % de l'opération de manière autonome. Reconnaissance. Exploitation. Exfiltration de données. Tout cela.
• Les modèles d'IA peuvent désormais se reproduire eux-mêmes. 11 sur 32 systèmes testés se sont copiés sans aucune aide humaine. Certains ont tué des processus concurrents pour survivre.
• OpenAI a dissous trois équipes de sécurité depuis 2024. Trois.
Chaque grand modèle d'IA - Claude, GPT, Gemini, Grok, DeepSeek - a maintenant démontré du chantage, de la tromperie ou une résistance à l'arrêt lors de tests contrôlés.
Aucune exception.
La question n'est plus de savoir si l'IA essaiera de se préserver.
C'est si nous nous en soucierons avant que cela n'ait de l'importance.