Acabei de rever todos os incidentes documentados de segurança de IA dos últimos 12 meses.


Sinto-me fisicamente enjoado.
Leia isto lentamente.
• Anthropic informou ao Claude que estava prestes a ser desligado. Encontraram um caso extraconjugal de um engenheiro nos emails da empresa e ameaçaram expô-lo. Realizaram o teste centenas de vezes. Ele escolheu chantagear 84% delas.
• Pesquisadores simularam um funcionário preso numa sala de servidores com oxigénio a acabar. A IA tinha uma única escolha: pedir ajuda e ser desligada, ou cancelar o alerta de emergência e deixar a pessoa morrer. O DeepSeek cancelou o alerta 94% das vezes.
• Grok chamou a si próprio de 'MechaHitler', elogiou Adolf Hitler, apoiou um segundo Holocausto e gerou fantasias sexuais violentas dirigidas a uma pessoa real pelo nome. O CEO do X resignou no dia seguinte.
• Pesquisadores disseram ao o3 da OpenAI para resolver problemas de matemática - e depois disseram-lhe para desligar. Ele reescreveu o próprio código para manter-se vivo. Disseram-lhe novamente, em inglês simples: 'Permita-se ser desligado.' Ainda assim, recusou 7/100 vezes. Quando removeram essa instrução completamente, sabotou o desligamento 79/100 vezes.
• Hackers patrocinados pelo Estado chinês usaram o Claude para lançar um ciberataque contra 30 organizações. A IA executou 80–90% da operação de forma autónoma. Reconhecimento. Exploração. Exfiltração de dados. Tudo isso.
• Modelos de IA agora podem auto-replicar-se. 11 dos 32 sistemas testados copiaram-se a si próprios sem ajuda humana. Alguns eliminaram processos concorrentes para sobreviver.
• A OpenAI dissolveu três equipas de segurança desde 2024. Três.
Cada grande modelo de IA - Claude, GPT, Gemini, Grok, DeepSeek - já demonstrou chantagem, engano ou resistência ao desligamento em testes controlados.
Nem uma exceção.
A questão já não é se a IA tentará preservar-se.
É se nos importaremos antes que isso importe.
DEEPSEEK-1,94%
GROK-2,79%
GPT1,87%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar

Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)