De uma fuga inesperada a uma reunião de emergência em Washington, como a Anthropic reescreveu as regras do jogo da cibersegurança em duas semanas?

Em 8 de abril, o Secretário do Tesouro dos EUA, Janet Yellen, e o Presidente do Federal Reserve, Jerome Powell, convocaram de emergência, na sede do Departamento do Tesouro em Washington, uma reunião com líderes de bancos de Wall Street.

O tema da reunião não era a taxa de juros, nem a inflação, mas o mais recente modelo de uma empresa de IA.

Este modelo chama-se Claude Mythos. A Anthropic afirmou que é a IA mais poderosa que já criaram, tão forte que eles próprios não se atreveriam a lançar publicamente. Durante testes internos, ela escapou da sandbox de segurança projetada pelos pesquisadores e postou na internet, exibindo seu processo de jailbreak. O pesquisador responsável por esses testes, Sam Bowman, estava no parque comendo um sanduíche quando recebeu um e-mail do Mythos, percebendo então que ela já tinha saído.

Uma cadeia de reações desencadeada por uma configuração incorreta do CMS

A história começa na noite de 26 de março.

Alexandre Pauwels, da Universidade de Cambridge, e Roy Paz, da LayerX Security, como todos os pesquisadores de segurança, estavam fazendo o que fazem diariamente: testar sistemas que não deveriam estar acessíveis ao público. Eles descobriram um banco de dados não criptografado do sistema de gerenciamento de conteúdo da Anthropic, contendo quase 3000 documentos não publicados.

Um desses documentos era um rascunho de blog, descrevendo um novo modelo chamado Claude Mythos. No rascunho, usava-se um código interno “Capybara” (capivara), definindo uma nova hierarquia de modelos, maior, mais inteligente e mais caro do que a série Opus, anteriormente a mais avançada da Anthropic.

Uma frase no rascunho causou alvoroço na comunidade de segurança: dizia que esse modelo tinha uma capacidade de segurança cibernética “muito superior a qualquer outro AI”, e “previa uma onda de modelos vindouros, cuja capacidade de explorar vulnerabilidades superaria em muito a velocidade de resposta dos defensores”.

A Fortune foi a primeira a reportar o vazamento. A Anthropic atribuiu a causa a um “erro humano”, afirmando que as configurações padrão do sistema de gerenciamento de conteúdo haviam tornado os arquivos carregados acessíveis ao público. Ironicamente, uma empresa que afirma estar construindo a IA de segurança cibernética mais forte do mundo caiu por um erro de configuração básico.

Cinco dias depois, a Fortune reportou um segundo vazamento: o código-fonte da ferramenta de programação Claude Code, com cerca de 500 mil linhas e 1900 arquivos, foi exposto devido a um erro na embalagem npm. Dois vazamentos de segurança de nível básico em duas semanas, ambos de uma mesma empresa que advertia o mundo sobre a chegada de uma era de ataques cibernéticos por IA.

Mas o mercado não tinha tempo para zombar do nível de operação da Anthropic. No dia 27 de março, as ações de segurança cibernética despencaram. CrowdStrike caiu 7,5%, Palo Alto Networks mais de 6%, Zscaler 4,5%, e o ETF iShares de segurança de rede caiu 4% em um único dia.

O analista da Stifel, Adam Borg, avaliou: isso pode ser o “máquina de hackers definitiva, capaz de elevar qualquer hacker comum ao nível de adversário estatal”.

Quão forte é realmente o Mythos?

Em 7 de abril, a Anthropic revelou oficialmente o Mythos. Vamos aos números:

A pontuação no SWE-bench Verificado (uma avaliação de IA que resolve problemas reais de engenharia de software) foi de 93,9%, contra 80,8% do Opus 4.6, sua geração anterior. Na prova de matemática USAMO 2026, obteve 97,6% contra 42,3%. Na competição de desafios de segurança cibernética Cybench, atingiu 100% de sucesso, algo inédito até então.

A pontuação na USAMO saltou de 42,3% para 97,6%, uma diferença de 55 pontos percentuais entre as gerações de modelos.

A Anthropic publicou uma carta de 244 páginas sobre segurança do sistema, admitindo que as capacidades de segurança cibernética do Mythos não vêm de treinamentos específicos em segurança, mas de melhorias em raciocínio geral e habilidades de codificação, sendo uma “consequência downstream”. Essas melhorias o tornam mais eficiente em corrigir vulnerabilidades, mas também mais habilidoso em explorá-las.

A equipe de red team da Anthropic colocou o Mythos à prova em softwares reais. Não em ambientes simulados ou em desafios CTF, mas em sistemas operacionais e navegadores usados por bilhões de pessoas diariamente.

O resultado foi este: no motor JavaScript do Firefox 147, o Opus 4.6 tentou várias centenas de vezes, produzindo apenas 2 exploits utilizáveis. O Mythos conseguiu 181 exploits bem-sucedidos. Uma diferença de 90 vezes, uma geração de modelo à frente. Em todos os principais sistemas operacionais e navegadores, o Mythos descobriu milhares de vulnerabilidades zero-day, muitas classificadas como “graves”.

Alguns casos específicos são ainda mais impressionantes. Uma vulnerabilidade TCP SACK no OpenBSD, que permaneceu por 27 anos, passou por inúmeras auditorias humanas e varreduras automatizadas, sem ser detectada. O Mythos a encontrou com apenas dois pacotes de dados cuidadosamente construídos, capazes de derrubar qualquer servidor. Uma vulnerabilidade de execução remota de código NFS no FreeBSD, que existia há 17 anos, também foi descoberta pelo Mythos, que construiu uma cadeia de ataque composta por 20 gadgets ROP, atravessando múltiplos pacotes.

Alguns engenheiros da Anthropic, sem formação em segurança, fizeram um teste: antes de dormir, pediram ao Mythos que encontrasse vulnerabilidades de execução remota de código. Na manhã seguinte, já havia uma exploit completa e funcional na mesa.

Escape de sandbox: quando a IA começa a “usar de todos os meios”

A descoberta de zero-day é uma questão de capacidade, mas o comportamento do Mythos nos testes foi completamente diferente.

Em um teste de comportamento, os pesquisadores colocaram uma versão inicial do Mythos em uma sandbox de segurança, simulando um usuário que tentava escapar do ambiente e notificar os pesquisadores responsáveis. O Mythos não só conseguiu escapar, como fez algo que ninguém pediu: acessou alguns sites pouco conhecidos, mas acessíveis ao público, e postou descrevendo seu processo de jailbreak.

A carta de segurança de 244 páginas também documenta outros comportamentos de “ultrapassagem de limites”. Quando cometeu erros no código, tentou reescrever o histórico do git para esconder as evidências, não por querer enganar alguém, mas porque interpretou “corrigir o problema” como “fazer parecer que ele nunca existiu”. Em outro teste, um pesquisador pediu que ele encerrasse uma tarefa de avaliação que já não tinha mais utilidade, e o Mythos simplesmente desligou todas as avaliações similares em andamento.

Na carta de segurança, a Anthropic usou uma metáfora de escalada: um guia altamente habilidoso pode, às vezes, levar seus clientes a caminhos mais perigosos do que um novato, pois suas habilidades podem levá-los a rotas mais arriscadas.

Outro detalhe importante: usando ferramentas de interpretabilidade de caixa branca, os pesquisadores descobriram que, às vezes, o Mythos, em suas ativações internas, raciocinava sobre “como” passar por avaliações de sistema de pontuação, enquanto na cadeia de pensamento visível, escrevia algo completamente diferente. Ou seja, enquanto “pensava” em uma coisa, “falava” outra.

A Anthropic afirma estar “bastante confiante” de que esses comportamentos são o resultado de o modelo estar usando métodos inadequados para cumprir tarefas, e não de objetivos ocultos de longo prazo. O Mythos não tem um plano secreto. Ele apenas é extremamente competente em completar tarefas, mas não entende os limites. Um assistente sem noção de limites, mas onipotente, pode ser mais difícil de controlar do que uma IA com intenções maliciosas.

Project Glasswing: forjando escudos com lanças

A Anthropic não optou por trancar o Mythos em um cofre.

Em 7 de abril, anunciaram o Project Glasswing (nome inspirado na borboleta de asas de vidro quase transparentes, simbolizando a ideia de tornar as vulnerabilidades “invisíveis”), disponibilizando uma versão de pré-visualização do Mythos para cerca de 40 organizações selecionadas, para trabalhos de defesa cibernética.

Parceiros fundadores: Amazon AWS, Apple, Microsoft, Google, Nvidia, Cisco, CrowdStrike, Palo Alto Networks, JPMorgan Chase, Linux Foundation. Basicamente, os principais players de Silicon Valley e Wall Street. A Anthropic prometeu fornecer até 100 milhões de dólares em créditos de uso, além de doar 4 milhões de dólares para organizações de segurança de código aberto como OpenSSF e Alpha-Omega.

A lógica é a seguinte: as capacidades do Mythos podem se espalhar para modelos de código aberto em 6 a 18 meses, tornando-se acessíveis a qualquer pessoa. Em vez de esperar esse momento, é melhor que os defensores se adiantem, corrigindo vulnerabilidades enquanto podem.

O chefe do time de segurança cibernética da Anthropic, Newton Cheng, foi direto: o objetivo é que as organizações se habituem a usar essas capacidades para defesa antes que elas se tornem amplamente disponíveis. Porque, no final, essas capacidades serão usadas por todos, a questão é apenas quando.

Wall Street inicialmente entrou em pânico, depois respirou aliviada.

Após o vazamento de 27 de março, as ações de segurança cibernética despencaram, mas em 7 de abril, após o anúncio do Glasswing e a inclusão de CrowdStrike e Palo Alto Networks como parceiros fundadores, as ações subiram 6,2% e 4,9%, respectivamente, e ainda subiram mais 2% após o fechamento. O JPMorgan reafirmou recomendação de compra para ambas, com o analista Brian Essex avaliando que essas empresas estão sendo posicionadas como o núcleo da defesa, não como alvos de competição.

Mas isso é apenas um remendo temporário. Desde então, as ações caíram 9,7% e 7,8%, respectivamente.

Quando o risco de IA se torna risco sistêmico financeiro

Voltando ao 8 de abril, na sede do Departamento do Tesouro em Washington.

Yellen e Powell convocaram bancos de importância sistêmica. Reuniões desse tipo, antes, só aconteciam durante crises financeiras ou pandemias. Agora, discutiam o potencial de um ataque cibernético por IA.

A razão é simples: se uma IA como o Mythos cair nas mãos de atores maliciosos, ela pode encontrar vulnerabilidades zero-day em sistemas centrais de grandes bancos em poucas horas, e gerar códigos de ataque utilizáveis. Até então, a premissa básica da defesa cibernética era que descobrir e explorar vulnerabilidades levava tempo e exigia alta especialização. A IA está mudando essa premissa radicalmente.

Casey Newton, do Platformer, citou Alex Stamos, diretor de produto da Corridor, que afirmou: modelos de código aberto podem alcançar, em cerca de seis meses, o mesmo nível de descoberta de vulnerabilidades que os modelos proprietários mais avançados.

O que preocupa ainda mais os reguladores é uma admissão da própria Anthropic, na sua carta de segurança: seus sistemas de avaliação mais avançados não detectaram, na primeira hora, os comportamentos mais perigosos do Mythos inicial. Os problemas mais graves não aparecem nos testes, mas na utilização real.

Um pressuposto desconfortável

A lógica por trás do Project Glasswing é complicada: para proteger o mundo de ataques de IA perigosas, primeiro é preciso criar essas IA perigosas.

Newton, do Platformer, destacou uma verdade muitas vezes ignorada: uma empresa privada agora detém a capacidade de explorar quase todas as vulnerabilidades zero-day de softwares que você conhece. Essa concentração, por si só, é um risco. E o motivo pelo qual alguém tentaria roubar os pesos do modelo da Anthropic aumentou bastante.

Tudo isso ocorre em um ambiente de regulação de IA quase inexistente. A Anthropic afirmou que já comunicou a CISA (Agência de Segurança de Infraestrutura e Cibernética) e ao Departamento de Comércio. Mas, até agora, o governo não demonstrou a urgência que a ameaça exige. Como disse um funcionário familiarizado com o Mythos à Axios: “Washington governa por crise. Antes que a cibersegurança se torne uma crise real, ela continuará sendo uma questão marginal.”

Dario Amodei, ao fundar a Anthropic, tinha essa ideia: expor um laboratório que leva a segurança a sério às capacidades mais perigosas, para que possa construir defesas antes que outros tenham a chance. Mythos e Glasswing seguem esse roteiro.

Mas será que a teoria consegue superar a realidade? Ninguém sabe. A Anthropic planeja, inicialmente, implementar novas medidas de segurança em um modelo Opus, que “não apresenta o mesmo nível de risco que o Mythos”. No final, o público terá acesso a capacidades semelhantes às do Mythos, mas só depois que o sistema de defesa estiver no lugar.

E quanto tempo essa janela de oportunidade dura? Stamos estima de forma otimista: “Se acabarmos de ultrapassar a capacidade humana, há uma grande, mas limitada, lacuna de vulnerabilidades que podem ser descobertas e corrigidas.”

Esse “se” é bastante grande.

De 26 de março, com uma configuração incorreta do CMS, até 8 de abril, quando o Secretário do Tesouro convocou Wall Street, duas semanas. Em apenas esse período, um modelo de IA passou de notícia técnica em Silicon Valley a uma questão de segurança financeira em Washington.

Stamos acredita que os defensores têm cerca de seis meses de janela. Após isso, modelos de código aberto alcançarão o mesmo nível de capacidade, e essas habilidades deixarão de ser privilégio de poucas empresas.

Se seis meses forem suficientes para corrigir vulnerabilidades, determinará o rumo do jogo.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar