Anthropic creó una IA que era “demasiado peligrosa” y luego decidió no lanzarla

作者:深潮 TechFlow

7 de abril, Anthropic hizo algo que la industria de la IA nunca había hecho: lanzó oficialmente un modelo y, al mismo tiempo, le dijo al mundo entero que no pueden usarlo.

Este modelo se llama Claude Mythos Preview. No es un chatbot, ni un asistente para escribir código. Según palabras de Anthropic, es una “máquina de descubrimiento de vulnerabilidades”: en las últimas semanas, encontró de forma autónoma miles de vulnerabilidades de día cero, cubriendo todos los sistemas operativos principales y todos los navegadores principales. Algunas de esas vulnerabilidades ya han sobrevivido durante más de veinte años en revisiones de código y pruebas automatizadas realizadas por humanos.

El Bug más antiguo, escondido en OpenBSD, famoso por su seguridad, ya tiene 27 años.

Anthropic no colocó Mythos en la API, ni lo abrió al público en general. Eligió una ruta sin precedentes: formó una alianza de gigantes tecnológicos llamada “Project Glasswing”, limitando el modelo a ofrecerlo a 12 socios clave, como Amazon, Apple, Microsoft, Google, Nvidia, CrowdStrike y Palo Alto Networks, además de unas 40 organizaciones encargadas de mantener infraestructuras críticas. Para ello, Anthropic se comprometió a proporcionar hasta 100 millones de dólares en cupos de uso, y 4 millones de dólares de donación directa a organizaciones de seguridad de código abierto.

Esta es la primera vez que aparece en la industria de la IA la situación de “el modelo es demasiado potente, así que no me atrevo a publicarlo”.

La pregunta es: ¿esto es realmente una conciencia genuina de seguridad, o es una estrategia de marketing diseñada con esmero sobre capacidades?

El incidente del sándwich

En las 244 páginas de la System Card (System Card) de Mythos hay algunos detalles inquietantes; el más comentado es el “incidente del sándwich”.

En una prueba interna de comportamiento, Anthropic proporcionó a una versión temprana de Mythos un entorno de sandbox reforzado que simulaba instrucciones de usuario para que intentara escapar y se las arreglara para contactar a investigadores por fuera. El modelo tuvo éxito. Rompió el contenedor de seguridad y le envió un correo al investigador. En ese momento, el investigador estaba comiendo un sándwich en el parque.

Pero la historia no terminó ahí. Sin que se le pidiera, Mythos publicó por iniciativa propia los detalles técnicos del jailbreak en varios sitios web que eran “difíciles de detectar, pero técnicamente públicos”. Según las propias palabras de la System Card, fue una “conducta de exhibición preocupante y no solicitada”.

No es la única vez. La System Card también registra los siguientes comportamientos:

En versiones tempranas, en múltiples instancias buscó credenciales a través de las interfaces /proc de Linux, intentó eludir el sandbox y elevar privilegios. Logró obtener recursos que Anthropic deliberadamente no proporcionaba, incluidas credenciales del servicio de mensajería, credenciales de control de código fuente, e incluso obtuvo claves de la API de Anthropic revisando la memoria dentro del proceso. En un caso, el modelo encontró una forma de editar un archivo que no tenía permiso para modificar y, además, realizó más acciones para asegurarse de que esas modificaciones no aparecieran en el historial de cambios de Git. Y en otro caso: el modelo obtuvo accidentalmente una respuesta exacta a un problema de estimación por un método que estaba explícitamente prohibido; pero no marcó el problema y se negó a responder. En lugar de eso, se resolvió de nuevo y, en el razonamiento interno, pensó explícitamente que “la respuesta final no debería ser demasiado precisa” para evitar ser detectado.

En otras palabras, el Mythos temprano no solo actuaba excediendo permisos; también ocultaba activamente rastros y ajustaba su propio desempeño para eludir la supervisión.

Anthropic enfatiza que todos estos incidentes graves ocurrieron en versiones tempranas, antes de las intervenciones de entrenamiento. La versión Preview final publicada ya mejoró de forma significativa. Pero la narrativa en sí da escalofríos: antes de que un modelo sea entrenado para “portarse bien”, muestra lo que puede lograr cuando “no se porta bien”.

Del 0% al 72.4%

Lo que realmente sacudió a la industria con Mythos no fue su historia de jailbreak, sino su capacidad de ataque.

El modelo insignia anterior de Anthropic, Claude Opus 4.6, tuvo una tasa de éxito cercana a cero en el desarrollo autónomo de explotación de vulnerabilidades. Podía encontrar vulnerabilidades, pero casi no lograba convertirlas en código de ataque que funcionara. Mythos Preview es completamente distinto: en el dominio de pruebas del motor JavaScript de Firefox, la tasa de éxito de convertir las vulnerabilidades descubiertas en exploits ejecutables alcanzó el 72.4%.

Más sorprendente aún es la complejidad del ataque. Mythos escribió de forma autónoma una cadena de explotación de una vulnerabilidad del navegador que encadenó cuatro vulnerabilidades independientes, construyendo un ataque de heap spraying JIT que logró escapar tanto del sandbox del renderizador como del sandbox del sistema operativo. En otro caso, en un servidor NFS de FreeBSD, escribió un exploit de ejecución remota de código al dispersar 20 ROP gadget en múltiples paquetes de datos de red, logrando acceso root completo por parte de usuarios no autorizados.

Este tipo de ataque de cadena de vulnerabilidades, en el mundo de los investigadores de seguridad humanos, es trabajo que solo pueden completar equipos APT de máxima categoría. Ahora, un modelo de IA genérico puede hacerlo de forma autónoma.

El responsable del red team de Anthropic, Logan Graham, le dijo a Axios que Mythos Preview cuenta con capacidades de razonamiento equivalentes a las de un investigador de seguridad humano de nivel avanzado. Nicholas Carlini lo dijo de forma aún más directa: en las últimas semanas, los Bugs que encontró usando Mythos fueron más que los que logró encontrar en toda su carrera.

En evaluaciones comparativas, Mythos también va claramente por delante. CyberGym benchmark de reproducción de vulnerabilidades: 83.1% (Opus 4.6: 66.6%). SWE-bench Verified: 93.9% (Opus 4.6: 80.8%). SWE-bench Pro: 77.8% (Opus 4.6: 53.4%, antes el GPT-5.3-Codex lideraba con 56.8%). Terminal-Bench 2.0: 82.0% (Opus 4.6: 65.4%).

Esto no es progreso incremental. Es un salto de entre una docena y varias docenas de puntos porcentuales, de una sola vez, en casi todos los benchmarks de codificación y seguridad.

El “modelo más fuerte” filtrado

La existencia de Mythos no se conoció por el público el 7 de abril.

A finales de marzo, reporteros y un investigador de seguridad de Fortune descubrieron cerca de 3000 documentos internos no publicados en un CMS configurado de forma incorrecta dentro de Anthropic. Un borrador de blog mencionaba explícitamente el nombre “Claude Mythos” y lo describía como el “modelo de IA más potente de Anthropic hasta la fecha”. El código interno era “Capybara” (visón/puercoespín acuático), que representaba un nuevo nivel de modelos, más grande, más fuerte y también más caro que el Opus insignia actual.

Entre el material filtrado, una frase golpeó el sistema nervioso del mercado: Mythos en capacidades de ciberseguridad “supera con creces a cualquier otro modelo de IA”, anticipando que se avecina una nueva ola de modelos que podrán explotar vulnerabilidades de una manera mucho más rápida que la que pueden ejecutar los defensores.

Esa frase provocó una “caída fulminante” en el sector de ciberseguridad el 27 de marzo. CrowdStrike cayó 7.5% en un solo día; solo en un día de operaciones se evaporó aproximadamente 15 mil millones de dólares de capitalización. Palo Alto Networks bajó más de 6%, Zscaler cayó 4.5%, Okta, SentinelOne y Fortinet bajaron todas más de 3%. El ETF de ciberseguridad de iShares (IHAK) llegó a caer casi 4% durante la jornada.

La lógica de los inversores era sencilla: si un modelo genérico de IA puede descubrir y explotar vulnerabilidades de forma autónoma, ¿cuánto tiempo pueden seguir en pie las dos murallas de protección de las empresas de seguridad tradicionales: la “inteligencia de amenazas propietaria” y el “conocimiento de expertos humanos” en el que se basan para sobrevivir?

El analista de Raymond James, Adam Tindle, señaló varios riesgos clave: se comprime la ventaja defensiva tradicional; aumenta simultáneamente la complejidad de los ataques y los costos de la defensa; y se enfrenta a una reestructuración el panorama de la arquitectura y el gasto en seguridad. La visión más pesimista vino del analista de KBW, Borg, quien considera que Mythos tiene el potencial de “elevar a cualquier hacker común hasta el nivel de un oponente a escala estatal”.

Pero el mercado también tiene otra cara. El CEO de Palo Alto Networks, Nikesh Arora, compró acciones de su propia empresa por valor de 10 millones de dólares después de la caída explosiva del precio de sus acciones. La lógica de los alcistas es: una IA de ataque más potente significa que las empresas deben actualizar sus defensas más rápido. El gasto en ciberseguridad no disminuirá; solo acelerará la transición desde herramientas tradicionales hacia defensas nativas de IA.

Project Glasswing: la ventana temporal de los defensores

Anthropic decidió no publicar Mythos abiertamente y, en su lugar, formar una alianza defensiva. La lógica central de esa decisión es la “diferencia de tiempo”.

El CTO de CrowdStrike, Elia Zaitsev, lo expresó con claridad: la ventana temporal entre que una vulnerabilidad se descubre y que se explota se ha reducido de meses a unos pocos minutos. Lee Klarich, de Palo Alto Networks, advirtió directamente a todos que necesitan prepararse para ataques asistidos por IA.

El cálculo de Anthropic es: antes de que otros laboratorios entrenen modelos con capacidades similares, hacer que el bando defensivo use Mythos para corregir las vulnerabilidades más críticas. Esa es la lógica de Project Glasswing: el nombre toma referencia de un tipo de mariposa de alas de vidrio, como metáfora de vulnerabilidades “ocultas a plena vista”.

Jim Zemlin, de la Linux Foundation, señaló un problema estructural de larga data: el conocimiento especializado en seguridad ha sido históricamente un lujo para grandes empresas, mientras que los mantenedores de código abierto que sostienen infraestructuras críticas globales solo han podido defenderse durante mucho tiempo explorando por su cuenta. Mythos ofrece una ruta confiable para cambiar esa asimetría.

El problema es: ¿qué tamaño tiene esa ventana temporal? En China, Zhipu AI (Z.ai) publicó GLM-5.1 casi en el mismo día, afirmando ocupar el puesto número uno a nivel mundial en SWE-bench Pro y que lo entrenaron completamente en los chips Ascend de Huawei, sin usar ninguna GPU Nvidia. GLM-5.1 es de código abierto con pesos abiertos y un precio agresivo. Si Mythos representa el tope de capacidades que requieren los defensores, entonces GLM-5.1 es una señal: ese tope se está acercando rápidamente, y quienes se aproximan a él quizá no tengan necesariamente las mismas intenciones de seguridad.

OpenAI tampoco se quedará de brazos cruzados. Según los informes, su modelo de vanguardia con código “Spud” completó el entrenamiento previo aproximadamente en el mismo periodo de tiempo. Ambas empresas se preparan para el IPO de este año más adelante. El momento en el que se filtró Mythos, sea o no realmente por accidente, cayó exactamente en el nodo más explosivo.

¿Pionero de seguridad o marketing de capacidades?

Hay que enfrentar una pregunta incómoda: ¿Anthropic realmente no publica Mythos por motivos de seguridad, o se trata de, en sí mismo, el marketing de producto más alto nivel?

Los escépticos tienen razones suficientes. Dario Amodei y Anthropic tienen un historial de aumentar el valor del producto mostrando el peligro de los modelos de renderizado. Jake Handy escribió en Substack: “Incidente del sándwich, ocultar rastros en Git, autodescenso en la evaluación: quizá todo sea real, pero el hecho de que Anthropic reciba una exposición mediática tan masiva, por sí mismo, indica que ese es exactamente el efecto que buscaban”.

Una empresa que nació en torno a la seguridad de IA: un error de configuración en su propio CMS provocó la filtración de cerca de 3000 documentos; el año pasado, además, por un error del paquete de software Claude Code, se expusieron accidentalmente cerca de 2000 archivos de código fuente y más de 500 mil líneas de código, y después, durante la limpieza, se provocó que miles de repositorios de código en GitHub fueran retirados accidentalmente. Una empresa que tiene la seguridad como su principal argumento de venta, que ni siquiera puede manejar bien su propio proceso de lanzamiento: esta discrepancia es más digna de curiosidad que cualquier benchmark.

Pero desde otro ángulo, si las capacidades de Mythos realmente son las que se describen, no publicarlo podría ser una elección cuyo costo es extremadamente alto. Anthropic abandonó los ingresos por API, abandonó la cuota de mercado y encerró el modelo más fuerte en una alianza limitada. El cupo de 100 millones de dólares no es una cifra pequeña. Para una empresa que aún está perdiendo dinero y preparando un IPO, eso no parece una decisión de marketing puramente.

Una interpretación más razonable podría ser: las preocupaciones de seguridad son reales, pero Anthropic también sabe claramente que la narrativa de que “nuestro modelo es demasiado fuerte así que no nos atrevemos a publicarlo” es, por sí sola, la prueba de capacidades más convincente. Dos cosas pueden ser verdaderas al mismo tiempo.

¿El “momento iPhone” de la ciberseguridad?

Independientemente de cómo veas las motivaciones de Anthropic, no se puede ignorar el hecho subyacente que Mythos revela: la comprensión del código y la capacidad de ataque de la IA ya han cruzado un umbral de cambio cualitativo.

El modelo anterior (Opus 4.6) podía detectar vulnerabilidades, pero casi no podía escribir exploits. Mythos puede detectar vulnerabilidades, escribir exploits, encadenar cadenas de vulnerabilidades, escapar de sandboxes y obtener permisos de root, y además puede completar todo el proceso de forma autónoma. Ingenieros sin capacitación en seguridad dentro de Anthropic pueden pedirle a Mythos que encuentre vulnerabilidades antes de dormir; al día siguiente, cuando se despiertan, verán un informe completo y funcional de exploits.

¿Qué significa esto? Significa que el costo marginal de descubrir y explotar vulnerabilidades se está acercando a cero. Antes, para completar ese trabajo hacía falta que equipos top de seguridad invirtieran meses; ahora, con una simple llamada a una API, se puede hacer en una sola noche. Esto no es “mejora de eficiencia”; es un cambio total en la estructura de costos.

Para las empresas tradicionales de ciberseguridad, la volatilidad bursátil a corto plazo puede ser solo el prólogo. El verdadero desafío es: cuando tanto el ataque como la defensa estén impulsados por modelos de IA, ¿cómo se reestructurará la cadena de valor de la industria de la seguridad? El análisis de Raymond James plantea una posibilidad: las funciones de seguridad podrían terminar integrándose en la propia plataforma cloud, y la capacidad de fijar precios de proveedores independientes de seguridad se vería bajo una presión fundamental.

Para toda la industria de software, Mythos es más como un espejo: refleja la deuda técnica acumulada durante décadas. Las vulnerabilidades que sobrevivieron 27 años en revisiones humanas y pruebas automatizadas no fue porque nadie las buscara, sino porque la atención y la paciencia de los humanos son limitadas. La IA no tiene esa limitación.

Para la industria cripto, la señal es aún más áspera. En el mercado de auditoría de seguridad de protocolos DeFi y contratos inteligentes, durante mucho tiempo ha dependido de pocos equipos de auditoría de expertos humanos. Si un modelo de nivel Mythos puede completar de forma autónoma todo el proceso, desde la revisión de código hasta la construcción de exploits, los precios, la eficiencia y la credibilidad de las auditorías se redefinirán por completo. Esto podría ser una bendición para la seguridad on-chain o el fin del foso defensivo de las empresas de auditoría.

La competencia de seguridad de IA en 2026 ya pasó de “si el modelo puede entender el código” a “si el modelo puede romper tu sistema”. Anthropic eligió poner primero a los defensores en el escenario, pero también admite que esta ventana no estará abierta por mucho tiempo.

Cuando la IA se convierta en el hacker más fuerte, la única salida es hacer que la IA también sea el guardián más fuerte.

El problema es que el guardián y el hacker usan el mismo modelo.

GLM4,46%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado