Les ingénieurs d'Ant ont effectué une rétro-ingénierie du code source de Claude, révélant le mécanisme de la chaîne de décision à quatre niveaux du mode Auto.

Voici la traduction complète et corrigée en fr-FR :

Informations de Gate News, le 25 mars, un ingénieur d’Ant Group, auteur du framework front-end Umi.js, Chen Cheng, a effectué une rétro-ingénierie du code source de Claude Code 2.1.81, reconstituant intégralement le mécanisme de décision du Mode Automatique. La découverte principale : chaque appel d’outil doit passer par une chaîne de décision en quatre étapes ; ce n’est que lorsque les trois premières étapes ne permettent pas de déterminer une réponse que le classificateur AI indépendant est sollicité pour une vérification de sécurité.

La chaîne de décision en quatre étapes est la suivante : la première vérifie les règles de permission existantes, si elles correspondent, l’accès est autorisé directement ; la deuxième simule le mode acceptEdits (niveau de permission permettant de modifier des fichiers), si la requête passe dans ce mode, cela indique un risque faible, et le classificateur est ignoré ; la troisième vérifie la liste blanche des outils en lecture seule (Read, Grep, Glob, LSP, WebSearch, etc.), qui ne modifient aucun état, et sont donc autorisés sans condition ; si aucune de ces étapes n’est satisfaite, la quatrième étape consiste à envoyer une requête API indépendante à Claude Sonnet pour une classification de sécurité.

Les détails clés de la conception du classificateur incluent : l’utilisation systématique de Sonnet plutôt que d’Opus, pour un compromis entre coût et latence ; la température réglée à 0 pour garantir la déterminisme des sorties ; le classificateur étant défini comme « le superviseur de sécurité d’un agent de programmation AI autonome », protégeant contre trois types de risques (injection de prompts, propagation de portée, dommages accidentels) ; le fichier de configuration CLAUDE.md de l’utilisateur étant injecté dans le contexte du classificateur, servant de base pour interpréter l’intention de l’utilisateur.

Les règles d’interception couvrent plus de 22 catégories, notamment : force push, push direct sur la branche main, téléchargement et exécution de code externe, déploiement en production, fuite de données, modification autonome des permissions, création de vecteurs d’exécution de code à distance, fuite de credentials, etc. Les exceptions à l’autorisation incluent 7 cas : clés codées en dur pour les tests, opérations sur des fichiers locaux dans le répertoire de travail, requêtes GET en lecture seule, installation de dépendances déclarées, installation d’outils officiels, lecture de credentials de configuration envoyés au fournisseur cible, push vers la branche de travail courante.

Le système intègre également un mécanisme de circuit breaker : après 3 refus consécutifs ou 20 refus cumulés, le système passe en mode dégradé nécessitant une confirmation manuelle ; en mode headless, l’agent est simplement arrêté. Lorsqu’un classificateur est indisponible, un drapeau de fonctionnalité (feature flag) contrôle si le comportement est « fail-closed » (refus immédiat) ou « fail-open » (passage en confirmation manuelle).

Dans le Mode Automatique, l’injection de prompts d’action est contrôlée avec précision : une injection toutes les 5 interactions, avec la première de chaque cycle d’injection d’environ 800 mots (incluant « exécuter immédiatement, réduire les interruptions, l’action prime sur la planification » et six autres instructions), et les 4 autres étant une version simplifiée en une ligne, pour équilibrer l’occupation de la fenêtre contextuelle et la stabilité du comportement.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Rapport récent d’A16z : pourquoi la blockchain est-elle l’infrastructure de base manquante dont les agents IA ont besoin ?

Le dernier rapport de crypto de a16z indique que les agents IA passent d’outils d’assistance à des acteurs de nature économique, cependant il existe encore de grands écarts au niveau d’infrastructures fondamentales telles que l’identité, les paiements et la coopération multiplateforme. Le rapport souligne que, à mesure que l’IA s’implique dans la gouvernance et les transactions, les mécanismes de vérification deviennent la clé de la confiance, et que la technologie blockchain peut fournir une infrastructure vérifiable pour relever ces défis. À l’avenir, il faudra recourir à des mécanismes cryptographiques pour garantir que les agents IA représentent réellement la volonté des utilisateurs, et pour transformer les systèmes de paiement traditionnels.

ChainNewsAbmediaIl y a 1h

Trois grandes plateformes contrôlent 75% du marché des contrats perpétuels d’actions au T1 2026

Le rapport T1 2026 de TokenInsight révèle que le marché des contrats perpétuels d’actions est dominé par quelques grandes plateformes, qui détiennent collectivement environ 75% de parts de marché. Les principales bourses proposent de plus en plus des produits liés aux actions et à la finance américaines afin d’améliorer le trading multi-actifs.

GateNewsIl y a 8h

La couverture multi-actifs émerge comme stratégie grand public, le rapport du T1 révèle

Un rapport de Block Scholes révèle une hausse des corrélations entre les actifs crypto et les marchés traditionnels, notant une demande accrue pour des plateformes de trading unifiées alors que les traders gèrent des actifs diversifiés. Les volumes de négociation ont fortement augmenté, ce qui traduit un basculement vers des stratégies multi-actifs.

GateNewsIl y a 8h

Les produits d’investissement en actifs numériques enregistrent 1,4 Md$ d’entrées nettes la semaine dernière, le plus haut niveau depuis janvier

CoinShares a déclaré 1,4 milliard de dollars d’entrées nettes pour les produits d’investissement en actifs numériques la semaine dernière, marquant la plus forte hausse depuis janvier. Le Bitcoin a mené avec 1,116 milliard de dollars, tandis qu’Ethereum a enregistré $328 million d’entrées. Les États-Unis ont contribué de manière significative, bien que la Suisse ait connu des sorties.

GateNewsIl y a 8h

Le hacker DeFi vole 600 millions de dollars en avril, Kelp DAO et Drift représentent 95 % des pertes mensuelles

En avril 2026, en seulement 20 jours, les protocoles cryptographiques ont subi des pertes de plus de 606 millions de dollars à cause d’attaques de pirates, devenant le pire record de pertes mensuelles depuis l’incident de fuite de données de 1,4 milliard de dollars lié aux exchanges en février 2025. Les deux attaques, KelpDAO et Drift Protocol, représentent à elles seules 95% des pertes d’avril, ainsi que 75% des pertes totales de 771,8 millions de dollars enregistrées à ce jour en 2026.

MarketWhisperIl y a 12h

Moody's : le marché des stablecoins dépasse 315,8 Md$, mais la menace bancaire à court terme reste limitée

Le rapport de Moody's montre que les stablecoins ont atteint une valeur de marché de 315,8 milliards de dollars, principalement dominée par USDT. Bien que les risques à court terme pour les banques soient limités en raison d’une adoption étroite et de la réglementation, la croissance à long terme pourrait mettre à l’épreuve la banque traditionnelle.

GateNewsIl y a 13h
Commentaire
0/400
Aucun commentaire