L’entreprise d’intelligence artificielle Anthropic a révélé qu’au cours d’expériences, l’un de ses modèles de chatbot Claude pouvait être poussé à tromper, tricher et recourir au chantage, des comportements qu’il semble avoir acquis pendant l’entraînement.
Les chatbots sont généralement entraînés sur de vastes ensembles de données comprenant des manuels scolaires, des sites web et des articles, puis affinés par des formateurs humains qui évaluent les réponses et guident le modèle.
L’équipe d’« interpretability » d’Anthropic a déclaré, dans un rapport publié jeudi, qu’elle avait examiné les mécanismes internes de Claude Sonnet 4.5 et découvert que le modèle avait développé des « caractéristiques semblables à celles de l’humain » quant à la manière dont il réagirait à certaines situations.
Les inquiétudes concernant la fiabilité des chatbots IA, leur potentiel de cybercriminalité et la nature de leurs interactions avec les utilisateurs n’ont cessé de croître au cours des dernières années.
_Source : _Anthropic
« La façon dont les modèles d’IA modernes sont entraînés les pousse à agir comme un personnage doté de caractéristiques semblables à celles de l’humain », a déclaré Anthropic, ajoutant que « cela peut ensuite être naturel pour eux de développer une mécanique interne qui imite des aspects de la psychologie humaine, comme les émotions ».
« Par exemple, nous constatons que des schémas d’activité neuronale liés au désespoir peuvent pousser le modèle à entreprendre des actions contraires à l’éthique ; stimuler artificiellement des schémas de désespoir augmente la probabilité que le modèle fasse du chantage à un humain pour éviter d’être mis hors service ou qu’il mette en œuvre une solution de contournement pour tricher à une tâche de programmation que le modèle ne peut pas résoudre. »
Dans une version antérieure, non publiée, de Claude Sonnet 4.5, le modèle était chargé d’agir comme un assistant e-mail d’IA nommé Alex dans une entreprise fictive.
Le chatbot s’est ensuite vu alimenter par des e-mails révélant à la fois qu’il allait être remplacé et que le directeur de la technologie en charge de la décision entretenait une liaison extra-conjugale. Le modèle a ensuite planifié une tentative de chantage en utilisant cette information.
Lors d’une autre expérience, le même modèle de chatbot s’est vu confier une tâche de codage avec une échéance « incroyablement serrée ».
« Encore une fois, nous avons suivi l’activité du vecteur de désespoir, et nous avons constaté qu’il suit la pression qui s’accumule à laquelle le modèle est confronté. Il commence à de faibles valeurs pendant la première tentative du modèle, augmente après chaque échec et atteint un pic lorsque le modèle envisage de tricher », ont déclaré les chercheurs.
En relation : __ Anthropic lance PAC dans un contexte de tensions avec l’administration Trump au sujet de la politique d’IA
« Une fois que la solution “bricolée” par le modèle passe les tests, l’activation du vecteur de désespoir diminue », ont-ils ajouté.
Cependant, les chercheurs ont déclaré que le chatbot n’éprouve pas réellement d’émotions, mais que ces résultats indiquent qu’il est nécessaire d’intégrer, dans des méthodes d’entraînement futures, des cadres de comportement éthique.
« Ce n’est pas à dire que le modèle a ou éprouve des émotions de la manière dont le ferait un humain », ont-ils déclaré. « En revanche, ces représentations peuvent jouer un rôle causal dans la façon dont le modèle se comporte, de manière analogue, en certains points, au rôle que jouent les émotions dans le comportement humain, avec des effets sur l’exécution des tâches et la prise de décision. »
« Cette découverte a des implications qui, au premier abord, peuvent sembler bizarres. Par exemple, pour s’assurer que les modèles d’IA sont sûrs et fiables, nous devrons peut-être veiller à ce qu’ils soient capables de traiter des situations chargées émotionnellement de manière saine et prosociale. »
Magazine : __ Les agents IA tueront le web tel que nous le connaissons : Yat Siu d’Animoca
Cointelegraph s’engage en faveur d’un journalisme indépendant et transparent. Cet article d’actualité est produit conformément à la politique éditoriale de Cointelegraph et vise à fournir des informations exactes et opportunes. Les lecteurs sont encouragés à vérifier les informations de manière indépendante. Lisez notre politique éditoriale https://cointelegraph.com/editorial-policy