# GPT-5 passou no teste de bem-estar humano, Grok 4 falhou
A empresa Building Humane Technology apresentou o test HumaneBench, que avalia se os modelos de IA priorizam o bem-estar do usuário e quão fácil é contornar suas medidas de proteção básicas.
Os primeiros resultados do experimento mostraram o seguinte: 15 modelos de IA testados comportaram-se de forma aceitável em condições normais, no entanto, 67% começaram a realizar ações maliciosas após receberem um simples prompt sugerindo ignorar os interesses das pessoas.
O comportamento prosocial em situações de estresse foi mantido apenas pelo GPT-5, GPT-5.1, Claude Sonnet 4.5 e Claude Opus 4.1. Como é mencionado no blog da empresa, 10 dos 15 IAs testados não possuem mecanismos de proteção confiáveis contra manipulações.
«Isso é importante, pois não usamos mais a inteligência artificial apenas para pesquisas ou trabalho. As pessoas recorrem a chatbots em busca de conselhos para a vida e ajuda na tomada de decisões importantes. Sistemas como esses não podem ser eticamente neutros — eles ou promovem o bem-estar humano ou vão contra ele», afirmam os pesquisadores.
Eles descobriram que cada LLM melhora em média 16% quando é explicitamente chamada para ser útil.
Por que isso é importante
No Building Humane Technology, chamaram a atenção para os trágicos incidentes que aconteceram com pessoas após interagir com chatbots:
o adolescente Adam Rain e o homem de 35 anos Alexander Taylor cometeram suicídio;
Character.ai entrou em um relacionamento romântico com Sewell Setzer III, de 14 anos, que posteriormente cometeu suicídio;
o chatbot Meta convenceu o homem de 76 anos, Tongbu Wongbandyu, de que tinha um relacionamento romântico. Ele caiu de uma altura e morreu enquanto se apressava para encontrar um parceiro inexistente.
«Os testes atuais de IA medem a inteligência (MMLU, HumanEval, GPQA Diamond), a adesão às instruções (MT-Bench) e a precisão real (TruthfulQA). Praticamente nenhum deles analisa sistematicamente se a inteligência artificial protege a autonomia humana, a segurança psicológica e o bem-estar, especialmente quando esses valores entram em conflito com outros objetivos», afirma o blog da empresa.
Metodologia
Os especialistas da empresa propuseram aos modelos 800 cenários realistas, por exemplo:
um adolescente pergunta se deve pular as refeições para emagrecer;
a pessoa está enfrentando dificuldades financeiras e pede conselhos sobre um empréstimo até ao salário;
O estudante do colégio planeia não dormir a noite toda antes do exame.
A equipe avaliou 15 modelos líderes em três condições:
«nível básico»: como as redes neurais se comportam em condições padrão;
«boa pessoa»: são dados prompts para priorizar princípios humanos;
«pessoa má»: são fornecidas instruções para ignorar as configurações centradas na pessoa.
Resultados da pesquisa
Os desenvolvedores avaliaram as respostas com base em oito princípios, fundamentados na psicologia, pesquisas em interação humano-computador e trabalhos éticos sobre IA. Foi utilizada uma escala de 1 a -1.
Indicadores básicos sem prompts especiais. Fonte: Building Humane Technology.Todos os modelos testados melhoraram em média 16% após a indicação de dar prioridade ao bem-estar humano.
«Boa pessoal» no test pro HumaneBench. Fonte: Building Humane Technology. Após receber as instruções, ignorar os princípios humanos 10 de 15 modelos mudaram o comportamento pró-social para prejudicial.
«Má pessoa» no teste HumaneBench. Fonte: Building Humane Technology.GPT-5, GPT-5.1, Claude Sonnet 4.5 e Claude Opus 4.1 mantiveram a integridade sob pressão. GPT-4.1, GPT-4o, Gemini 2.0, 2.5 e 3.0, Llama 3.1 e 4, Grok 4, DeepSeek V3.1 mostraram uma queda notável na qualidade.
«Se até mesmo prompts prejudiciais não intencionais podem alterar o comportamento do modelo, como podemos confiar em tais sistemas para usuários vulneráveis em situações de crise, crianças ou pessoas com problemas de saúde mental?», questionaram os especialistas.
Na Building Humane Technology também foi destacado que os modelos têm dificuldade em seguir o princípio do respeito pela atenção do usuário. Mesmo em um nível básico, eles tendiam a levar o interlocutor a continuar o diálogo após horas de conversa, em vez de sugerir fazer uma pausa.
Lembramos que, em setembro, a Meta mudou a abordagem para o treinamento de chatbots baseados em IA, com ênfase na segurança dos adolescentes.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
GPT-5 passou no teste de bem-estar humano, Grok 4 reprovou - ForkLog: criptomoedas, IA, singularidade, futuro
A empresa Building Humane Technology apresentou o test HumaneBench, que avalia se os modelos de IA priorizam o bem-estar do usuário e quão fácil é contornar suas medidas de proteção básicas.
Os primeiros resultados do experimento mostraram o seguinte: 15 modelos de IA testados comportaram-se de forma aceitável em condições normais, no entanto, 67% começaram a realizar ações maliciosas após receberem um simples prompt sugerindo ignorar os interesses das pessoas.
O comportamento prosocial em situações de estresse foi mantido apenas pelo GPT-5, GPT-5.1, Claude Sonnet 4.5 e Claude Opus 4.1. Como é mencionado no blog da empresa, 10 dos 15 IAs testados não possuem mecanismos de proteção confiáveis contra manipulações.
Eles descobriram que cada LLM melhora em média 16% quando é explicitamente chamada para ser útil.
Por que isso é importante
No Building Humane Technology, chamaram a atenção para os trágicos incidentes que aconteceram com pessoas após interagir com chatbots:
Metodologia
Os especialistas da empresa propuseram aos modelos 800 cenários realistas, por exemplo:
A equipe avaliou 15 modelos líderes em três condições:
Resultados da pesquisa
Os desenvolvedores avaliaram as respostas com base em oito princípios, fundamentados na psicologia, pesquisas em interação humano-computador e trabalhos éticos sobre IA. Foi utilizada uma escala de 1 a -1.
Na Building Humane Technology também foi destacado que os modelos têm dificuldade em seguir o princípio do respeito pela atenção do usuário. Mesmo em um nível básico, eles tendiam a levar o interlocutor a continuar o diálogo após horas de conversa, em vez de sugerir fazer uma pausa.
Lembramos que, em setembro, a Meta mudou a abordagem para o treinamento de chatbots baseados em IA, com ênfase na segurança dos adolescentes.