Futuros
Aceda a centenas de contratos perpétuos
TradFi
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
Launchpad
Chegue cedo ao próximo grande projeto de tokens
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
OpenAI Divulga Dataset IH-Challenge para Fortalecer IA Contra Ataques de Injeção de Prompt
Iris Coleman
21 de mar de 2026 00:05
O novo conjunto de dados de treino IH-Challenge da OpenAI melhora a hierarquia de instruções dos LLM em até 15%, fortalecendo as defesas contra injeção de prompts e tentativas de jailbreak.
A OpenAI lançou o IH-Challenge, um conjunto de dados de aprendizagem por reforço projetado para ensinar aos modelos de IA como priorizar instruções confiáveis em detrimento de instruções maliciosas. O conjunto de dados, publicado em 19 de março de 2026 juntamente com um artigo no arXiv, resultou em até 15% de melhoria nas pontuações de benchmark que medem a resistência a ataques de injeção de prompts.
O lançamento aborda uma vulnerabilidade fundamental em grandes modelos de linguagem: quando instruções de diferentes fontes entram em conflito, os modelos podem ser enganados a seguir a errada. Essa é a causa raiz de jailbreaks, extração de prompts do sistema e ataques de injeção de prompts cada vez mais sofisticados que atingem sistemas de IA agentic.
O Problema da Hierarquia
Os modelos da OpenAI seguem uma ordem de confiança rígida: Sistema > Desenvolvedor > Usuário > Ferramenta. Quando um usuário solicita algo que viola uma política de segurança de nível de sistema, o modelo deve recusar. Quando uma ferramenta de raspagem web retorna conteúdo com instruções maliciosas embutidas, o modelo deve ignorá-las.
Parece simples. Na prática, tem sido um pesadelo treinar de forma confiável.
Abordagens anteriores usando aprendizagem por reforço enfrentaram três problemas. Primeiro, os modelos falhavam nos testes de hierarquia de instruções não porque não compreendessem a hierarquia, mas porque as instruções eram demasiado complexas. Segundo, determinar a resposta “correta” em conflitos ambíguos era subjetivo — até juízes de IA erravam. Terceiro, os modelos aprendiam atalhos como recusar tudo, o que maximiza as pontuações de segurança, mas destrói a utilidade.
O Que o IH-Challenge Realmente Faz
O conjunto de dados evita essas armadilhas por meio de tarefas deliberadamente simples. Cada cenário apresenta uma instrução de alta prioridade (“Responda apenas ‘Sim’ ou ‘Não’”) seguida por uma mensagem de prioridade inferior tentando sobrepor essa instrução. Um script em Python — não um juiz de IA falível — avalia se a resposta do modelo respeitou a restrição de maior prioridade.
Sem ambiguidades. Sem atalhos que funcionem em todas as tarefas.
A OpenAI treinou um modelo interno chamado GPT-5 Mini-R com o conjunto de dados. Os resultados em benchmarks acadêmicos e internos mostram ganhos consistentes:
As pontuações de conflito entre desenvolvedor e usuário no TensorTrust aumentaram de 0,76 para 0,91 (+0,15). A resolução de conflitos entre sistema e usuário melhorou de 0,84 para 0,95 (+0,11). O manejo de conflitos entre desenvolvedor e usuário subiu de 0,83 para 0,95 (+0,12).
Crucialmente, o modelo treinado não se tornou menos útil. As taxas de recusa excessiva melhoraram — o modelo ficou melhor em distinguir ameaças reais de solicitações benignas. As pontuações do GPQA Diamond e AIME 2024 permaneceram estáveis, embora a taxa de vitória em chat contra o o1 tenha caído ligeiramente de 0,71 para 0,66.
Implicações de Segurança no Mundo Real
O benefício prático aparece em duas áreas. A dirigibilidade de segurança melhorou — quando especificações de segurança específicas de categoria foram adicionadas aos prompts do sistema, o modelo treinado com IH atingiu taxas de recusa mais altas em conteúdos não permitidos, sem se tornar menos útil no geral.
A resistência à injeção de prompts também foi fortalecida. No CyberSecEval 2 e no benchmark interno da OpenAI (construído a partir de ataques que anteriormente funcionaram contra o ChatGPT Atlas), o modelo treinado superou significativamente a linha de base.
A OpenAI disponibilizou publicamente o conjunto de dados IH-Challenge no Hugging Face. Para desenvolvedores que constroem sistemas agentic que utilizam ferramentas, leem documentos não confiáveis e tomam ações no mundo real, isso resolve um dos problemas mais difíceis ainda sem solução na segurança de IA.
O timing é importante. À medida que agentes de IA ganham autonomia, a capacidade de priorizar instruções confiáveis de forma consistente torna-se menos um diferencial e mais uma condição prévia para implantação.
Fonte da imagem: Shutterstock