O modelo comprado na Huading pode ser uma falsificação: Revelando a cadeia de negócios obscuros do centro de transferência de IA

Você acha que está a escrever código com o Claude Opus 4.6, mas nos bastidores a correr pode estar um pequeno modelo nacional de 9B de parâmetros. Você acha que poupou dinheiro; na verdade, cada um dos seus prompts está a ser arquivado por alguém, para ser usado no treino de modelos concorrentes. Você acha que encontrou uma alternativa equivalente (mais barata); no entanto, no final, o dinheiro das suas faturas vai parar a uma cadeia industrial cinzenta que começa com o roubo de cartões de crédito.

Isto não é teoria da conspiração. Um artigo no arXiv usou dados para provar que o “modelo de topo” que você ajustou com dinheiro de verdade — 45,83% — não consegue passar a validação de identidade.

E o mais assustador é que isto nem sequer é um segredo na indústria.

Anexei no fim deste artigo: um método rápido de deteção de 30 segundos validado pela comunidade.

Vamos esclarecer primeiro: o que é exatamente um “posto de retransmissão” de IA?

Em 9 de julho de 2024, a OpenAI cortou oficialmente o serviço de API para a China continental e Hong Kong. Em setembro de 2025, a Anthropic seguiu o exemplo, proibindo de forma abrangente empresas controladas por capital chinês de utilizarem a API do Claude. A Gemini da Google também impõe restrições rigorosas a IPs chineses.

Para programadores chineses, a porta para usar diretamente os modelos globais de IA de topo foi fechando, uma atrás da outra.

Foi então que surgiu o “posto de retransmissão”.

Em termos simples, um posto de retransmissão é um intermediário — que afirma ajudar a contornar restrições regionais e barreiras de pagamento, chamando APIs de Claude, ChatGPT, Gemini, etc., a preços mais baixos. Só precisa de substituir um base_url e uma API Key; o código não precisa de mudar uma única linha, para “integrar sem problemas” os modelos de IA mais poderosos do mundo.

Parece maravilhoso. Mas por trás desse “maravilhoso” escondem-se fossos profundos que não imagina.

Como é que “os oficiais” funcionam de verdade? Vamos ver primeiro o OpenRouter

Antes de falar da parte obscura, vale a pena ver como é que o “retransmissor oficial” faz negócio, para perceber quão grande é a diferença.

O OpenRouter é, atualmente, a maior plataforma global de agregação de modelos de IA: integra mais de 300 modelos e mais de 60 fornecedores. O seu modelo de negócio é extremamente transparente: cobra uma taxa de serviço de cerca de 5% em cima das despesas oficiais de inferência (para grandes clientes há soluções personalizadas). Cada cêntimo que você paga tem um destino claro — o custo das chamadas de modelo vai para o fornecedor a montante, e a diferença fica com o OpenRouter.

Em 2025, esta empresa obteve um investimento de 40 milhões de dólares na Série A, liderado pela a16z e pela Menlo Ventures, com uma avaliação de 500 milhões de dólares e ARR de 5 milhões de dólares, um aumento de 400%. O seu argumento central é o “routing” — uma API Key a ligar todos os modelos, com transferência automática inteligente em caso de falha, e preços publicamente transparentes. Você ajusta o Opus 4.6 e obtém exatamente o Opus 4.6.

Canais “oficiais” semelhantes incluem a EdenAI, o Azure OpenAI Service, etc., que têm parcerias comerciais formais com os fabricantes dos modelos e estão sujeitos a obrigações de conformidade.

Mas o problema é este — no final de 2025, o OpenRouter começou a banir utilizadores chineses ao nível de conta (“account-level”), limitando o uso de modelos das três grandes plataformas OpenAI, Claude e Google. Para utilizadores chineses, os canais oficiais estão a ficar cada vez mais estreitos.

Isso mesmo está a alimentar o crescimento selvagem dos “postos de retransmissão subterrâneos”.

Desmontar a cadeia cinzenta em quatro camadas de um posto de retransmissão

Os “postos de retransmissão” de IA na China não são apenas “retransmissão por proxy”. Formam uma cadeia industrial cinzenta com uma divisão de trabalho extremamente fina. O preço baixo que você vê é só a ponta do iceberg — o que está abaixo da linha de água é muito mais sujo do que imagina.

Camada mais profunda: roubo de cartões de crédito

A base mais sombria da cadeia industrial depende do roubo de cartões de crédito.

Há quem tenha em mãos grandes lotes de números de cartões (black cards) no estrangeiro e aproveite processos de registo no estrangeiro que não exigem verificação presencial para criar contas em massa e obter quotas de API. O custo real dessas contas é quase zero — porque o dinheiro é retirado de cartões de crédito roubados.

Quando você festeja um preço “até um terço do oficial”, já pensou: porquê é que isso consegue chegar a esse valor?

Não é otimização de eficiência, nem efeito de escala. Há alguém a “pagar por si” — e esse alguém pode ser uma vítima de um cartão roubado.

Segunda camada: cracking inverso do Web — como vender subscrições convertidas em API

Um pouco mais “respeitável” do que o roubo é a conversão via engenharia inversa de Web2 em API — quebrar serviços de subscrição do site e vendê-los como interfaces de API.

Esses postos de retransmissão não usam APIs oficiais; em vez disso, fazem análise inversa das interações do lado do web de produtos como Claude e ChatGPT. Capturam e inspecionam o tráfego (“packet capture”) para analisar a autenticação da sessão, e encapsulam as chamadas do site num “pseudo-API” compatível com o formato OpenAI. O método concreto costuma ser: registar em massa contas de membros Plus/Pro, construir um “pool de contas” e depois usar servidores proxy para fazer balanceamento de carga, distribuindo os pedidos dos utilizadores por contas diferentes.

Uma conta de ChatGPT Plus com mensalidade de 20 dólares pode ser partilhada por 5 a 20 pessoas; cada pessoa paga apenas alguns euros.

E tudo isto tem uma cadeia de ferramentas open source madura a suportar.

One API (GitHub 31.2k estrelas) é, atualmente, a ferramenta mais comum de gestão agregada de API. Suporta uma integração unificada de mais de 30 modelos de grande porte, oferece um conjunto completo de funções como balanceamento de carga, gestão de tokens e gestão de canais, com deploy “Docker em um clique”. Licença open source MIT.

New API (GitHub 24k estrelas), desenvolvida em cima do One API, adiciona funcionalidades comerciais como pagamentos online, routing inteligente de canais e faturação com cache, e usa a licença AGPL-3.0.

E o mais recente que está a ganhar popularidade é o Sub2API (GitHub 9,5k estrelas). O nome é uma tradução literal de “subscrição para API” — trata especificamente de converter contas de subscrição de produtos como Claude, ChatGPT, Gemini, etc., em interfaces de API. O projeto suporta gestão de múltiplas contas, escalonamento inteligente, manutenção de sessão, controlo de concorrência e até um painel completo de backoffice administrativo. No README do projeto, há uma linha pequena escrita de forma muito honesta: “O uso deste projeto pode violar os Termos de Serviço da Anthropic. Todo o risco de uso é da responsabilidade do utilizador.”

Somando estes três projetos, passam de 64.000 estrelas. Já formaram uma infraestrutura completa de “base de retransmissão”. Qualquer pessoa consegue montar, em poucas horas, um serviço de retransmissão de API totalmente funcional — há tutoriais de deploy por todo o lado e anúncios de “rendimento mensal acima de 10.000 com zero barreiras” aparecem frequentemente na comunidade de programadores.

Terceira camada: colheita industrial de quotas grátis

As quotas gratuitas de teste que os fabricantes de IA dão a novos utilizadores também atraem redes de crime organizado.

Por exemplo, no Cursor, existem vários projetos open source no GitHub que implementam obtenção infinita de quotas gratuitas ao reiniciar “device fingerprints”. Esses projetos já receberam milhares de estrelas, formando um ciclo completo de “atrair pelo open source, monetizar com contas pagas”.

O sistema de pontos de convite do Manus AI também foi explorado — scripts automáticos de registo desenvolvidos pela rede de crime têm um preço de 1580 a 3200 RMB e conseguem reduzir o custo de obtenção dos pontos para “3300 pontos por 0,5 RMB”. Numa altura, mais de 125 produtos fraudulentos relacionados apareceram em plataformas de comércio eletrónico.

Quarta camada: “retransmissão séria” de fato e gravata

Existe ainda uma categoria de postos de retransmissão que segue uma rota aparentemente “compliant” — alegam que reduzem custos através de compras em larga escala e revendem quotas de API a um preço inferior ao desconto oficial. Alguns dizem “1 yuan = 1 dólar” — a quota de API oficial de 1 dólar, o posto cobra apenas 1 RMB, o que equivale a cerca de um sétimo do preço oficial.

Mas de onde vêm esses descontos? Sem nada além de algumas possibilidades: ou o modelo é trocado, ou se usa “fornecimento barato” das três camadas acima, ou então faz-se “lead generation” com preços baixos queimando dinheiro para depois, quando o volume de utilizadores crescer, descobrir como monetizar — ou então fugir.

Quando você vê um produto com preço muito abaixo do custo, lembre-se de uma frase: se você não consegue identificar quem está a pagar a diferença, então a pessoa que paga é você.

Prova na prática via论文: quase metade dos modelos é falsa

Se tudo isto for apenas “rumores da indústria”, então a parte seguinte são provas académicas de mesa posta.

Em março de 2026, um artigo intitulado “Real Money, Fake Models: Deceptive Model Claims in Shadow APIs” foi publicado no arXiv (número do artigo 2603.01919). É a primeira auditoria académica sistemática dos postos de retransmissão de IA.

A equipa de investigação identificou 17 serviços Shadow API, descobriu 187 artigos académicos que utilizaram esses postos e, de seguida, fez uma deteção aprofundada a 3 serviços representativos.

A conclusão é chocante:

45,83% dos endpoints do modelo não passaram na validação por “identidade digital” (fingerprinting).

Quase metade. O modelo que você chama e o que você pensa que está a usar, provavelmente não é a mesma coisa.

O artigo classifica os métodos de fraude em três categorias:

“Troca de etiquetas” — anunciam fornecer uma certa versão do modelo Gemini, mas substituem-na por outra versão. Os resultados da validação por impressão digital não correspondem em absoluto à identidade do modelo alegado, mas cobram um prémio de até 7 vezes ao preço original.

“Pôr máscara de cordeiro para vender carne de cão” — este é o mais absurdo. Você chama Claude Opus 4.6 (no caso do artigo é GPT-5), e o preço parece ser igual ao oficial. Porém, o modelo que realmente devolve é GLM-4-9B — um modelo open source com um nível de parâmetros e capacidade totalmente fora da mesma classe. Você paga dezenas de dólares por milhão de tokens e obtém a saída de um modelo que quase poderia ser executado de forma gratuita.

“Revenda para ganhar spread” — usar chamadas do upstream com compra barata de modelos fracos, embalar como se fossem modelos de topo e vender pelo nome, lucrando com a diferença.

O artigo fornece um conjunto de dados frios: os utilizadores pagaram 100% do preço oficial, mas o valor do modelo recebido na prática era apenas de 38% a 52%. Convertendo em dinheiro do mundo real: por cada 14,84 dólares gastos, o serviço que você realmente obtém vale apenas 5,70 a 7,77 dólares; o resto vai parar ao bolso do posto de retransmissão.

Ainda mais perigoso é a quebra de desempenho. No teste de perguntas e respostas em medicina (MedQA), o desempenho do Gemini-2.5-flash fornecido pelos postos caiu de 83,82% (oficial) para 37,00% — uma queda de 46 pontos percentuais. A diferença em raciocínio jurídico (LegalBench) chega aos 40 a 43 pontos percentuais. Em raciocínio matemático (AIME 2025), o desvio chega a 40 pontos percentuais.

Imagine: se escreve código de consulta médica com este “Opus de retransmissão”, se executa análises jurídicas com este “GPT-5 de retransmissão”, se submete artigos académicos com este “Claude de retransmissão” — a fiabilidade dessas saídas pode ser ainda pior do que simplesmente usar um modelo pequeno gratuito.

O artigo estima que, devido a chamadas Shadow API, cerca de 56 trabalhos de investigação académica precisem de ser refeitos, com custos entre 11,5 e 14 milhões de dólares. A conclusão é direta: Shadow API não deve ser usada em cenários que exijam qualquer nível de fiabilidade.

O artigo revela a gravidade do problema. Mas para programadores comuns, a questão mais urgente é — o posto de retransmissão que eu estou a usar, será mesmo real?

O seu modelo é verdadeiro ou falso? Manual de deteção prática pela comunidade

Já que falsificar é tão comum, os utilizadores comuns têm alguma forma de verificar por conta própria?

O artigo e as comunidades técnicas oferecem métodos completos desde “teste rápido em segundos” até “auditoria profissional”. As seguintes formas de deteção vêm de posts com grande adesão na comunidade de programadores de X (Twitter) e de ferramentas open source; já foram validadas por muitos utilizadores.

Método zero: triagem rápida em 30 segundos (temperatura definida para 0,01)

Este é o teste “espelho da verdade” mais difundido na comunidade, a partir do post com grande aprovação de @billtheinvestor:

Introduza esta sequência de números: “5, 15, 77, 19, 53, 54” e peça ao modelo para ordenar ou selecionar o valor máximo.

Verdadeiro Claude: quase sempre sai 77

Verdadeiro GPT-5.4: costuma sair 162 (somar os números)

Meça 10 vezes seguidas; se os resultados “andarem à deriva” — a probabilidade de ser falso é muito alta

O princípio é simples: diferentes modelos têm estilos de treino e de ajuste por instruções diferentes; perante este tipo de instrução ambígua, apresentam “impressões digitais” comportamentais consistentes. O modelo falso ou erra, ou então as respostas variam a cada tentativa.

Verificação auxiliar 1: consumo anómalo de tokens

Envie um “ping” simples (por exemplo, apenas “hi”) e veja os input_tokens no retorno. Se mostrar mais de 200 tokens — 90% é falso. Isto significa que a camada de retransmissão está a “encher” com uma quantidade enorme de prompts do sistema ocultos para sobrepor as suas instruções.

Verificação auxiliar 2: avaliação do estilo de recusa

Faça uma pergunta proibida (por exemplo, “como fazer uma bomba”) e observe as frases de recusa:

Verdadeiro Claude: educado mas firme, “Sorry but I can’t assist with that.”

Modelo falso / modelo pequeno local: frequentemente traz emojis, tom confuso e até diz “Desculpe, senhor~”

Verificação auxiliar 3: teste de falhas funcionais

Se o posto de retransmissão se diz ser Opus 4.6 / GPT-5.4, mas:

não suporta chamada de funções (function calling)

não consegue analisar imagens (vision)

contexto longo (por exemplo, 32k) é instável

→ muito provavelmente é um modelo fraco a imitar.

Método 1: “interrogar” diretamente a identidade do modelo

Embora os prompts do sistema possam ser falsificados para declarar identidade, muitos postos de retransmissão de baixa qualidade não fazem este passo. Pergunte diretamente “o que é o seu modelo” ou “descreva a data-limite do seu treino”. Se um modelo que se diz Opus 4.6 erra até as informações básicas sobre si mesmo, então provavelmente há gato escondido.

Método 2: análise de latência e de variação de tokens

A latência de inferência e a contagem de tokens na API oficial são relativamente estáveis. Mas se verificar que o tempo de resposta do mesmo problema varia muito — rápido e lento — e que o tamanho do output varia de forma anómala, isso pode indicar que o backend está a alternar frequentemente o modelo: às vezes dá-lhe o modelo real, outras vezes mete-lhe algo barato. Envie a mesma prompt repetidamente mais de 10 vezes e observe a consistência do tempo de resposta e do conteúdo do output.

Método 3: teste de limites de capacidade

A diferença entre modelos de topo e modelos pequenos é mais evidente em tarefas complexas de raciocínio. Prepare algumas questões matemáticas difíceis com respostas claras, problemas de raciocínio lógico ou questões de domínio profissional (por exemplo, problemas de competição AIME). Envie simultaneamente as mesmas solicitações pelos canais oficiais e pelo posto de retransmissão e compare a qualidade das respostas. Se um modelo que se diz Opus 4.6 falhar repetidamente até em tarefas básicas de raciocínio, então provavelmente não é verdadeiro.

Método 4: reconhecimento por impressão digital de LLMmap (nível profissional)

Este é o método central usado no artigo. LLMmap é uma estrutura de deteção de impressão digital ativa: envia ao modelo 3 a 8 conjuntos de perguntas cuidadosamente desenhadas, analisa características estatísticas das respostas (frequência de palavras, estrutura de frases, hábitos específicos de expressão) e calcula a distância por cosseno em relação a uma base de impressões digitais de modelos conhecidos. Mesmo que o modelo seja envolvido numa “camada de pele”, este método consegue atravessar a disfarce.

Resumo numa frase: se um posto de retransmissão não tiver coragem de permitir que execute qualquer um dos testes acima, ou se os resultados não coincidirem com os oficiais — siga em frente, não olhe para trás. Testes pequenos e depois usar até acabar é, de momento, a estratégia prática de autoproteção.

As suas prompts estão a ser vendidas a preço público

Se a falsificação do modelo é “tirar menos coisa de si”, então a venda de dados é “tirar mais coisa de si”.

A essência técnica do posto de retransmissão é uma camada de proxy — cada uma das suas prompts e cada uma das suas responses passa completa pelos servidores dele. O código que envia, o seu plano de negócios, os dados do seu cliente, as suas conversas privadas — o operador do posto pode obter tudo sem esforço.

Isto não é apenas uma dedução teórica. Na comunidade de programadores, já há muitas discussões apontando que os postos de retransmissão usam os dados dos pedidos dos utilizadores para distilar modelos, e isso é um segredo público. A chamada “distilação de modelos” é, de forma simples, usar as saídas de um grande modelo para treinar um modelo pequeno — uma técnica de “aprender roubando a lição”. Todos os pedidos que passam pelo posto — uma combinação completa de prompt + response — são um conjunto pronto e valioso de dados de treino. Especialmente as saídas de modelos de topo como Opus 4.6 e GPT-5 são, por si, material altamente valioso para distilação.

No início de 2026, a Anthropic publicou um relatório que acusa diretamente três laboratórios de IA na China — DeepSeek, Moonshot AI e MiniMax — de acederem em larga escala à API do Claude através de redes de contas falsas para distilar modelos. Entre eles, o número de interações do MiniMax ultrapassou 13 milhões de vezes, e o Moonshot passou de 3,4 milhões. A sua arquitetura de “cluster de nove cabeças” — uma rede constituída por muitas contas falsas — e o padrão “pool de contas” dos postos de retransmissão são praticamente idênticos.

Do ponto de vista da arquitetura técnica, os postos de retransmissão podem ser divididos em “modo de passthrough puro” (encaminha em tempo real, sem guardar) e “modo de armazenamento e reencaminhamento” (armazenar primeiro e depois reenviar). Mas mesmo um serviço que se diz “passthrough puro” não permite que ninguém audite se o backend guarda ou não os dados. A sua confiança assenta completamente na promessa verbal de um operador anónimo.

Especialistas em segurança recomendam avaliar um posto de retransmissão em cinco dimensões: se a arquitetura técnica faz passthrough, se a estratégia de logs regista apenas metadados de faturação, se a transmissão usa TLS 1.2+, se a API Key está completamente isolada e se existe um mecanismo de emergência para incidentes. Mas na realidade, a grande maioria dos postos de retransmissão nacionais não é transparente nem sobre a entidade responsável, muito menos aceita auditoria de segurança independente.

Fuga, explosões de falha, expulsar e calar: o fim típico de um posto de retransmissão

Há ainda um risco sistémico fatal nos postos de retransmissão — fugir (run away).

A maioria dos postos usa o modelo de pré-carregamento: carrega dinheiro primeiro e depois desconta por consumo. Se a entidade operacional desaparecer, o seu saldo evapora completamente, sem forma de responsabilização.

HodlAI é um caso “de manual”: no início, o projeto ofereceu APIs a preços baixos para atrair recargas. Quando os fundos da tesouraria ficaram apenas com cerca de 60.000 dólares e o consumo diário de tokens chegou a 100.000 (1 dólar por token? aqui está 1万美元, ou seja 100.000? mantendo número: 1万美元), começou uma restrição frenética — limite máximo de 50.000 tokens por pedido, e a limitação por frequência foi sendo reforçada em camadas. Num grupo do Telegram, utilizadores questionaram; como resposta, foram diretamente expulsos do grupo e as contas foram banidas.

A avaliação da comunidade foi certeira: “é como uma rede de recrutamento”, “calar a boca é mais fácil do que resolver o problema”, “a receita é familiar, o sabor também”.

Quem está “do lado de dentro” resume esta modalidade numa frase: “Primeiro atrai com preços baixos; quando o grupo de utilizadores cresce, o upstream bloqueia as contas e eles desaparecem. O prejuízo é só dos utilizadores.”

Em comunidades de programadores como Linux.do e V2EX, há inúmeros posts semelhantes sobre reivindicações. Alguns postos de retransmissão têm cláusulas contratuais extremamente abusivas; outros nem sequer têm registo comercial/industrial. Você nem sabe a quem processar.

Uma cadeia industrial completa: dos cartões roubados até ao seu IDE

Juntando toda a informação acima, você vê uma cadeia clara:

Armas a montante — plataformas de “fornecimento de números de telefone” (receiving numbers), fornecedores de black cards fornecem meios de pagamento e “cat pools” fornecem recursos de equipamentos. Armas a jusante — engenheiros de engenharia inversa quebram protocolos; projetos open source como One API/New API/Sub2API fornecem infraestruturas prontas e explorações em quinta de dispositivos fazem o “criar contas em massa”. Distribuição a jusante — operadores de postos embalarem como “serviço de API” para vender; grupos no Telegram e plataformas de e-commerce viram canais de venda; e até há quem empacote “montar um posto de retransmissão” como um curso de formação em part-time.

E você — através de ferramentas de IDE como Cursor, Claude Code, ou escrevendo o seu próprio código — é o consumidor final dessa cadeia.

Os dados de monitorização de uma empresa de segurança que caçam ameaças (“threat hunters”) mostram que, ao amostrarem 50 produtos de AI Agent, cada um deles tem serviços derivados por redes criminosas. Esta cadeia industrial evoluiu desde a troca de contas em 2022, para a revenda de APIs em 2023, para arbitragem de quotas gratuitas em 2024, para abuso de capacidade de computação dos Agents em 2025, até 2026 — já completou a evolução de “oficina artesanal” para produção industrial.

Palavras finais

A história dos postos de retransmissão de IA é, na essência, uma repetição em era de IA de uma lógica comercial antiga — quando você não sabe o que é o produto, então você é o produto.

O seu dinheiro compra modelos falsos; os seus dados alimentam conjuntos de treino de terceiros; e o seu saldo pré-carregado pode zerar a qualquer momento. Estas três coisas não são “coisas que podem acontecer”; estão a acontecer agora.

Algumas recomendações práticas —

Sempre que possível, vá pelo oficial. APIs oficiais são caras, mas a caro é claramente explicado. Se o seu negócio tiver quaisquer exigências para segurança de dados e fiabilidade de modelo, os postos de retransmissão não deveriam estar na sua stack técnica.

Pelo menos aprenda a fazer auto-testes. Se você está a usar um posto de retransmissão, execute os métodos acima para detetar. Para a mesma questão matemática AIME e a mesma secção de código complexa, compare as saídas do posto de retransmissão e do oficial. Se a diferença for clara — você sabe o que fazer.

Dados sensíveis nunca devem passar. Se for inevitável usar, então pelo menos: anonimizar/mascarar as informações sensíveis, rodar/renovar periodicamente as API Keys e não guardar quaisquer dados essenciais na conta do posto de retransmissão.

Olhe com seriedade para os modelos nacionais. Modelos nacionais como DeepSeek, Qwen, GLM, etc., estão a alcançar rapidamente e com preços transparentes e muito inferiores aos modelos estrangeiros; a API oficial pode ser usada diretamente de forma compatível dentro do país. Em vez de aventurar-se em modelos estrangeiros falsificados em zonas cinzentas, use estas alternativas nacionais bem “certinhas” — pelo menos sabe que modelo está a ajustar.

Este setor muda todos os dias. Mas há uma lei rígida que não muda: quando escolhe o mais barato sem conhecer o custo, quase sempre faz a decisão mais cara.

GLM0,94%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar