Futures
Accédez à des centaines de contrats perpétuels
TradFi
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Launchpad
Soyez les premiers à participer au prochain grand projet de jetons
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Google's TurboQuant multiplie par 6 la mémoire des LLM sans rien casser
Titre
Le TurboQuant de Google comprime la mémoire des LLM 6x sans sacrifier la précision, ce qui pourrait bouleverser l’économie du matériel d’IA.
Résumé
Google Research a publié TurboQuant, une méthode de compression qui réduit le cache clé-valeur (KV) dans les grands modèles de langage d’environ 6x. Pour ce faire, elle utilise une quantification vectorielle agressive ramenée à environ 3 bits par valeur, tout en tournant jusqu’à 8x plus vite pendant le calcul des scores d’attention sur les GPU H100. Le point fort : elle conserve la précision sur des bancs d’essai à longs contextes comme Needle-in-a-Haystack jusqu’à 104k tokens. L’approche combine deux techniques : PolarQuant gère la compression initiale via une rotation aléatoire et des coordonnées polaires, tandis que Quantized Johnson-Lindenstrauss corrige les erreurs résiduelles sans introduire de biais. Aucun retraining requis. C’est important car le cache KV est devenu un goulot d’étranglement majeur à mesure que les fenêtres de contexte continuent de s’agrandir. La technique pourrait réduire les coûts opérationnels de plus de moitié et rendre l’inférence à long contexte praticable sur du matériel qui existe déjà.
Analyse
TurboQuant adopte une approche différente de la quantification vectorielle en se débarrassant entièrement des constantes de normalisation par bloc. Au lieu de cela, elle s’appuie sur des transformations géométriques et des grilles circulaires fixes afin de simplifier la quantification pour les vecteurs de grande dimension dans l’attention des transformeurs. Cela s’inscrit dans la tendance plus large vers un traitement efficace des longs contextes. Lors des tests sur Llama-3.1-8B, TurboQuant a conservé un rappel parfait sur les tâches de récupération, ce qui est prometteur pour des systèmes d’IA agentiques qui ont besoin d’une mémoire massive et recherchable sans une facture matérielle proportionnelle.
Sur le plan concurrentiel, le publier comme un outil ne nécessitant pas d’entraînement renforce la position de Google dans la recherche open AI. N’importe qui peut l’adopter, ce qui contraste avec des optimisations propriétaires de laboratoires comme OpenAI. Elle pourrait aussi faire avancer des approches de compression dépendantes comme la génération augmentée par la recherche.
Quelques réserves à noter : les bancs d’essai semblent solides sur des modèles open source, mais les environnements de production et les cas limites avec des distributions de données inhabituelles pourraient révéler des limitations. L’analyse théorique suggère que l’approche se rapproche de bornes relevant de la théorie de l’information, mais « proche » n’est pas « identique ».
Pour les entreprises, cela pourrait réduire de manière significative les coûts d’inférence. Le panorama du marché du matériel est plus complexe. Les fournisseurs de mémoire pourraient subir une pression à court terme, mais une inférence moins coûteuse signifie généralement davantage d’inférences, ce qui pourrait compenser la baisse de la demande en mémoire par requête.
Évaluation de l’impact