Google TurboQuant: كمية 3bit لذاكرة التخزين المؤقت KV بدون فقدان الدقة، الاستدلال أسرع بـ 8 مرات كحد أقصى

BlockBeatNews

وفقًا لمراقبة 1M AI News، أصدرت معهد أبحاث جوجل خوارزمية الضغط الكمي TurboQuant، التي يمكنها ضغط ذاكرة التخزين المؤقت لـ KV للنماذج اللغوية الكبيرة إلى 3 بت، مما يقلل من استهلاك الذاكرة بما لا يقل عن 6 مرات، دون الحاجة إلى تدريب أو تعديل دقيق، ودون فقدان دقة النموذج. في وضع 4 بت، على بطاقة GPU من نوع H100 من إنفيديا، تتفوق سرعة حساب الانتباه على الخط الأساسي غير المشفر بـ 32 بت بأقصى قدر يصل إلى 8 أضعاف.

قام فريق البحث بالتحقق من أداء TurboQuant على معايير طويلة السياق مثل LongBench وNeedle In A Haystack وZeroSCROLLS باستخدام نماذج Gemma وMistral، حيث حقق الأداء الأمثل في جميع الاختبارات. تتكون الخوارزمية من خوارزمين فرعيين: PolarQuant الذي يلغي استهلاك الذاكرة الناتج عن الطرق التقليدية للتكميم من خلال تحويل الإحداثيات القطبية، وQJL الذي يصحح الأخطاء المتبقية باستخدام بت واحد فقط.

يقود هذا البحث معهد أبحاث جوجل، برئاسة أمير زاندية ونائب الرئيس وزميل جوجل، فهاب ميرروكني، بالتعاون مع معهد كايس في كوريا والجامعة نيويورك، وسيتم نشره في مؤتمر ICLR 2026. وأكدت جوجل أن أحد الاستخدامات الرئيسية لهذه التقنية هو حل عنق الزجاجة في ذاكرة التخزين المؤقت لـ KV لنماذج مثل Gemini.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات