العقود الآجلة
وصول إلى مئات العقود الدائمة
TradFi
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
منصة الإطلاق
كن من الأوائل في الانضمام إلى مشروع التوكن الكبير القادم
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
ما هو التقرير الذي جعل ماسك يشعر بعدم التصديق؟
نشرت Moonshot AI (فريق Kimi) مؤخراً تقريراً تقنياً مذهلاً: "Attention Residuals"، وقامت بترقية الاتصالات المتبقية (Residual Connections) التي استخدمت في Transformer لما يقرب من 10 سنوات مباشرة. حتى Elon Musk لم يستطع إلا أن يعلق، وشعر بعدم التصديق (unbelievable مستوى الصدمة).
يمكن تلخيص جوهر هذا التقرير في جملة واحدة:
"توقفوا عن جعل كل طبقة تضيف بشكل أعمى جميع المعلومات من جميع الطبقات السابقة بأوزان متساوية، دعوا النموذج يتعلم استخدام الانتباه لاختيار أي الإشارات من الطبقات المبكرة مفيدة حقاً!"
في Transformer التقليدي (بنية PreNorm)، يكون مخرجات كل طبقة:
x_{l} = x_{l-1} + sublayer(x_{l-1} / √something)
بشكل مباشر: بغض النظر عما إذا كانت المعلومات من 100 طبقة سابقة مفيدة فعلاً، يتم إضافتها جميعاً دفعة واحدة. كلما زادت عمق الطبقات، تضعفت الإشارات المهمة المبكرة بسبب تخفيفها بواسطة طبقات لاحقة عديدة (يسمونها PreNorm dilution أو representational dilution).
قام فريق Kimi بمبادلة علامة "+" مباشرة بانتباه خفيف عبر الطبقات (depth-wise attention):
الصيغة الجديدة تبدو تقريباً هكذا (نسخة مبسطة):
x_l = Attention( Q=x_l^{pre}, K=ملخص جميع الطبقات السابقة, V=القيم المقابلة ) + أشياء أخرى
التنفيذ الأكثر عملية الذي يسمونه Block AttnRes: كل عدة طبقات (مثلاً 8-16 طبقة) يتم عمل ملخص key/value، ثم استخدام الانتباه لتحديد هذه الملخصات، بدلاً من حساب الانتباه في كل طبقة. بهذه الطريقة يزيد الذاكرة والعمليات الحسابية قليلاً جداً (تأخر الاستدلال أقل من 2%)، لكن النتائج مذهلة.
نتائج تجاربهم (باستخدام نماذج Kimi Linear الخاصة بهم، 48B إجمالي / 3B نشط):
• في نفس FLOPs، تحسن الأداء يعادل مزايا قوة حسابية 1.25 مرة
• تحسن واضح في استدلال التسلسلات الطويلة ومهام الاستدلال المعقد متعدد الخطوات
• حجم الحالات المخفية (الحجم) أكثر استقراراً، على عكس البقايا التقليدية التي تنفجر أو تتحلل مع العمق الأكبر
• نشر التدرج أكثر انتظاماً، مما يجعل الطبقات العميقة أسهل في التدريب
⚠️⚠️
إذن، لماذا رد فعل ماسك قوي جداً؟
"الاتصالات المتبقية كانت نائمة لمدة 8 سنوات، أخيراً شخص ما تجرأ على المساس بها، وبطريقة أنيقة جداً، والنتائج جيدة جداً؟!"
لماذا يجب الانتباه لهذا الشيء؟ لأن الاتصالات المتبقية كانت تقريباً هي خط الإنقاذ الوحيد الذي جعل Transformer قادراً على التدريب إلى 100+ طبقة، وحتى آلاف الطبقات، وكان الجميع يعتقدون أنها محسنة بالفعل ولا يمكن تحسينها. والنتيجة أن Kimi استخدمت آلية الانتباه الأكثر ألفة، وعكست الوضع لعلاج مشاكل البقايا نفسها، وهذا يعني أنهم لعبوا بعبارة "الانتباه هو كل ما تحتاجه" إلى مستوى جديد تماماً.
الآن هناك بالفعل تنفيذ Rust (بناءً على إطار burn)، وصور توضيحية مختلفة على X، وهناك من يقول إن هذا هو نوع آخر من الابتكار المعماري الذي يمكن أن يدخل الجيل القادم من نماذج البرمجيات مفتوحة المصدر والمغلقة، بعد DeepSeek mHC.
إذا كنت تعمل على نماذج كبيرة وتدريب LLM الخاص بك، فهذا التقرير يستحق قراءة النسخة الأصلية والكود طوال الليل (تم بالفعل فتح GitHub).
التقرير:
استعد للاهتزاز 🚀