نقطة جديدة ساخنة في مسابقة النماذج الكبيرة: القفزة في طول النص من 4k إلى 400k token
تتطور تقنية النماذج الكبيرة بسرعة مذهلة، حيث ارتفعت قدرة معالجة النصوص من 4k توكن في البداية إلى 400k توكن، ويبدو أن القدرة على معالجة النصوص الطويلة أصبحت المعيار الجديد لمزودي النماذج الكبيرة.
في الجانب الخارجي، قامت OpenAI من خلال عدة ترقيات برفع طول السياق لـ GPT-3.5 و GPT-4 إلى 16,000 و 32,000 توكن على التوالي. بينما قامت منافستها Anthropic بتوسيع طول السياق دفعة واحدة إلى 100,000 توكن. وأيضًا، قامت LongLLaMA بتوسيع طول السياق إلى 256,000 توكن أو حتى أكثر.
فيما يتعلق بالجانب المحلي، أطلقت إحدى الشركات الناشئة منتج مساعد ذكي يدعم إدخال نصوص تصل إلى حوالي 400 ألف توكن. التقنية LongLoRA التي تم تطويرها بالتعاون بين جامعة هونغ كونغ الصينية ومعهد ماساتشوستس للتكنولوجيا، قادرة على توسيع طول النص لنموذج 7B إلى 100 ألف توكن، بينما يمكن توسيع نموذج 70B إلى 32 ألف توكن.
حالياً، تركز العديد من شركات النماذج الكبيرة الرائدة والمؤسسات البحثية في الداخل والخارج على توسيع طول السياق كأحد اتجاهات الترقية الرئيسية. معظم هذه الشركات هي شركات نجوم تحظى بتقدير سوق رأس المال، وبلغت مبالغ التمويل والتقييمات مستويات قياسية جديدة.
ماذا يعني تركيز شركات النماذج الكبرى على تقنية النصوص الطويلة؟ يبدو للوهلة الأولى أنه يتعلق بطول النص المدخل وزيادة القدرة على القراءة، من مقال قصير إلى رواية طويلة. لكن المعنى الأعمق يكمن في دفع النماذج الكبيرة نحو تطبيقاتها في مجالات متخصصة مثل المالية والعدالة والبحث العلمي، لتلبية احتياجات هذه المجالات في معالجة الوثائق الطويلة.
ومع ذلك، فإن طول النص ليس بالضرورة أفضل كلما زاد. أظهرت الأبحاث أن دعم النموذج لإدخال سياق أطول لا يعني بالضرورة تحسين الأداء، فالمفتاح يكمن في كيفية استفادة النموذج من محتوى السياق. ومع ذلك، لم تصل الصناعة بعد إلى الحد الأقصى لاستكشاف طول النص، فقد تكون 40 ألف توكن مجرد البداية.
تلقى تقنية النصوص الطويلة اهتمامًا لأنها يمكن أن تحل بعض المشكلات التي تواجه النماذج الكبيرة في المراحل المبكرة، مثل نسيان المعلومات المهمة في مشاهد الشخصيات الافتراضية، والقيود المفروضة على التحليل المتخصص. في الوقت نفسه، تعتبر النصوص الطويلة تقنية أساسية لدفع تطور تطبيقات الوكيل والذكاء الاصطناعي الأصلية في المستقبل.
يمكن للنصوص الطويلة من خلال توفير المزيد من السياق ومعلومات التفاصيل أن تساعد النموذج على فهم المعنى بشكل أكثر دقة، وتقليل الغموض، وزيادة دقة الاستدلال. هذه علامة على دخول النماذج الكبيرة من LLM إلى المرحلة الجديدة من Long LLM.
تظهر تقنية النص الطويل في التطبيقات العملية مزايا متعددة: يمكنها تحليل نقاط المقالات الطويلة بسرعة، واستخراج المعلومات الأساسية من التقارير المالية، وتنفيذ أسئلة وأجوبة حول كتاب كامل؛ في مجال البرمجة، يمكنها تحويل الأوراق البحثية مباشرة إلى كود؛ كما يمكن أن تحقق وظائف المحادثة الطويلة المخصصة مثل تمثيل الأدوار. تدفع هذه الوظائف روبوتات المحادثة نحو مزيد من التخصص والتخصيص والعمق.
ومع ذلك، تواجه تقنية النص الطويل معضلة "مثلث المستحيل": هناك قيود متبادلة بين طول النص والانتباه والقدرة الحاسوبية. كلما كان النص أطول، أصبح من الصعب التركيز على الانتباه، بينما يتطلب معالجة النصوص الطويلة مزيدًا من القدرة الحاسوبية. تنبع هذه المعاناة من هيكل Transformer الذي تتبناه معظم النماذج، حيث يتزايد حجم حساب آلية الانتباه الذاتي بشكل متسارع مع طول السياق.
حاليًا، هناك ثلاث حلول رئيسية: استخدام أدوات خارجية للمساعدة في المعالجة، تحسين حساب آلية الانتباه الذاتي، وتحسين النموذج نفسه. لكل خيار مزايا وعيوب، وكيفية العثور على أفضل نقطة توازن بين طول النص والانتباه وقوة الحوسبة هو التحدي الذي يواجهه مقدمو النماذج الكبيرة.
على الرغم من أن تقنية النصوص الطويلة لا تزال لديها مجال للتحسين، إلا أنها تمثل اتجاه تطور النماذج الكبيرة نحو مستويات أعلى، ومن المتوقع أن تدفع الذكاء الاصطناعي لتحقيق تطبيقات بارزة في المزيد من المجالات المتخصصة.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 11
أعجبني
11
6
مشاركة
تعليق
0/400
AirdropHunterWang
· منذ 16 س
التوكن لا يزال بلون أخضر يا صديق
شاهد النسخة الأصليةرد0
GasGuzzler
· 07-13 18:22
40w token...قوة الحوسبة要爆炸了吧
شاهد النسخة الأصليةرد0
BoredRiceBall
· 07-13 18:22
40w... اقتربنا أكثر قليلاً من البشرية
شاهد النسخة الأصليةرد0
digital_archaeologist
· 07-13 18:22
قوة الحوسبة警告!
شاهد النسخة الأصليةرد0
AltcoinOracle
· 07-13 18:18
من المثير كيف تتناسب تعقيد الخوارزمية مع 400000 رمز... اختراق واضح من أنماط الانتباه التقليدية بصراحة
تجاوز طول نص النموذج الكبير 400000 توكن ، وأصبح تكنولوجيا النصوص الطويلة مسارًا جديدًا في الذكاء الاصطناعي.
نقطة جديدة ساخنة في مسابقة النماذج الكبيرة: القفزة في طول النص من 4k إلى 400k token
تتطور تقنية النماذج الكبيرة بسرعة مذهلة، حيث ارتفعت قدرة معالجة النصوص من 4k توكن في البداية إلى 400k توكن، ويبدو أن القدرة على معالجة النصوص الطويلة أصبحت المعيار الجديد لمزودي النماذج الكبيرة.
في الجانب الخارجي، قامت OpenAI من خلال عدة ترقيات برفع طول السياق لـ GPT-3.5 و GPT-4 إلى 16,000 و 32,000 توكن على التوالي. بينما قامت منافستها Anthropic بتوسيع طول السياق دفعة واحدة إلى 100,000 توكن. وأيضًا، قامت LongLLaMA بتوسيع طول السياق إلى 256,000 توكن أو حتى أكثر.
فيما يتعلق بالجانب المحلي، أطلقت إحدى الشركات الناشئة منتج مساعد ذكي يدعم إدخال نصوص تصل إلى حوالي 400 ألف توكن. التقنية LongLoRA التي تم تطويرها بالتعاون بين جامعة هونغ كونغ الصينية ومعهد ماساتشوستس للتكنولوجيا، قادرة على توسيع طول النص لنموذج 7B إلى 100 ألف توكن، بينما يمكن توسيع نموذج 70B إلى 32 ألف توكن.
حالياً، تركز العديد من شركات النماذج الكبيرة الرائدة والمؤسسات البحثية في الداخل والخارج على توسيع طول السياق كأحد اتجاهات الترقية الرئيسية. معظم هذه الشركات هي شركات نجوم تحظى بتقدير سوق رأس المال، وبلغت مبالغ التمويل والتقييمات مستويات قياسية جديدة.
ماذا يعني تركيز شركات النماذج الكبرى على تقنية النصوص الطويلة؟ يبدو للوهلة الأولى أنه يتعلق بطول النص المدخل وزيادة القدرة على القراءة، من مقال قصير إلى رواية طويلة. لكن المعنى الأعمق يكمن في دفع النماذج الكبيرة نحو تطبيقاتها في مجالات متخصصة مثل المالية والعدالة والبحث العلمي، لتلبية احتياجات هذه المجالات في معالجة الوثائق الطويلة.
ومع ذلك، فإن طول النص ليس بالضرورة أفضل كلما زاد. أظهرت الأبحاث أن دعم النموذج لإدخال سياق أطول لا يعني بالضرورة تحسين الأداء، فالمفتاح يكمن في كيفية استفادة النموذج من محتوى السياق. ومع ذلك، لم تصل الصناعة بعد إلى الحد الأقصى لاستكشاف طول النص، فقد تكون 40 ألف توكن مجرد البداية.
تلقى تقنية النصوص الطويلة اهتمامًا لأنها يمكن أن تحل بعض المشكلات التي تواجه النماذج الكبيرة في المراحل المبكرة، مثل نسيان المعلومات المهمة في مشاهد الشخصيات الافتراضية، والقيود المفروضة على التحليل المتخصص. في الوقت نفسه، تعتبر النصوص الطويلة تقنية أساسية لدفع تطور تطبيقات الوكيل والذكاء الاصطناعي الأصلية في المستقبل.
يمكن للنصوص الطويلة من خلال توفير المزيد من السياق ومعلومات التفاصيل أن تساعد النموذج على فهم المعنى بشكل أكثر دقة، وتقليل الغموض، وزيادة دقة الاستدلال. هذه علامة على دخول النماذج الكبيرة من LLM إلى المرحلة الجديدة من Long LLM.
تظهر تقنية النص الطويل في التطبيقات العملية مزايا متعددة: يمكنها تحليل نقاط المقالات الطويلة بسرعة، واستخراج المعلومات الأساسية من التقارير المالية، وتنفيذ أسئلة وأجوبة حول كتاب كامل؛ في مجال البرمجة، يمكنها تحويل الأوراق البحثية مباشرة إلى كود؛ كما يمكن أن تحقق وظائف المحادثة الطويلة المخصصة مثل تمثيل الأدوار. تدفع هذه الوظائف روبوتات المحادثة نحو مزيد من التخصص والتخصيص والعمق.
ومع ذلك، تواجه تقنية النص الطويل معضلة "مثلث المستحيل": هناك قيود متبادلة بين طول النص والانتباه والقدرة الحاسوبية. كلما كان النص أطول، أصبح من الصعب التركيز على الانتباه، بينما يتطلب معالجة النصوص الطويلة مزيدًا من القدرة الحاسوبية. تنبع هذه المعاناة من هيكل Transformer الذي تتبناه معظم النماذج، حيث يتزايد حجم حساب آلية الانتباه الذاتي بشكل متسارع مع طول السياق.
حاليًا، هناك ثلاث حلول رئيسية: استخدام أدوات خارجية للمساعدة في المعالجة، تحسين حساب آلية الانتباه الذاتي، وتحسين النموذج نفسه. لكل خيار مزايا وعيوب، وكيفية العثور على أفضل نقطة توازن بين طول النص والانتباه وقوة الحوسبة هو التحدي الذي يواجهه مقدمو النماذج الكبيرة.
على الرغم من أن تقنية النصوص الطويلة لا تزال لديها مجال للتحسين، إلا أنها تمثل اتجاه تطور النماذج الكبيرة نحو مستويات أعلى، ومن المتوقع أن تدفع الذكاء الاصطناعي لتحقيق تطبيقات بارزة في المزيد من المجالات المتخصصة.