# 大規模モデルコンペティションの新たなホットトピック: テキスト長が4千から40万tokenへの飛躍大規模モデル技術は驚くべき速度で発展しており、テキスト処理能力は最初の4千tokenから40万tokenに跳躍し、長文能力は大規模モデルメーカーの新しい標準となっているようです。海外では、OpenAIが複数回のアップグレードを通じて、GPT-3.5とGPT-4のコンテキスト長をそれぞれ1.6万tokenと3.2万tokenに引き上げました。競合他社のAnthropicは一気にコンテキスト長を10万tokenに拡張しました。LongLLaMAはさらにコンテキスト長を25.6万token以上に拡張しました。国内方面、あるスタートアップが発売したスマートアシスタント製品は、約40万tokenのテキスト入力をサポートしています。香港中文大学とMITが共同開発したLongLoRA技術は、7Bモデルのテキストの長さを10万tokenに拡張し、70Bモデルを3.2万tokenに拡張します。現在、国内外の多くのトップモデル企業や研究機関が文脈の長さの拡張を重点的なアップグレードの方向性としている。これらの企業はほとんどが資本市場に支持されるスター企業であり、資金調達額や評価額はたびたび新高値を更新している。大規模モデル企業が長文技術に焦点を当てることは何を意味するのか?表面的には、入力テキストの長さと読解能力の向上を示しており、短編から長編小説への移行を意味する。しかし、より深い意味は、金融、司法、研究などの専門分野における大規模モデルの実用化を推進し、これらの分野における長文書処理のニーズを満たすことである。しかし、テキストの長さが長ければ長いほど良いというわけではありません。研究によれば、モデルがより長いコンテキスト入力をサポートすることと効果の向上が直接的に等号を結ぶわけではなく、重要なのはモデルがコンテキストの内容をどのように活用するかです。しかし、現在の業界におけるテキストの長さの探求はまだ限界に達しておらず、40万tokenはおそらく始まりに過ぎません。長文技術が注目される理由は、それが大規模モデルの初期におけるいくつかの問題、例えば仮想キャラクターシーンにおける重要な情報の忘却や専門分野の分析生成の制限などを解決できるからです。また、長文は未来のエージェントとAIネイティブアプリケーションの発展を推進するための重要な技術でもあります。長文は、より多くの文脈や詳細情報を提供することによって、モデルが意味をより正確に理解し、曖昧さを減少させ、推論の正確性を向上させるのに役立ちます。これは、大規模モデルがLLMからLong LLMへの新しい段階に入ったことを示しています。長文技術は実際のアプリケーションで多方面の利点を示しています: 長い記事の要点を迅速に分析し、財務報告の重要情報を抽出し、書籍全体の質問応答を実現します; コードに関しては、論文を直接コードに変換できます; また、ロールプレイなどのパーソナライズされた長い対話機能を実現できます。これらの機能は、対話型ロボットをより専門的、個別化、深く発展させる方向に推進します。しかし、長いテキストの技術は「不可能の三角形」というジレンマに直面しています:テキストの長さ、注意力、計算能力の間には相互の制約があります。テキストが長くなるほど注意を集中させることが難しくなり、長いテキストを処理するにはより多くの計算能力が必要です。このジレンマは、ほとんどのモデルが採用しているTransformer構造に起因しており、その自己注意メカニズムの計算量は文脈の長さに対して平方級に増加します。現在、主に3つの解決策があります: 外部ツールを利用して処理を補助する、自己注意機構の計算を最適化する、モデル自体を最適化する。各方案にはそれぞれ利点と欠点があり、テキストの長さ、注意力、計算能力の間で最適なバランスを見つけることが、大規模モデルのメーカーが直面している課題です。長文テクノロジーにはまだ最適化の余地がありますが、それは大きなモデルがより高いレベルに発展する傾向を示しており、AIがより多くの専門分野で画期的な応用を実現することが期待されています。
大規模モデルのテキスト長が40万トークンを突破し、長文技術がAIの新たな競技場となる
大規模モデルコンペティションの新たなホットトピック: テキスト長が4千から40万tokenへの飛躍
大規模モデル技術は驚くべき速度で発展しており、テキスト処理能力は最初の4千tokenから40万tokenに跳躍し、長文能力は大規模モデルメーカーの新しい標準となっているようです。
海外では、OpenAIが複数回のアップグレードを通じて、GPT-3.5とGPT-4のコンテキスト長をそれぞれ1.6万tokenと3.2万tokenに引き上げました。競合他社のAnthropicは一気にコンテキスト長を10万tokenに拡張しました。LongLLaMAはさらにコンテキスト長を25.6万token以上に拡張しました。
国内方面、あるスタートアップが発売したスマートアシスタント製品は、約40万tokenのテキスト入力をサポートしています。香港中文大学とMITが共同開発したLongLoRA技術は、7Bモデルのテキストの長さを10万tokenに拡張し、70Bモデルを3.2万tokenに拡張します。
現在、国内外の多くのトップモデル企業や研究機関が文脈の長さの拡張を重点的なアップグレードの方向性としている。これらの企業はほとんどが資本市場に支持されるスター企業であり、資金調達額や評価額はたびたび新高値を更新している。
大規模モデル企業が長文技術に焦点を当てることは何を意味するのか?表面的には、入力テキストの長さと読解能力の向上を示しており、短編から長編小説への移行を意味する。しかし、より深い意味は、金融、司法、研究などの専門分野における大規模モデルの実用化を推進し、これらの分野における長文書処理のニーズを満たすことである。
しかし、テキストの長さが長ければ長いほど良いというわけではありません。研究によれば、モデルがより長いコンテキスト入力をサポートすることと効果の向上が直接的に等号を結ぶわけではなく、重要なのはモデルがコンテキストの内容をどのように活用するかです。しかし、現在の業界におけるテキストの長さの探求はまだ限界に達しておらず、40万tokenはおそらく始まりに過ぎません。
長文技術が注目される理由は、それが大規模モデルの初期におけるいくつかの問題、例えば仮想キャラクターシーンにおける重要な情報の忘却や専門分野の分析生成の制限などを解決できるからです。また、長文は未来のエージェントとAIネイティブアプリケーションの発展を推進するための重要な技術でもあります。
長文は、より多くの文脈や詳細情報を提供することによって、モデルが意味をより正確に理解し、曖昧さを減少させ、推論の正確性を向上させるのに役立ちます。これは、大規模モデルがLLMからLong LLMへの新しい段階に入ったことを示しています。
長文技術は実際のアプリケーションで多方面の利点を示しています: 長い記事の要点を迅速に分析し、財務報告の重要情報を抽出し、書籍全体の質問応答を実現します; コードに関しては、論文を直接コードに変換できます; また、ロールプレイなどのパーソナライズされた長い対話機能を実現できます。これらの機能は、対話型ロボットをより専門的、個別化、深く発展させる方向に推進します。
しかし、長いテキストの技術は「不可能の三角形」というジレンマに直面しています:テキストの長さ、注意力、計算能力の間には相互の制約があります。テキストが長くなるほど注意を集中させることが難しくなり、長いテキストを処理するにはより多くの計算能力が必要です。このジレンマは、ほとんどのモデルが採用しているTransformer構造に起因しており、その自己注意メカニズムの計算量は文脈の長さに対して平方級に増加します。
現在、主に3つの解決策があります: 外部ツールを利用して処理を補助する、自己注意機構の計算を最適化する、モデル自体を最適化する。各方案にはそれぞれ利点と欠点があり、テキストの長さ、注意力、計算能力の間で最適なバランスを見つけることが、大規模モデルのメーカーが直面している課題です。
長文テクノロジーにはまだ最適化の余地がありますが、それは大きなモデルがより高いレベルに発展する傾向を示しており、AIがより多くの専門分野で画期的な応用を実現することが期待されています。