半年以上が経過しましたが、ChatGPT のランキングはほぼ最下位にあります。

著者: 三安テクノロジー

今日、偶然一枚の写真を見つけました。

画像によると、OpenAI の GPT-4 は 11 個の大きなモデルの中で最下位にランクされています (最初のモデルには 0 が付けられています)。一部のネチズンは「GPT4: 自分の不満についてどうやって文句を言えますか?」という言葉を付け加えた。

今年の初め、ChatGPT が普及した後、他社も大型モデルの概念について言及し始めました。

まだ半年以上しか経っていないのに、GPTはすでに「最下位」?

そこで筆者はGPTランキングがどのようなものか見てみたかった。

テスト時間は異なります テストチームは異なります GPT-4 は 11 位

前回の記事の画像に表示されている情報から判断すると、このランキングはCリストからのものです。

C-List は、C-Global Large Model Comprehensive Exam Test List の正式名で、清華大学、上海交通大学、エディンバラ大学が共同で構築した中国語モデル総合試験評価スイートです。

このスイートは、人文科学、社会科学、科学と工学、および微積分や線形代数などの複数の知識分野をカバーする 52 科目を含むその他の専攻の 4 つの主要な方向をカバーしていると報告されています。中国語の知識と推論の問題は合計 13,948 問あり、難易度は中学、学部、大学院、専門の 4 つの試験レベルに分かれています。

そこで筆者は最新のC-listをチェックした。

C リストの最新のランキングは、前の図で示したランキングと一致しており、上位 11 の大型モデルの中で、GPT-4 は最下位にランクされています。

C リストによると、これらの結果はゼロショット (ゼロショット学習) または少数ショット (少数ショット学習) テストを表しますが、少数ショットの方が必ずしもゼロショットより優れているわけではありません。

C- 社は、テストで、命令の微調整後の多くのモデルがゼロショットの方が優れていることが判明したと述べました。テストしたモデルの多くは、ゼロショットと少数ショットの両方の結果を示しており、ランキングでは全体の平均スコアがより優れた設定が示されています。

C リストには、大きなモデルの名前に「*」が付いている場合、そのモデルの結果が C チームによってテストされたことを示し、他の結果はユーザーの提出によって取得されたことも示されています。

さらに、著者は、これらの大規模モデルのテスト結果の提出にかかる時間が大きく異なることにも気づきました。

GPT-4のテスト結果提出時期は5月15日で、1位のYuntianshuは8月31日、2位のGalaxyは8月23日、3位のYaYiは8月31日に結果を提出する。 9月4日のこと。

さらに、上位 16 の大型モデルの中で、名前に「*」が追加されているのは GPT-4 だけであり、C チームによってテストされました。

そこで著者は完全な C リストを再度確認しました。

最新のCリストには、合計66の大型モデルのランキングが含まれています。

このうち、名前に「*」が含まれるのは 11 個のみで、C チームによってテストされており、テストの提出時期は 5 月 15 日でした。

C チームがテストしたこれらの大規模モデルでは、OpenAI の GPT-4 が 11 位、ChatGPT が 36 位、Tsinghua Zhipu AI の ChatGLM-6B が 60 位、Fudan の MOSS が 6 位にランクされました。

これらのランキングは国産大型モデルの開発の勢いを示しているが、結局のところ同じチームが同時にテストしたものではなく、誰が強いのか誰が弱いのかを十分に証明するには不十分だと筆者は考えている。この大きなモデルたち。

これは、それぞれ異なるテスト時間があり、異なるレポートに回答する生徒のクラスに似ています。各生徒のスコアを信頼して比較するにはどうすればよいでしょうか?

**大手モデル開発者は何と言っていますか? **中国語やその他の能力でChatGPTを超えたと多くの人が言っています

最近、大型模型界が非常に活発です。

また、Baidu、Byteなど8社の大型モデル製品は「生成型人工知能サービス管理暫定措置」の登録を通過し、オンラインで正式にサービスを開始して一般向けにサービスを提供できるようになった。他社からも大型モデルの自社製品が続々と発売されている。

では、これらの大型モデルの開発者はどのように製品を導入しているのでしょうか?

7月7日、2023年世界人工知能会議「ビッグモデル時代における汎用人工知能産業の発展の機会とリスク」フォーラムで、復旦大学コンピューター科学技術学部教授であり、 MOSS システムは、Fudan の会話型大規模言語モデル MOSS が今年 2 月にリリースされて以来、「最新の MOSS は中国語の機能で ChatGPT を超えることができた」と繰り返し述べています。

7 月末、NetEase Youdao は大規模な翻訳モデルを開始し、NetEase Youdao の CEO である Zhou Feng 氏は、社内テストで中国語と英語の翻訳において、ChatGPT の翻訳能力を上回り、Google 翻訳のレベルを超えたと公に述べました。 **

8月下旬、2023年Yabuliフォーラムサマーサミットで、iFlytekの創設者兼会長であるLiu Qingfeng氏は講演し、「iFlytek Sparkモデルのコード生成および完成機能はChatGPTを超えており、この機能は現在のコード機能に対応するロジック、アルゴリズム、メソッド システム、およびデータの準備は完了しており、必要なのは時間と計算能力だけです。」

SenseTime は最近のプレスリリースで、今年 8 月に新しいモデル internlm-123b がトレーニングを完了し、パラメーターの数が 1,230 億に増加したと述べました。 **合計 300,000 の質問を含む世界的な 51 の有名な評価セットにおいて、全体的なテスト結果は、gpt-3.5-turbo や Meta Company が新たにリリースした llama2-70b などのモデルを上回り、世界第 2 位にランクされました。 **

Shantang 氏によると、**internlm-123 は 12 の主要な評価で 1 位にランクされました。このうち、評価セットの総合テストにおけるagiスコアは57.8でgpt-4を上回り1位、**知識常識qaの評価スコアは88.5で1位、internlm-123bは5つの読解評価のスコアすべてリストの一番上にあります。

また推理の5つの評価でも1位となった。

今月初め、Zuoyebang は自社開発の Galaxy モデルを正式にリリースしました。

Zuoyebang 氏は、Galaxy モデルは、C と CMMLU という 2 つの権威ある大規模言語モデル評価ベンチマークで結果を達成したと述べました。データによると、Zuoyebang Galaxy Big Model は平均スコア 73.7 ポイントで C- で 1 位にランクされ、同時に CMMLU リストにもランクされています ファイブショット評価とゼロショット評価でそれぞれ平均スコア 74.03 ポイントと 73.85 ポイントまず、上記の 2 つの権威あるリストで平均スコアで 1 位にランクされた最初の主要な教育モデルとなりました。

昨日、Baichuan Intelligent は、公式のオープンソースで微調整された Baichuan 2-7B、Baichuan 2-13B、Baichuan 2-13B-Chat およびそれらの 4 ビット量子化バージョンを発表しました。

Baichuan Intelligence の創設者兼 CEO である Wang Xiaochuan 氏は、中国分野において、Q&A 環境や要約環境における微調整された Chat モデルの実際のパフォーマンスは、ChatGPT-3.5 などのクローズドソース モデルのパフォーマンスを上回っていると述べました。 **

本日、2023 Tencent Global Digital Ecology Conferenceで、TencentはHunyuan大型モデルを正式にリリースしました。 Tencent Group の副社長 Jiang Jie 氏は、**Tencent Hunyuan 大型モデルの中国語機能は GPT-3.5 を超えていると述べました。 **

これら開発者の自己紹介に加え、一部のメディアやチームによる大型モデルの評価も行われた。

8月初旬、清華大学ジャーナリズム・コミュニケーション学部の教授兼博士指導教員である沈洋氏のチームは、「大規模言語モデルの総合パフォーマンス評価報告書」を発表した。報告書によると、**Baidu Wenxinyiyan の 3 つの主要な側面における 20 の指標における総合スコアは全国をリードしており、ChatGPT よりも優れており、その中で中国語の意味理解が上位にランクされており、一部の中国語能力は GPT-4 よりも優れています。 **

8月中旬、一部のメディアは、8月11日にXiaomiの大型モデルMiLM-6BがC-およびCMMLUの大型モデル評価リストに掲載されたと報じた。現時点で、MiLM-6B は C 総合リストで 10 位、同じパラメータの大きさで 1 位、CMMLU 中国の大型モデルで 1 位にランクされています。

8月12日、天津大学は「大型モデル評価報告書」を発表した。このレポートは、**GPT-4 と Baidu Wenxinyiyan の総合的なパフォーマンスが他のモデルよりも大幅に優れており、スコアに大きな違いはなく、同じレベルであることを示しています。 Wen Xinyiyan は、ほとんどの中国タスクで ChatGPT を上回り、GPT-4 との差を徐々に縮めました。 **

8月下旬、一部メディアはKuaishouが自社開発した大規模言語モデル「KwaiYii」の内部テストが開始されたと報じた。最新のCMMLUの中国向けランキングでは、KwaiYiの13B版であるKwaiYii-13Bが5打点、0打点ともに1位となり、人文科学や中国特有のトピックなどに強く、平均スコアは1点以上でした。 61点。

上記のことから、これらの大規模モデルは、特定のランキングのトップにある、または特定の側面で ChatGPT を上回っていると主張していますが、そのほとんどが特定の分野で優れたパフォーマンスを発揮していることがわかります。

さらに、一部の総合スコアは GPT-3.5 または GPT-4 を超えていますが、GPT テストは 5 月に中止されました。過去 3 か月間 GPT が改善していないと誰が保証できますか?

OpenAIの状況

UBS Groupの2月のレポートによると、ChatGPTの立ち上げからわずか2か月後、2023年1月末時点で月間アクティブユーザー数は1億人を超え、史上最も急速に成長している消費者向けアプリケーションとなった。

しかし、ChatGPTの開発はそれほど順調ではありません。

今年 7 月、多くの GPT-4 ユーザーが、以前の推論機能と比較して GPT-4 のパフォーマンスが低下したと不満を述べました。

一部のユーザーは、Twitter や OpenAI オンライン開発者フォーラムで問題を指摘し、ロジックが弱い、不正確な回答が多い、提供された情報を追跡できない、指示に従うのが難しい、基本的なソフトウェア コードに括弧を追加するのを忘れる、コードを覚えているだけである、などに焦点を当てました。最近のヒントなど。

8月には、OpenAiが潜在的な財政危機に陥り、2024年末までに破産する可能性があるとの別の報告書が発表された。

報告書では、OpenAI の人工知能サービス ChatGPT を実行するだけで 1 日あたり約 70 万米ドルの費用がかかると述べています。現在、同社は GPT-3.5 と GPT-4 で利益を上げようとしていますが、まだ損益分岐点に達するほどの収益を生み出していません。

ただし、OpenAI には新たなチャンスがある可能性もあります。

最近、OpenAI は 11 月に初の開発者カンファレンスを開催すると発表しました。

OpenAIはGPT-5をリリースしないと述べたが、世界中の何百人もの開発者がOpenAIチームと協力して「新しいツール」を事前にプレビューし、アイデアを交換するつもりだと述べた。

これは、ChatGPT が新たな進歩を遂げたことを意味しているのかもしれません。

同紙によると、8月30日、関係者が明らかにしたところによると、OpenAIはAIソフトウェアとその運営を推進するコンピューティングパワーの販売により、今後12カ月で10億ドル以上の収益を達成する見込みだという。

本日、別のメディア報道によると、モルガン・スタンレーがOpenAIと共同開発した生成型人工知能チャットボットを今月下旬に発売する予定だという。

モルガン・スタンレーで銀行家と取引する人は金持ちか裕福かのどちらかだ。この今後の生成型人工知能チャットボットがモルガン・スタンレーの顧客に異なるエクスペリエンスをもたらすことができれば、OpenAI にとっては大きな利益となるかもしれません。

人工知能時代の到来は止められないものになっています。どちらが優れているかについては、自分自身で判断するだけではなく、ユーザーに評価してもらう必要があります。また、国内の大型モデルは、具体的な機能や総合的な機能の点で、必ず ChatGPT に追いつくと考えています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)