広場
最新
注目
ニュース
プロフィール
ポスト
KyleChassé
2026-04-16 15:02:27
フォロー
🚨 ANTHROPICはCLAUDE OPUS 4.7で新たなベースラインを設定
これはエージェンティック性能の測定可能な前進です。
SWEベンチマークで64.3%、以前の53.4%から向上
検証済みエージェンティックコーディングで87.6%
スケールされたツール使用で77.3%
実世界のコンピュータタスクで78.0%
また、モデルが通常劣化しやすい分野も改善:
エージェンティックサーチで79.3%
金融分析で64.4%
多言語Q&Aで91.5%
そして重要なことに、長文コンテキストの推論も維持:
ツールを使った視覚推論で90%以上
大学院レベルのベンチマークで94.2%
ここがポイント:
これは最高スコアの話ではありません。
分野全体での一貫性の話です。
Opus 4.7はすべてのカテゴリーを支配しているわけではありません。
しかし、すべての分野で信頼性の高いパフォーマンスを発揮します。
それが実運用システムに求められるものです。
フロンティアはもはや単なる知能だけではありません。
実際の負荷下での安定性です。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
1 いいね
報酬
1
コメント
リポスト
共有
コメント
コメントを追加
コメントを追加
コメント
コメントなし
人気の話題
もっと見る
#
GatePreIPOsLaunchesWithSpaceX
158.28K 人気度
#
Gate13thAnniversaryLive
346.44K 人気度
#
IsraelStrikesIranBTCPlunges
29.97K 人気度
#
US-IranTalksVSTroopBuildup
777.58K 人気度
#
CryptoMarketRecovery
98.45K 人気度
ピン
サイトマップ
🚨 ANTHROPICはCLAUDE OPUS 4.7で新たなベースラインを設定
これはエージェンティック性能の測定可能な前進です。
SWEベンチマークで64.3%、以前の53.4%から向上
検証済みエージェンティックコーディングで87.6%
スケールされたツール使用で77.3%
実世界のコンピュータタスクで78.0%
また、モデルが通常劣化しやすい分野も改善:
エージェンティックサーチで79.3%
金融分析で64.4%
多言語Q&Aで91.5%
そして重要なことに、長文コンテキストの推論も維持:
ツールを使った視覚推論で90%以上
大学院レベルのベンチマークで94.2%
ここがポイント:
これは最高スコアの話ではありません。
分野全体での一貫性の話です。
Opus 4.7はすべてのカテゴリーを支配しているわけではありません。
しかし、すべての分野で信頼性の高いパフォーマンスを発揮します。
それが実運用システムに求められるものです。
フロンティアはもはや単なる知能だけではありません。
実際の負荷下での安定性です。