โมเดลจีนครั้งที่แล้วตกมาจากการทดสอบ SWE-rebench ในสิบอันดับแรกและถูกเข่นว่า "ปลอมคะแนน" คราวนี้ยึดตำแหน่งสี่อันดับ

BlockBeatNews

จากการตรวจสอบของ 1M AI News SWE-rebench เป็นการทดสอบมาตรฐานแบบเรียลไทม์ที่ดึงข้อมูลงานด้านซอฟต์แวร์ใหม่จาก GitHub ทุกเดือน (issue + PR) โดยโมเดลไม่สามารถปรับแต่งล่วงหน้าตามโจทย์ได้ ผู้ดูแล Ibragim ได้ประกาศอัปเดตรายชื่อเมื่อวันที่ 23 มีนาคม โดยยกเลิกการสาธิตตัวอย่างและข้อจำกัดการดำเนินการ 80 ขั้นตอน พร้อมเพิ่มภารกิจประเมินผลเสริมเข้าไป

อันดับสิบแรกล่าสุด:

  1. Claude Opus 4.6: 65.3%
  2. GPT-5.2 medium: 64.4%
  3. GLM-5: 62.8%
  4. GPT-5.4 medium: 62.8%
  5. Gemini 3.1 Pro Preview: 62.3%
  6. DeepSeek-V3.2: 60.9%
  7. Claude Sonnet 4.6: 60.7%
  8. Claude Sonnet 4.5: 60.0%
  9. Qwen3.5-397B-A17B: 59.9%
  10. Step-3.5-Flash: 59.6%

โมเดลโอเพ่นซอร์สของ Z.ai จาก Zhizhi Pu AI คือ GLM-5 (ภายใต้สัญญา MIT) ซึ่งมีคะแนน 62.8% คว้าอันดับที่สาม เป็นโมเดลโอเพ่นซอร์สที่สูงที่สุดในรายการจีนโมเดลในสิบอันดับแรก นอกจาก GLM-5 แล้ว ยังมี DeepSeek-V3.2 (อันดับที่ 6), Qwen3.5-397B-A17B (อันดับที่ 9) และ Step-3.5-Flash (อันดับที่ 10) ซึ่งเป็นโมเดลจีนที่ติดอันดับด้วย ลี จื่อซวน หัวหน้าฝ่ายทั่วโลกของ Zhizhi Pu Z.ai กล่าวว่าครั้งล่าสุดที่อัปเดต SWE-rebench โมเดลจีนทั้งหมดอยู่นอกสิบอันดับแรก ซึ่งถูกวิจารณ์ว่าเป็นการ “benchmaxing” (การรีดคะแนน)

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น