จากการตรวจสอบของ 1M AI News SWE-rebench เป็นการทดสอบมาตรฐานแบบเรียลไทม์ที่ดึงข้อมูลงานด้านซอฟต์แวร์ใหม่จาก GitHub ทุกเดือน (issue + PR) โดยโมเดลไม่สามารถปรับแต่งล่วงหน้าตามโจทย์ได้ ผู้ดูแล Ibragim ได้ประกาศอัปเดตรายชื่อเมื่อวันที่ 23 มีนาคม โดยยกเลิกการสาธิตตัวอย่างและข้อจำกัดการดำเนินการ 80 ขั้นตอน พร้อมเพิ่มภารกิจประเมินผลเสริมเข้าไป
อันดับสิบแรกล่าสุด:
โมเดลโอเพ่นซอร์สของ Z.ai จาก Zhizhi Pu AI คือ GLM-5 (ภายใต้สัญญา MIT) ซึ่งมีคะแนน 62.8% คว้าอันดับที่สาม เป็นโมเดลโอเพ่นซอร์สที่สูงที่สุดในรายการจีนโมเดลในสิบอันดับแรก นอกจาก GLM-5 แล้ว ยังมี DeepSeek-V3.2 (อันดับที่ 6), Qwen3.5-397B-A17B (อันดับที่ 9) และ Step-3.5-Flash (อันดับที่ 10) ซึ่งเป็นโมเดลจีนที่ติดอันดับด้วย ลี จื่อซวน หัวหน้าฝ่ายทั่วโลกของ Zhizhi Pu Z.ai กล่าวว่าครั้งล่าสุดที่อัปเดต SWE-rebench โมเดลจีนทั้งหมดอยู่นอกสิบอันดับแรก ซึ่งถูกวิจารณ์ว่าเป็นการ “benchmaxing” (การรีดคะแนน)