Cloudflare เชื่อมต่อ Kimi K2.5 ใช้งาน 7 พันล้าน token ต่อวัน ลดต้นทุนการตรวจสอบความปลอดภัย 77%

動區BlockTempo

แพลตฟอร์ม Workers AI ของ Cloudflare ได้เชื่อมต่อกับ Kimi K2.5 ของ Moonshot AI อย่างเป็นทางการ โดยรองรับบริบท 256K การเรียกใช้เครื่องมือหลายรอบ และการป้อนข้อมูลภาพ การตรวจสอบความปลอดภัยภายในของ Cloudflare ซึ่งเป็นเอเจนต์ จะประมวลผล token มากกว่า 7 พันล้านต่อวัน หลังจากเปลี่ยนมาใช้ต้นทุนลดลง 77% เมื่อเทียบกับโมเดลเชิงพาณิชย์ระดับกลาง
(เรื่องราวก่อนหน้า: Cursor ใช้ Kimi K2.5 ในการฝึกโมเดล แต่ไม่ได้แจ้งให้ทราบ นักพัฒนาจับแพ็กเกจ ลบคำแนะนำ และบันทึกการเปลี่ยนแปลงอย่างเร่งด่วน)
(ข้อมูลเพิ่มเติม: Cloudflare เปิดตัว API สำหรับการเก็บรวบรวมข้อมูลเว็บไซต์แบบครบวงจร ซึ่งรองรับ RAG การอัปเดตแบบเพิ่มขึ้น และการฝึกโมเดลอย่างสมบูรณ์แบบ เพื่อป้องกันบอทเก็บข้อมูล)

สารบัญบทความ

Toggle

  • เอเจนต์ความปลอดภัยที่ประมวลผล token มากกว่า 7 พันล้านต่อวัน
  • Cloudflare เปิดตัวการปรับปรุง 3 รายการ
  • เอนจินการวิเคราะห์ขั้นพื้นฐาน: Infire เสริมพลัง ไม่ใช่การใช้เฟรมเวิร์กสำเร็จรูป

แพลตฟอร์ม Workers AI ของ Cloudflare ได้ทำสิ่งสำคัญอย่างเงียบ ๆ ตามบล็อกของทางบริษัท ซึ่งได้ตั้งค่า Kimi K2.5 ของ Moonshot AI เป็นโมเดลเริ่มต้นสำหรับ SDK ของ Agents เป็นค่าเริ่มต้นเอง นักวิศวกรของ Cloudflare ก็ใช้งานมันในการทำงานด้านการตรวจสอบความปลอดภัยจริง ๆ และยังประหยัดงบประมาณได้มากอีกด้วย

Kimi K2.5 เป็นหนึ่งในโมเดลไม่กี่รุ่นในชุมชนโอเพนซอร์สที่รองรับ “มาตรฐานล้ำหน้า” ซึ่งรองรับบริบท 256K การเรียกใช้เครื่องมือหลายรอบ (multi-turn tool calling) การป้อนข้อมูลภาพ และการส่งออกแบบมีโครงสร้าง สำหรับงานเอเจนต์ที่ต้องใช้การวิเคราะห์ข้อความยาว ๆ ตัวเลขเหล่านี้ถือว่าสำคัญและใช้งานได้จริง

เอเจนต์ความปลอดภัยที่ประมวลผล token มากกว่า 7 พันล้านต่อวัน

นักวิศวกรของ Cloudflare ใช้ Kimi K2.5 เป็นหลักในสภาพแวดล้อม OpenCode สำหรับงานด้านการเขียนโปรแกรม และยังได้เปิดตัวเอเจนต์ตรวจสอบโค้ดแบบสาธาราชื่อ “Bonk” ซึ่งเชื่อมต่อกับสายงานอัตโนมัติ

ที่น่าประทับใจยิ่งกว่าคือในสถานการณ์การตรวจสอบความปลอดภัยภายใน เอเจนต์นี้จะประมวลผล token มากกว่า 7 พันล้านต่อวัน หากใช้โมเดลเชิงพาณิชย์ระดับมาตรฐานสำหรับงานเดียวกัน ค่าใช้จ่ายต่อปีจะอยู่ที่ประมาณ 2.4 ล้านดอลลาร์สหรัฐ แต่เมื่อเปลี่ยนมาใช้ Kimi K2.5 ค่าใช้จ่ายลดลงถึง 77% ประหยัดได้เกือบ 1.85 ล้านดอลลาร์สหรัฐ

ตัวเลขนี้ไม่ได้เป็นการโฆษณา แต่เป็นข้อมูลที่นักวิศวกรของ Cloudflare เปิดเผยโดยตรงในบล็อกของบริษัท

Cloudflare เปิดตัวการปรับปรุง 3 รายการ

แค่เปลี่ยนโมเดลอย่างเดียวไม่พอ Cloudflare ยังเปิดตัวการปรับปรุงระดับแพลตฟอร์มอีก 3 รายการ เพื่อแก้ปัญหาด้านต้นทุนและประสิทธิภาพในสถานการณ์การสนทนายาวของเอเจนต์:

  • ส่วนลดแคชคำหน้า (Prefix Caching): token ที่เคยถูกประมวลผลในบทสนทนาหลายรอบแล้ว จะไม่ถูกคิดค่าบริการซ้ำอีก และ token ที่ถูกแคชไว้จะได้รับส่วนลด เมื่อใช้งานในภายหลัง การใช้งานระยะยาวจะช่วยประหยัดค่าใช้จ่ายได้มาก
  • หัวข้อความสัมพันธ์เซสชัน (Session Affinity Header): เพิ่มหัวข้อคำขอ x-session-affinity เพื่อให้คำขอในเซสชันเดียวกันถูกส่งไปยังโมเดลเดียวกัน ทำให้การแคชทำงานได้ดีขึ้น OpenCode และ SDK ของ Agents ก็รองรับอยู่แล้ว
  • API การวิเคราะห์แบบเป็นกลุ่มแบบอะซิงโครนัส (Asynchronous Batch Inference API): คำขอที่เกินขีดจำกัดความเร็วแบบซิงโครนัส สามารถถูกคิวแบบอะซิงโครนัสให้ทำงานทีหลังได้ การทดสอบภายในมักเสร็จภายใน 5 นาที เหมาะสำหรับงานสแกนโค้ด งานวิจัย หรือภารกิจของเอเจนต์ที่ไม่ต้องการการตอบสนองทันที

เอนจินการวิเคราะห์ขั้นพื้นฐาน: Infire เสริมพลัง ไม่ใช่การใช้เฟรมเวิร์กสำเร็จรูป

Cloudflare ไม่ได้ใช้เฟรมเวิร์กการวิเคราะห์สำเร็จรูป แต่พัฒนาขึ้นเองด้วยเอนจิน Infire ซึ่งเป็นแกนหลักที่ปรับแต่งเอง โดยใช้การประมวลผลแบบขนานข้อมูล (data parallelism) การประมวลผลแบบเทนเซอร์ (tensor parallelism) และการกระจายความเชี่ยวชาญ (expert parallelism) ควบคู่กับโครงสร้างการจัดการคำหน้าแบบแยกส่วน

ปัจจุบัน Kimi K2.5 เป็นกรณีแรกของการใช้งานโมเดลขนาดใหญ่บน Workers AI ซึ่งแสดงให้เห็นถึงความทะเยอทะยานของ Cloudflare ในด้านโครงสร้างพื้นฐาน AI ที่สามารถใช้งานร่วมกับแพลตฟอร์มเครือข่าย และยังคุ้มค่าอีกด้วย

ดูต้นฉบับ
news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น