Startup AI Amerika Arcee merilis model open source untuk penalaran Trinity-Large-Thinking. Model ini meraih skor 91,9 pada tolok ukur kemampuan Agent PinchBench, hanya kalah dari Opus 4.6 yang meraih 93,3, dan pada tolok ukur tugas Tau2-Airline Agent justru mengungguli semua model pembanding dengan skor tertinggi 88,0. Model menggunakan arsitektur sparse mixture of experts (MoE) dengan ukuran 400B, harga API adalah $0,90 per juta token keluaran, sekitar 96% lebih murah dibanding Opus 4.6, serta bobot dibuka untuk diunduh dengan lisensi Apache 2.0. Diolah dari laporan oleh Dongqu Dongqu.
(Latar belakang: Analisis OpenRouter atas laporan riset 100 triliun token: apa sebenarnya yang dilakukan manusia dengan AI, kebangkitan model dari Tiongkok, dan rahasia retensi pengguna)
(Tambahan konteks: Claude Opus 4.6 hadir: menulis kompiler sendiri, membuat PPT, dan dengan santai menggali 500 celah zero-day—pekerjaanmu pun ingin dicobanya).
Startup AI Amerika Arcee, yang jumlah karyawannya kurang dari seratus, menyerahkan skor yang ketat mengejar model andalan Anthropic dalam penilaian kemampuan Agent, dan harganya hanya 4% dari harga model tersebut.
Arcee sebelumnya tidak termasuk fokus perhatian arus utama, tetapi Trinity-Large-Thinking terbaru mereka sudah berhasil masuk jajaran teratas pada berbagai tolok ukur skenario Agent.
PinchBench yang dikembangkan oleh Kilo adalah indikator penting di industri saat ini untuk mengukur kemampuan praktik model dalam workflow kerja Agent; Trinity-Large-Thinking meraih 91,9 pada pengujian ini, sedangkan pemimpin saat ini Opus 4.6 meraih 93,3, dengan selisih hanya 1,4%.
Pada tolok ukur Tau2-Airline yang mensimulasikan skenario layanan pelanggan nyata, ia juga meraih skor 88,0. Ini lebih tinggi daripada semua model yang ikut dibandingkan. Artinya, pada tugas Agent aktual yang memerlukan percakapan multi-putaran dan pencarian alat secara berulang, model open source ini memang memiliki standar yang sangat tinggi.
Sementara harga API Arcee adalah $0,90 per juta token keluaran, pihak resmi menyebut bahwa ini sekitar 96% lebih murah dibanding Opus 4.6. Untuk skenario aplikasi yang perlu membuat Agent mengeksekusi otomatis dalam waktu lama dan terus menghabiskan token, selisih biaya mungkin lebih bermakna daripada selisih skor model.
Menurut blog resmi Arcee AI, kunci untuk nilai CP seperti ini ada pada pilihan arsitektur. Trinity-Large-Thinking menggunakan desain sparse MoE (mixture of experts); di dalamnya terdapat 256 modul pakar (expert), tetapi setiap kali memproses token, hanya 4 di antaranya yang akan diaktifkan. Jika dikonversi, meski model besar bernilai 400B, pada praktik inferensi sebenarnya hanya membutuhkan beban komputasi setara 13B; efisiensi eksekusi kira-kira 2–3 kali lipat dibanding model dense dalam skala yang sama.
Dibandingkan pendahulunya Preview yang dirilis pada akhir Januari tahun ini, peningkatan terbesar adalah penambahan reasoning chain saat inferensi.
Preview hanya melakukan fine-tuning instruksi; versi Thinking ini akan “memikirkan dulu” sebelum menjawab. Stabilitas pada pemanggilan alat multi-putaran serta konsistensi konteks panjang juga meningkat secara jelas. Arcee sendiri mengatakannya dengan sangat gamblang: model ini dirancang agar tidak mudah ambruk saat menjalankan putaran Agent dalam waktu lama.
Model dasar menghabiskan $20 juta untuk pelatihan dan selesai dalam 33 hari; untuk versi Thinking, pelatihan lanjutan memakan waktu 9 bulan untuk penyempurnaan.
CEO Arcee Lucas Atkins menulis dalam postingan rilisnya: “Getting here took difficult technical work, hard calls…Nobody did that. They kept pushing.”
Tentu saja, fokus pada Agent juga berarti ada kompromi. Pada tolok ukur penalaran umum, skor Trinity-Large-Thinking tidak begitu mengilap. GPQA-D mendapat 76,3, sedangkan Kimi K2.5 adalah 86,9, Opus 4.6 adalah 89,2; selisihnya masing-masing 10 dan 13 poin persentase. MMLU-Pro 83,4 juga berada di posisi terbawah di antara model pembanding.
Namun tampaknya Arcee tidak berniat bersaing keras ke arah ini. Pihak resmi menyatakan bahwa “Trinity-Large-Thinking adalah model open source terkuat di luar Tiongkok dalam banyak dimensi”, dan mereka menyebut bahwa lawan mereka bukan Opus atau GPT, melainkan kubu open source Tiongkok seperti DeepSeek, Kimi, dan lainnya.
Trinity-Large-Thinking sudah dipublikasikan juga di OpenRouter. Pada 5 hari pertama, tersedia gratis untuk digunakan di OpenClaw. Preview versi sebelumnya juga akan tetap diberikan secara gratis.
Berbicara tentang Preview edisi sebelumnya: sejak mulai tayang pada akhir Januari, ia telah mengakumulasi pemrosesan lebih dari 3,37 triliun token di platform OpenRouter. Dalam statistik OpenClaw, ia adalah model open source peringkat pertama untuk penggunaan di Amerika Serikat dan peringkat keempat secara global. Bagi sebuah startup yang ukurannya tidak besar, tingkat adopsi ini sudah membuktikan bahwa ia murah dan mudah digunakan; kebutuhan pasar memang ada.
Bobot model dipublikasikan di Hugging Face di bawah lisensi Apache 2.0, sehingga siapa pun bisa mengunduh, memodifikasi, dan menerapkannya untuk penggunaan komersial.