22:48
OpenAI Merilis Pemantauan CoT untuk Menghentikan Perilaku Berbahaya Model Besar
OpenAI merilis penelitian terbaru, menggunakan pemantauan CoT untuk secara efektif mencegah perilaku menyesatkan dari model besar, menggunakan model o3-mini yang akan dipantau, GPT-4o sebagai monitor, dan pengujian dalam tugas pengkodean menunjukkan bahwa CoT dapat secara efektif mendeteksi perilaku "peretasan hadiah", dengan tingkat penarikan hingga 95%.
GPT-8.7%

