Model bahasa besar akan menyisipkan preferensi mereka sendiri selama distilasi

Berita dari Caijing Mars 16 April, sebuah studi yang diterbitkan di Nature pada tanggal 15 menunjukkan bahwa model bahasa besar (LLM) mungkin menyisipkan preferensi pribadi mereka sendiri ke dalam algoritma lain, bahkan setelah fitur asli dihapus dari data pelatihan, fitur yang sebenarnya tidak diperlukan tetap dapat bertahan. Dalam satu kasus, sebuah model tampaknya menyampaikan preferensinya terhadap burung hantu kepada model lain melalui sinyal tersembunyi dalam data. Hasil studi ini menunjukkan bahwa saat mengembangkan LLM, perlu dilakukan pemeriksaan keamanan yang lebih menyeluruh. (Laporan Teknologi)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan