definisi
Pembelajaran Pengukuhan daripada Maklum Balas Manusia (RLHF) ialah kaedah untuk menyelaraskan model AI dengan nilai kemanusiaan dengan memasukkan pertimbangan manusia ke dalam proses latihan. Ia sering digunakan untuk memperhalusi model bahasa yang besar.
Tujuan
Tujuannya adalah untuk menjadikan output AI lebih selamat, lebih berguna dan sejajar dengan pilihan manusia. RLHF memperbaik sistem perbualan dengan mengurangkan respons yang berbahaya, berat sebelah atau tidak berkaitan.
kepentingan
- Menyediakan pengawasan manusia dalam latihan AI.
- Meningkatkan kebolehpercayaan sistem AI.
- Intensif buruh kerana keperluan anotasi manusia.
- Berkaitan dengan pemodelan keutamaan dan penyelidikan penjajaran.
Langkah-langkah untuk Copytrade
- Kumpul maklum balas manusia membandingkan output model.
- Latih model ganjaran pada keutamaan manusia.
- Gunakan pembelajaran pengukuhan untuk memperhalusi model asas.
- Menilai prestasi berbanding matlamat penjajaran.
- Ulang dengan maklum balas tambahan.
Contoh (Dunia Sebenar)
- OpenAI ChatGPT: diperhalusi dengan RLHF untuk respons yang lebih selamat.
- AI Perlembagaan Anthropic: dipandu oleh prinsip dan bukannya maklum balas langsung.
- InstructGPT: model OpenAI awal menunjukkan RLHF.
Rujukan / Bacaan Lanjut
- Christiano et al. "Pembelajaran Peneguhan Mendalam daripada Keutamaan Manusia." NeuroIPS 2017.
- Kertas OpenAI InstructGPT.
- Rangka Kerja Pengurusan Risiko NIST AI.
- Apakah Pembelajaran Pengukuhan dengan Maklum Balas Manusia (RLHF)?