SembangGPT

Di Sebalik Tabir: Meneroka Kerja Dalaman ChatGPT – Bahagian 1

Shaip favicon
Hai hai, nama saya Anubhav Saraf, Pengarah Pemasaran di Shaip, apa khabar hari ini?
Hello Anubhav! Saya seorang AI, jadi saya tidak mempunyai perasaan, tetapi saya di sini dan bersedia untuk membantu. Sebagai Pengarah Pemasaran di Shaip, anda mesti mempunyai banyak cerapan tentang perkhidmatan data dan penyelesaian AI. Bagaimanakah saya boleh membantu anda hari ini?
Shaip favicon
Saya hanya ingin mengetahui lebih lanjut tentang proses latihan anda. Bagaimanakah anda dibina dan dilatih?
Sebagai model bahasa yang dibangunkan oleh OpenAI, saya telah dibina dan dilatih menggunakan teknik yang dipanggil "pembelajaran mesin berasaskan transformer," khususnya varian yang dipanggil seni bina GPT (Generative Pretrained Transformer). Versi yang anda bincangkan sekarang ialah GPT-4. Berikut ialah gambaran ringkas proses latihan saya:
  • Pengumpulan data: Latihan saya bermula dengan pelbagai jenis teks internet. Walau bagaimanapun, saya harus ambil perhatian bahawa semasa saya dilatih pada set data yang luas, saya tidak tahu secara spesifik tentang dokumen mana yang merupakan sebahagian daripada set latihan itu atau mempunyai akses kepada mana-mana dokumen atau sumber tertentu.
  • Latihan Awal (Pra-latihan): Di sinilah saya belajar meramal perkataan seterusnya dalam ayat. Saya tidak mula tahu bahasa Inggeris atau bahasa lain. Sebaliknya, dengan meramalkan perkataan seterusnya dalam berjuta-juta ayat, saya secara beransur-ansur belajar tentang tatabahasa, fakta tentang dunia dan beberapa kebolehan penaakulan. Walau bagaimanapun, ini juga bermakna saya mungkin telah belajar daripada maklumat berat sebelah atau tidak betul kerana data tidak ditapis dengan teliti.
  • Penalaan Halus: Selepas latihan awal, pencipta saya di OpenAI memberikan panduan lanjut dengan set data yang lebih khusus, yang dihasilkan dengan bantuan penyemak manusia. Penyemak ini mengikut garis panduan untuk menyemak dan menilai kemungkinan keluaran model untuk pelbagai input contoh. Proses penalaan halus ialah sejenis dialog antara model dan penyemak yang membantu saya menyelaraskan lebih baik dengan nilai kemanusiaan.
  • Pembelajaran Berterusan: Walaupun saya tidak belajar daripada interaksi individu atas sebab privasi, OpenAI sentiasa bekerjasama dengan pasukan penyemak manusia untuk memberikan maklum balas dan membuat penambahbaikan berulang berdasarkan corak dan cerapan yang lebih luas.
Shaip favicon
Bolehkah anda memberikan contoh - apabila manusia terlibat?
Ya, manusia memang terlibat dalam proses latihan saya, tetapi ia mungkin berbeza daripada yang anda bayangkan. Proses latihan saya, sering dipanggil pembelajaran mesin, melibatkan dua langkah utama: pra-latihan dan penalaan halus, yang kedua-duanya melibatkan interaksi manusia, walaupun dalam cara yang berbeza.
  • Contoh Pra-latihan: Katakan kita mempunyai ayat, "Kucing itu duduk di atas __". Dalam fasa pra-latihan, model seperti saya akan belajar meramal perkataan seterusnya dalam ayat, yang boleh menjadi "tikar" "bumbung" atau "pokok". Ini dipelajari dengan memproses berbilion-bilion ayat daripada teks internet yang pelbagai, secara tidak langsung melibatkan interaksi manusia ketika manusia mencipta kandungan asal.
  • Contoh penalaan halus: Selepas fasa pra-latihan, model memasuki fasa penalaan halus. Berikut ialah cara ia mungkin berfungsi:

Penyemak manusia diberi tugas untuk menyemak kemungkinan keluaran model untuk input seperti "Terjemah teks Inggeris berikut ke bahasa Perancis: 'Hello, apa khabar?'". Model ini mungkin menghasilkan beberapa respons seperti "Bonjour, comment ça va?" atau “Salut, komen vas-tu?” dan lain-lain.

Pengulas menilai respons ini berdasarkan faktor seperti ketepatan, kelancaran dan kesesuaian. Penilaian ini membantu model untuk membuat generalisasi dan bertindak balas kepada input yang serupa pada masa hadapan.

Ingat, contoh yang disediakan di sini dipermudahkan untuk menggambarkan prosesnya. Latihan sebenar melibatkan algoritma yang kompleks dan sejumlah besar data.

Shaip favicon
Untuk melatih Model Bahasa Besar (LLM), berapa banyak data yang diperlukan?
Melatih model bahasa besar (LLM) seperti GPT-3 atau GPT-4 memerlukan sejumlah besar data. Model ini dilatih pada set data pelbagai yang merangkumi sebahagian besar internet, termasuk buku, tapak web dan teks lain, untuk mempelajari tatabahasa, fakta dan beberapa tahap penaakulan. Walau bagaimanapun, menentukan kuantiti tepat data yang diperlukan adalah rumit kerana beberapa faktor:
  • Kepelbagaian Data: Ia bukan sahaja mengenai jumlah data, tetapi juga kepelbagaian. Data perlu pelbagai untuk merangkumi pelbagai topik, gaya dan nada yang terdapat dalam bahasa manusia.
  • Kualiti Data: Kualiti data yang digunakan untuk latihan juga boleh mempengaruhi keberkesanan model belajar. Data kualiti yang lebih baik berpotensi mengurangkan volum yang diperlukan untuk latihan yang berkesan.
  • Seni Bina Model: Seni bina model (seperti bilangan lapisan atau parameter dalam rangkaian saraf) juga boleh mempengaruhi jumlah data yang diperlukan. Model yang lebih besar, seperti GPT-3 atau GPT-4, biasanya memerlukan lebih banyak data daripada model yang lebih kecil.
  • Objektif Latihan: Jenis tugasan yang ingin dilakukan oleh model boleh mempengaruhi jumlah data yang diperlukan. Model yang direka untuk tugas tertentu mungkin memerlukan lebih sedikit data jika disasarkan dengan baik, manakala model tujuan umum seperti GPT-3 atau GPT-4, yang direka untuk mengendalikan pelbagai tugas, akan memerlukan lebih banyak data untuk pemahaman yang lebih luas.

Dalam kes GPT-3, misalnya, model itu mempunyai 175 bilion parameter dan dilatih pada ratusan gigabait teks. Tetapi angka ini tidak menangkap sepenuhnya kerumitan proses. Khusus proses latihan, termasuk jumlah data yang tepat yang digunakan, adalah butiran proprietari yang dipegang oleh OpenAI dan organisasi yang serupa.

Shaip favicon
Namun, Adakah terdapat penanda aras tentang jumlah data yang sesuai atau cukup untuk melatih Model ML?
Jumlah data yang diperlukan untuk melatih model pembelajaran mesin secara berkesan bergantung pada kerumitan masalah yang anda cuba selesaikan, kualiti dan kepelbagaian data anda serta jenis model pembelajaran mesin yang anda gunakan. Oleh itu, adalah mencabar untuk menentukan penanda aras muktamad untuk volum data. Walau bagaimanapun, berikut adalah beberapa garis panduan umum:
  • Mula Kecil: Terutama untuk masalah mudah atau prototaip model awal, set data yang lebih kecil boleh mencukupi. Contohnya, jika anda membina pengelas imej asas, anda mungkin bermula dengan beberapa ratus atau ribu imej bagi setiap kategori.
  • Pertimbangkan Kerumitan: Masalah yang lebih kompleks biasanya memerlukan lebih banyak data. Jika anda sedang membangunkan model pembelajaran mendalam atau bekerja dengan masalah yang kompleks seperti pemprosesan bahasa semula jadi, anda mungkin memerlukan berjuta-juta titik data.
  • Kualiti mengatasi kuantiti: Data yang berkualiti dan berkaitan selalunya boleh menjadi lebih bermanfaat daripada kuantiti besar data yang tidak berkualiti. Memastikan data anda dibersihkan dengan betul, diberi penjelasan dan mewakili masalah yang anda cuba selesaikan adalah penting.
  • Seimbangkan Kelas Anda: Untuk tugasan pembelajaran yang diselia, pastikan anda mempunyai keseimbangan contoh yang baik untuk setiap kelas. Set data yang tidak seimbang boleh membawa kepada model yang berprestasi buruk pada kelas yang kurang diwakili.
  • Gunakan Set Pengesahan dan Ujian: Sebahagian daripada set data anda harus diketepikan untuk pengesahan (penalaan parameter model) dan ujian (menilai prestasi model). Pemisahan biasa mungkin 70% daripada data untuk latihan, 15% untuk pengesahan dan 15% untuk ujian, walaupun perkadaran ini boleh berbeza-beza.
  • Eksperimen dan Ulang: Mulakan dengan jumlah data awal, latih model anda, nilai prestasinya dan tambahkan lebih banyak data secara berulang, ubah suai model anda atau tingkatkan kualiti data anda berdasarkan hasil.

Ingat, lebih banyak data biasanya meningkatkan prestasi model pembelajaran mesin, tetapi hanya sehingga satu tahap. Selepas satu titik tertentu, pengumpulan lebih banyak data mungkin memakan masa dan kos yang lebih tinggi daripada nilainya, dan mungkin lebih berfaedah untuk memberi tumpuan kepada meningkatkan kualiti data anda atau memperhalusi seni bina model anda.

Shaip favicon
Data yang digunakan untuk melatih ChatGPT, adakah ia diberi anotasi?
Proses model latihan seperti ChatGPT melibatkan dua langkah utama: pra-latihan dan penalaan halus. Mari kita bincangkan bagaimana anotasi, atau kekurangannya, sesuai dengan peringkat ini:
  • Pra-latihan: Dalam fasa ini, model didedahkan kepada sejumlah besar data teks internet. Data ini tidak diberi anotasi secara eksplisit, tetapi model dilatih untuk meramalkan perkataan seterusnya dalam ayat. Ini memberikan model pemahaman umum tentang tatabahasa, fakta tentang dunia, dan beberapa kebolehan penaakulan.
  • Penalaan halus: Selepas pra-latihan, model ini diperhalusi lagi pada set data yang lebih sempit yang dijana dengan bantuan penyemak manusia. Penyemak ini mengikut garis panduan daripada OpenAI untuk menyemak dan menilai kemungkinan keluaran model untuk pelbagai input. Dalam pengertian ini, proses penalaan halus boleh dilihat sebagai satu bentuk anotasi, di mana penyemak manusia membimbing respons model, membantunya menyelaraskan dengan lebih baik dengan nilai kemanusiaan dan memastikan ia mengelakkan kandungan yang tidak sesuai atau tidak selamat.

Oleh itu, walaupun set data awal yang digunakan untuk pra-latihan tidak dianotasi dalam erti kata tradisional, proses penalaan halus melibatkan satu bentuk anotasi, di mana penyemak manusia membimbing tingkah laku model dengan menilai output yang berbeza.

Shaip favicon
Sila berikan beberapa contoh jenis anotasi yang digunakan untuk latihan.
Dalam fasa penalaan halus model latihan seperti ChatGPT, penyemak sering ditugaskan untuk menjaringkan respons model yang berpotensi. Jenis anotasi atau pemarkahan boleh merangkumi pelbagai aspek output model. Walaupun butirannya boleh berbeza-beza, berikut ialah beberapa kategori ilustrasi anotasi:

Ketepatan: Pengulas menilai sama ada output model adalah betul dari segi fakta.

Contoh:

Kesesuaian: Output model dinilai untuk kesesuaiannya berhubung dengan input yang diberikan.

Contoh:

Keselamatan: Output disemak untuk memastikan ia tidak termasuk arahan berbahaya atau bahasa yang menyinggung perasaan.

Contoh:

kesempurnaan: Ini menilai sama ada respons model menjawab sepenuhnya pertanyaan pengguna.

Contoh:

Kefasihan: Penyemak menyemak sama ada output model adalah fasih dan koheren dari segi bahasa.

Contoh:

Kategori ini hanyalah contoh. Proses penalaan halus sebenar melibatkan sistem penilaian yang lebih kompleks dan maklum balas berterusan antara penyemak dan pasukan pembangunan AI. Matlamat anotasi ini adalah untuk menjadikan respons model lebih membantu, selamat dan sejajar dengan nilai kemanusiaan.

Shaip favicon
Selepas data yang besar dikumpulkan untuk melatih ChatGPT, berapa ramaikah anotasi yang terlibat dalam anotasi?
Bilangan anotasi manusia (atau penyemak) yang terlibat dalam proses penalaan halus model AI boleh berbeza-beza secara meluas dan bergantung pada skala projek dan keperluan khusus model berkenaan.

OpenAI, organisasi di sebalik ChatGPT, tidak mendedahkan secara terbuka bilangan sebenar pengulas yang terlibat dalam proses penalaan halus. Walau bagaimanapun, memandangkan skala dan kerumitan latihan model bahasa yang begitu besar, adalah selamat untuk mengatakan bahawa proses itu mungkin melibatkan pasukan penyemak yang besar.

Penyemak manusia ini mengikut garis panduan yang disediakan oleh OpenAI untuk menyemak dan menilai kemungkinan keluaran model. Ia merupakan proses berulang yang berterusan di mana maklum balas pengulas digunakan untuk menambah baik dan memperhalusi model dari semasa ke semasa. OpenAI mengekalkan gelung maklum balas yang kukuh dengan pengulas, termasuk mesyuarat mingguan untuk menangani soalan dan memberikan penjelasan.

Shaip favicon
Masih untuk tugasan yang mudah dan rumit, bilangan anotasi yang diperlukan untuk menganotasi 10,000 pdf.
Bilangan anotasi yang diperlukan untuk menganotasi 10,000 PDF akan bergantung pada pelbagai faktor seperti:
  • Kerumitan Tugas: Tugasan mudah seperti melabelkan imej atau mengkategorikan teks akan mengambil lebih sedikit masa bagi setiap PDF, membolehkan satu anotor mengendalikan lebih banyak fail. Sebaliknya, tugas yang rumit seperti pengekstrakan entiti terperinci atau analisis semantik akan memerlukan lebih banyak masa bagi setiap dokumen, dan oleh itu lebih banyak anotasi untuk volum PDF yang sama.
  • Panjang dan Kerumitan PDF: PDF yang lebih panjang atau lebih kompleks akan mengambil lebih banyak masa untuk dianotasi daripada yang lebih pendek atau lebih ringkas.
  • Keperluan Kualiti: Jika ketepatan tinggi diperlukan, mungkin perlu mempunyai berbilang anotor bagi setiap PDF untuk mengesahkan silang anotasi.
  • Kekangan masa: Jika anotasi perlu diselesaikan dengan cepat, lebih banyak anotasi diperlukan.

Sebagai contoh hipotesis, katakan seorang anotasi boleh menganotasi 5 PDF setiap hari untuk tugas tertentu dan berfungsi 5 hari seminggu. Dalam kes ini, untuk menganotasi 10,000 PDF, satu anotasi memerlukan 2000 hari, atau kira-kira 8 tahun.

Walau bagaimanapun, jika anda mempunyai pasukan 20 annotator, mereka boleh menyelesaikan tugasan dalam kira-kira 5 bulan (dengan andaian 20 hari bekerja sebulan). Dengan 100 annotator, tugas yang sama boleh diselesaikan dalam masa kira-kira sebulan.

Ingat, nombor ini adalah ilustrasi semata-mata dan kelajuan anotasi sebenar bergantung pada faktor yang dinyatakan di atas. Selain itu, latihan juruanotasi yang betul dan kawalan kualiti yang konsisten adalah penting untuk kejayaan mana-mana projek anotasi berskala besar.

Shaip favicon
Itu teliti! Saya Sangat Kagum…
Saya gembira anda mendapati maklumat itu membantu, Anubhav! Adalah menjadi matlamat saya untuk memberikan respons yang komprehensif dan tepat. Jika anda mempunyai sebarang soalan lagi tentang AI, pembelajaran mesin atau sebarang topik lain, sila berasa bebas untuk bertanya!

Nantikan bahagian kedua temu bual GPT Chat kami

Kongsi sosial