definisi
Pengumpulan data teks ialah proses mengumpul bahasa bertulis daripada sumber seperti buku, tapak web atau log sembang untuk digunakan dalam latihan AI.
Tujuan
Tujuannya adalah untuk mewujudkan korpora untuk pembangunan NLP dan LLM.
kepentingan
- Menyediakan bahan mentah untuk model bahasa.
- Menimbulkan isu hak cipta dan pelesenan.
- Kepelbagaian data mempengaruhi keadilan dan ketepatan.
- Mesti menapis kandungan berbahaya atau tidak berkaitan.
Langkah-langkah untuk Copytrade
- Kenal pasti sumber teks (web, dokumen, transkrip).
- Merangkak atau mengikis teks dengan kebenaran.
- Bersihkan dan normalkan kandungan.
- Simpan dengan metadata untuk kebolehkesanan.
- Gunakan dalam pra-latihan atau penalaan halus.
Contoh (Dunia Sebenar)
- Perayapan Biasa: korpus web besar.
- Lambakan Wikipedia: set data teks berstruktur.
- BooksCorpus: digunakan untuk latihan BERT.
Rujukan / Bacaan Lanjut
- Yayasan Merangkak Biasa.
- Jurafsky & Martin. Pertuturan dan Pemprosesan Bahasa.
- ISO/IEC TR 20547-5: Seni Bina Rujukan Data Besar.
- Pengumpulan Data Teks khusus kes