Julai 18, 2023

Di Sebalik Tabir: Meneroka Kerja Dalaman ChatGPT – Bahagian 2

Selamat kembali ke bahagian kedua perbincangan menarik kami dengan ChatGPT. Di dalam segmen awal perbualan kami, kami membincangkan peranan pengumpulan data, anotasi dan kepentingan Human-in-the-loop dalam melatih Model Besar Bahasa. Kini kita akan bercakap tentang cabaran, berat sebelah yang dihadapi semasa melatih model AI, aplikasinya dan cara model AI maju mempengaruhi manusia secara umum.

Ya, mengautomasikan proses anotasi data sememangnya boleh mengurangkan masa, kos dan kemungkinan ralat manusia yang dikaitkan dengan anotasi manual. Ini sering dilakukan melalui teknik yang dikenali sebagai "pelabelan automatik" atau "pembelajaran separuh seliaan." Berikut ialah beberapa strategi untuk anotasi automatik:

Sistem Berasaskan Peraturan: Ini melibatkan mencipta peraturan khusus yang dipatuhi oleh mesin untuk menganotasi data. Sebagai contoh, peraturan boleh melabelkan mana-mana teks yang kelihatan seperti alamat e-mel (cth, mengandungi simbol '@') sebagai 'E-mel'.
Model Pembelajaran Mesin: Model pembelajaran mesin pra-latihan boleh digunakan untuk menganotasi data baharu. Sebagai contoh, model pengecaman entiti bernama pra-latihan boleh digunakan untuk mengenal pasti dan melabelkan entiti dalam teks.
Pembelajaran Aktif: Dalam kaedah ini, model pembelajaran mesin pada mulanya dilatih dengan sekumpulan kecil data beranotasi secara manual. Kemudian, model menganotasi data yang paling diyakininya, dan anotasi ini disahkan dan diperbetulkan oleh anotasi manusia. Model dilatih semula dengan set data yang lebih besar ini dan proses diulang.
Pengawasan yang lemah: Di sini, berbilang anotasi lemah (yang boleh menjadi sistem berasaskan peraturan, sumber ramai, heuristik, dll.) digunakan untuk melabel data. Walaupun setiap anotasi yang lemah adalah tidak sempurna, gabungan label mereka boleh memberikan anggaran yang baik untuk melatih model awal.
Pemindahan Pembelajaran: Pendekatan ini memanfaatkan model yang telah dilatih pada satu tugasan dan mengaplikasikannya pada tugasan lain yang berkaitan. Sebagai contoh, model yang dilatih untuk mengenali objek dalam imej boleh digunakan sebagai titik permulaan untuk model yang direka untuk mengenali jenis objek tertentu.

Walaupun anotasi automatik boleh menjadi alat yang berkuasa, adalah penting untuk diingat bahawa ia tidak selalunya sempurna dan kualiti boleh berbeza-beza berdasarkan kaedah yang digunakan dan kerumitan tugas. Mungkin terdapat ralat disebabkan berat sebelah dalam peraturan awal atau set latihan, dan tugas yang rumit selalunya masih memerlukan pengawasan manusia. Oleh itu, gabungan anotasi automatik dan manual (pembelajaran separa penyeliaan) selalunya merupakan pendekatan terbaik untuk set data yang besar dan kompleks.

Mengumpul dan menganotasi data untuk AI dan projek pembelajaran mesin boleh memberikan beberapa cabaran, termasuk:

Kepelbagaian dan Kewakilan Data: Memastikan data yang dikumpul merangkumi pelbagai senario dan dengan tepat mewakili keadaan dunia sebenar adalah mencabar. Contohnya, model pengecaman imej memerlukan imej dengan pencahayaan, orientasi dan latar belakang yang pelbagai.
Privasi dan Etika Data: Menghormati hak privasi dan mematuhi garis panduan etika semasa mengumpul data adalah penting. Menamakan data pesakit dalam AI penjagaan kesihatan memastikan privasi tanpa menjejaskan utilitinya untuk latihan model.
Kualiti Data: Data berkualiti tinggi adalah penting; data yang bising, tidak relevan atau tidak betul boleh memberi kesan negatif terhadap prestasi model. Data media sosial, dengan slanga, kesilapan menaip dan penggunaan bahasa yang tidak konsisten, menimbulkan cabaran untuk latihan analisis sentimen.
Kualiti dan Ketekalan Anotasi: Memastikan anotasi yang tepat dan konsisten adalah rumit. Dalam klasifikasi imej, anotasi berbeza yang melabel objek yang sama secara berbeza boleh mengelirukan model semasa latihan.
Masa dan Kos: Anotasi manual memakan masa dan mahal, terutamanya untuk set data yang besar. Untuk pemprosesan bahasa semula jadi, anotasi memerlukan masa yang banyak dan kepakaran linguistik untuk memahami konteks teks.
Berskala: Menskalakan proses anotasi sambil mengekalkan kualiti adalah mencabar. Model bahasa selalunya memerlukan berbilion-bilion contoh, memerlukan penyelarasan antara pasukan anotasi yang besar dan memastikan konsistensi merentas anotasi.
Kekaburan Pelabelan: Label yang betul boleh menjadi subjektif dan terbuka kepada tafsiran. Anotasi mungkin mempunyai pendapat yang berbeza tentang tugasan analisis sentimen, yang membawa kepada tugasan label yang berbeza untuk teks yang sama.
Data Sensitif: Mengendalikan data sensitif, seperti rekod perubatan atau kewangan, memerlukan langkah berjaga-jaga tambahan. Anotator mungkin memerlukan latihan atau pensijilan khusus untuk mengendalikan data ini dengan sewajarnya dan memastikan perlindungannya.

Menangani cabaran ini selalunya memerlukan gabungan perancangan projek yang baik, garis panduan yang jelas untuk pengumpul data dan pencatat, penggunaan alatan automatik jika boleh dan sistem yang teguh untuk kawalan kualiti.

Bias dalam data latihan ialah isu penting dalam pembelajaran mesin kerana model belajar daripada data yang mereka latih. Jika data latihan berat sebelah, ramalan model juga boleh berat sebelah. Berikut ialah beberapa cara untuk menangani berat sebelah semasa proses penalaan halus:

Seimbangkan Set Data: Laraskan set data untuk mempunyai perwakilan yang sama bagi kelas yang berbeza.
Gunakan Algoritma Tebatan Bias: Gunakan teknik yang direka untuk mengurangkan berat sebelah dalam ramalan model.
Gunakan Privasi Berbeza: Tambahkan hingar pada data untuk melindungi atribut sensitif.
Lakukan Penalaan Halus Model Bias-Aware: Laraskan model dengan mengambil kira pengurangan berat sebelah.
Gunakan Kajian Manusia dan Garis Panduan: Penyemak mengikut garis panduan yang mengarahkan supaya tidak memihak kepada mana-mana kumpulan semasa penalaan halus.
Wujudkan Gelung Maklum Balas Berterusan: Interaksi yang kerap dengan pengulas membolehkan pembelajaran berterusan dan pembetulan bias.

Ingat, menghapuskan berat sebelah sepenuhnya adalah mencabar, tetapi langkah ini boleh membantu mengurangkannya.

Model bahasa yang besar mempunyai pelbagai aplikasi praktikal dalam pelbagai industri:

Penjanaan Kandungan: Mereka boleh membantu dalam menjana kandungan seperti artikel, laporan & e-mel.
Perkhidmatan Pelanggan: Ia boleh digunakan dalam chatbots dan pembantu maya untuk mengautomasikan sokongan pelanggan.
Terjemahan Bahasa: Mereka boleh membantu dalam menterjemah teks antara bahasa yang berbeza.
Tutor: Mereka boleh memberikan penerangan tentang pelbagai mata pelajaran, membantu dalam pendidikan.
Penulisan Kod: Mereka boleh membantu dalam menulis kod, membantu pembangunan perisian.
Pemasaran dan Pengiklanan: Mereka boleh menjana kandungan kreatif untuk kempen pemasaran.
Kebolehcapaian: Mereka boleh membantu dalam menjana pertuturan untuk aplikasi teks ke pertuturan.

Model AI lanjutan boleh membentuk semula pasaran kerja dalam beberapa cara:

Automasi Kerja: Tugas rutin dan biasa, terutamanya dalam sektor seperti pembuatan, logistik dan kerja perkeranian, boleh diautomasikan, yang membawa kepada perpindahan pekerjaan.
Penciptaan Pekerjaan Baharu: Dari segi positif, kebangkitan AI akan mewujudkan peranan baharu yang tidak wujud sebelum ini, seperti pakar AI, penganalisis data, jurutera pembelajaran mesin dan peranan dalam etika dan dasar AI.
Transformasi Kerja: Banyak pekerjaan akan diubah dan bukannya dihapuskan, dengan AI mengambil alih aspek rutin kerja, membebaskan pekerja untuk menumpukan pada tugas yang lebih kompleks dan kreatif.
Anjakan Permintaan Kemahiran: Akan terdapat peningkatan permintaan untuk kemahiran digital dan pemahaman AI, yang boleh membawa kepada jurang kemahiran dalam jangka pendek.

Jadi, walaupun AI sudah pasti akan mengganggu pasaran pekerjaan, ia juga memberikan peluang untuk pekerjaan baharu dan peningkatan produktiviti.

Model AI dan pembelajaran mesin semasa, walaupun keupayaannya yang luar biasa, masih mempunyai beberapa batasan:

Kurang Kefahaman: Model AI tidak memahami konteks atau konsep dengan cara yang sama seperti manusia. Mereka mengenal pasti corak dalam data tetapi tidak memahami maksud asas.
Ketergantungan Data: Mereka memerlukan sejumlah besar data untuk latihan. Jika data itu berat sebelah, tidak lengkap atau tidak berkualiti, prestasi model boleh terjejas dengan ketara.
Generalisasi: Model yang dilatih mengenai tugas atau set data tertentu sering bergelut untuk menyamaratakan pembelajaran mereka kepada senario baharu yang tidak kelihatan.
Kebolehjelasan: Selalunya sukar untuk memahami sebab model tertentu (terutamanya model pembelajaran mendalam) telah membuat keputusan khusus, yang membawa kepada kekurangan ketelusan atau kebolehtafsiran.
Kekukuhan: Model AI boleh menjadi sensitif kepada perubahan kecil dalam data input (bunyi, herotan) dan mungkin tidak berfungsi dengan baik dalam semua keadaan.
Kebimbangan Etika: Aplikasi AI boleh membawa kepada isu privasi, kemungkinan penyalahgunaan atau berat sebelah tidak disengajakan, menimbulkan kebimbangan etika dan undang-undang.

Persoalan sama ada AI boleh benar-benar memahami konteks dengan cara yang sama manusia lakukan adalah satu persoalan yang kompleks dan melibatkan perdebatan berterusan tentang sifat AI dan kesedaran.

Setakat akhir pengetahuan saya pada September 2021, AI telah mencapai kemajuan yang ketara dalam pemahaman kontekstual, terutamanya dengan pembangunan model bahasa yang canggih seperti GPT-3 dan GPT-4. Model ini boleh menjana teks seperti manusia berdasarkan input yang mereka terima dan pemahaman dalaman mereka tentang hubungan antara perkataan dan konsep.

Walau bagaimanapun, adalah penting untuk ambil perhatian bahawa "pemahaman" ini berbeza daripada pemahaman manusia. Sistem AI, seperti yang wujud sekarang, tidak mempunyai kesedaran, kesedaran diri, atau kedalaman pengetahuan pengalaman yang sama seperti yang dimiliki manusia. Mereka mentafsir konteks berdasarkan corak dalam data, bukan pada pengalaman hidup atau pemahaman intuitif tentang nuansa. Oleh itu, pemahaman mereka tentang konteks pada asasnya berbeza daripada kita.

Sebagai contoh, sementara AI boleh menjana respons kepada soalan tentang pengalaman peribadi, seperti "apakah perasaan anda pada hari pertama persekolahan anda?", AI berbuat demikian berdasarkan corak dalam data yang dilatih, bukan pada mana-mana pengalaman peribadi atau emosi yang dimilikinya. AI tidak mempunyai perasaan atau pengalaman peribadi.

Dari segi masa depan, sukar untuk dikatakan. Kemajuan dalam penyelidikan dan pembangunan AI berterusan pada kadar yang pantas, tetapi lonjakan daripada pengecaman corak kepada pemahaman dan kesedaran seperti manusia tulen adalah sesuatu yang besar, dan kami belum tahu sama ada ia mungkin atau bagaimana ia akan dicapai. Walaupun sistem AI menjadi lebih canggih dalam mentafsir konteks, ini tidak semestinya bermakna mereka mempunyai pemahaman seperti manusia tentangnya.

Walaupun mustahil untuk meramalkan dengan pasti, pakar dalam bidang AI telah mengenal pasti beberapa bidang yang dijangkakan kemajuan yang ketara dalam masa terdekat, setakat pemotongan pengetahuan saya pada September 2021:

Pemahaman dan penjanaan bahasa semula jadi yang lebih baik: AI perbualan yang lebih seperti manusia dan terjemahan automatik yang lebih baik.
Kesaksamaan, kebolehjelasan dan ketelusan AI: Teknik untuk memahami pembuatan keputusan AI, memastikan keadilan dan mempromosikan ketelusan.
AI dalam penjagaan kesihatan: Diagnosis penyakit yang dipertingkatkan, ramalan hasil pesakit dan rawatan diperibadikan melalui AI.
Pembelajaran pengukuhan dan AI am: Sistem AI yang lebih mudah disesuaikan yang boleh mempelajari pelbagai tugas dan menyesuaikan diri dengan situasi baharu.
AI dan pengkomputeran kuantum: Kuasa pengiraan yang dipertingkatkan membolehkan model yang lebih kompleks dan masa latihan yang lebih pantas.
Pembelajaran Bersekutu: Pembelajaran mesin yang memelihara privasi yang melatih model merentas berbilang peranti tanpa berkongsi data.

Sama-sama! Saya gembira dapat membantu anda. Jangan teragak-agak untuk menghubungi anda jika anda mempunyai lebih banyak soalan pada masa hadapan. Selamat hari raya!

Kongsi sosial

Bercakap dengan Pakar

Nama Awalan*
Nama Terakhir*
E-mel*
Telefon*
Syarikat*
Negara*
Negara
Komen-komen*
Dengan mendaftar, saya bersetuju dengan Shaip Polisi Laman Web and Syarat Perkhidmatan dan memberikan persetujuan saya untuk menerima komunikasi pemasaran B2B daripada Shaip.
CAPTCHA

Muat turun Buku Percuma

Awak juga mungkin menyukai

Di Sebalik Tabir: Meneroka Kerja Dalaman ChatGPT – Bahagian 2

Kongsi sosial

Bercakap dengan Pakar

Mengapa AI Perbualan Anda Memerlukan Data Ujaran yang Baik?

Cara Mengurangkan Cabaran Data Biasa dalam AI Perbualan

Keadaan Perbualan AI 2022

Perkhidmatan Data AI

Khas

industri

Produk

Syarikat

Sumber

Hubungi Kami