Dalam usaha kami untuk membina penyelesaian AI yang teguh dan tidak berat sebelah, adalah wajar kami menumpukan pada latihan model pada pelbagai jenis data yang tidak berat sebelah, dinamik dan mewakili. Proses pengumpulan data kami amat penting dalam membangunkan penyelesaian AI yang boleh dipercayai. Dalam hal ini, perhimpunan Data latihan AI melalui pekerja ramai menjadi aspek kritikal dalam strategi pengumpulan data.
Dalam artikel ini, mari kita terokai peranan pekerja ramai, kesannya terhadap membangunkan AI algoritma pembelajaran dan model ML, serta keperluan dan faedah yang diberikannya kepada keseluruhan proses.
Mengapakah pekerja ramai dikehendaki membina model AI?
Sebagai manusia, kami menjana banyak data, namun, hanya sebahagian kecil daripada data yang dijana dan dikumpul ini yang bernilai. Disebabkan kekurangan piawaian penanda aras data, kebanyakan data yang dikumpul sama ada berat sebelah, penuh dengan isu kualiti atau tidak mewakili persekitaran. Sejak semakin banyak pembelajaran mesin dan model pembelajaran mendalam sedang dibangunkan yang berkembang maju pada kuantiti data yang besar, keperluan untuk set data yang lebih baik, lebih baharu dan pelbagai semakin dirasai.
Di sinilah pekerja ramai terlibat.
Data penyumberan ramai sedang membina set data dengan penyertaan kumpulan besar orang. Pekerja ramai menyelitkan kecerdasan manusia ke dalam kecerdasan buatan.
Platform sumber orang ramai memberikan pengumpulan data dan tugasan mikro anotasi kepada kumpulan orang yang besar dan pelbagai. Crowdsourcing membolehkan syarikat mengakses tenaga kerja yang besar, dinamik, kos efektif dan berskala.
Platform sumber orang ramai yang paling popular - Amazon Mechanical Turk, dapat memperoleh 11 ribu dialog manusia-ke-manusia dalam masa 15 jam, dan ia membayar pekerja $0.35 untuk setiap dialog yang berjaya. Pekerja beramai-ramai sedang terlibat dengan jumlah yang begitu kecil, menjelaskan kepentingan membina piawaian penyumberan data beretika.
Secara teorinya, ia kelihatan seperti rancangan yang bijak, namun, ia bukanlah strategi yang mudah untuk dilaksanakan. Orang ramai yang tidak mahu dikenali telah menimbulkan isu dengan gaji rendah, mengabaikan hak pekerja dan kerja berkualiti rendah yang memberi kesan kepada prestasi model AI.
Faedah mempunyai pekerja ramai untuk mendapatkan data
Dengan melibatkan kumpulan pekerja ramai yang pelbagai, pembangun penyelesaian berasaskan AI boleh mengagihkan tugas mikro dan mengumpulkan pemerhatian yang pelbagai dan meluas dengan cepat dan pada kos yang agak rendah.
Beberapa faedah menonjol menggunakan pekerja ramai untuk projek AI ialah
Masa yang Lebih Cepat untuk Memasarkan: Menurut penyelidikan dari Cognilytica, hampir 80% daripada kecerdasan buatan masa projek dibelanjakan untuk aktiviti pengumpulan data seperti pembersihan data, pelabelan dan pengagregatannya. Hanya 20% masa dibelanjakan untuk pembangunan dan latihan. Halangan tradisional untuk menjana data dihapuskan kerana sejumlah besar penyumbang boleh diambil dalam masa yang singkat.
Penyelesaian Kos Berkesan: Pengumpulan data bersumberkan orang ramai mengurangkan masa dan tenaga yang dibelanjakan untuk melatih, merekrut dan membawa mereka ke atas kapal. Ini menghapuskan kos, masa dan sumber yang diperlukan sejak tenaga kerja digunakan pada kaedah bayar setiap tugas.
Meningkatkan Kepelbagaian dalam Set Data: Kepelbagaian data adalah penting untuk keseluruhan latihan penyelesaian AI. Untuk model menghasilkan hasil yang tidak berat sebelah, ia perlu dilatih pada set data yang pelbagai. Dengan sumber ramai data, adalah mungkin untuk menjana set data yang pelbagai (geografi, bahasa, dialek) dengan sedikit usaha dan kos.
Meningkatkan Kebolehskalaan: Apabila anda merekrut pekerja ramai yang boleh dipercayai, anda boleh memastikan berkualiti tinggi pengumpulan data yang boleh diskalakan berdasarkan keperluan projek anda.
In-house vs. crowdsourcing – Siapa yang keluar sebagai pemenang?
Data dalaman | Data Sumber Orang Ramai |
---|---|
Ketepatan dan ketekalan data boleh dijamin. | Kualiti, ketepatan dan ketekalan data boleh dikekalkan jika platform sumber ramai yang boleh dipercayai dengan langkah QA standard digunakan |
Penyumberan data dalaman tidak selalunya merupakan keputusan yang praktikal kerana pasukan dalaman anda mungkin tidak memenuhi permintaan projek. | Kepelbagaian data boleh dipastikan kerana adalah mungkin untuk merekrut kumpulan pekerja ramai yang heterogen berdasarkan keperluan projek. |
Mahal untuk mengambil dan melatih pekerja untuk keperluan projek. | Penyelesaian kos efektif untuk pengumpulan data kerana ada kemungkinan untuk merekrut, melatih dan menaiki pekerja dengan pelaburan yang kurang. |
Masa untuk memasarkan adalah tinggi kerana pengumpulan data dalaman mengambil masa yang agak lama. | Masa untuk memasarkan adalah kurang kerana banyak sumbangan datang dengan cepat. |
Sekumpulan kecil penyumbang dalaman dan pelabel | Kumpulan penyumbang yang besar dan pelbagai dan pelabel data |
Kerahsiaan data adalah sangat tinggi dengan pasukan dalaman. | Kerahsiaan data adalah sukar untuk dikekalkan apabila bekerja dengan pekerja yang ramai di seluruh dunia. |
Lebih mudah untuk menjejak, melatih dan menilai pengumpul data | Mencabar untuk mengesan dan melatih pengumpul data. |
Merapatkan jurang antara pekerja crowdsource dan peminta.
Terdapat keperluan besar untuk merapatkan jurang antara pekerja ramai dan peminta, bukan hanya dalam bidang gaji.
Terdapat kekurangan maklumat yang jelas dari pihak peminta kerana pekerja hanya diberikan maklumat mengenai tugas tertentu. Sebagai contoh, walaupun pekerja diberi tugas mikro seperti merakam dialog dalam dialek ibunda mereka, mereka jarang diberikan konteks. Mereka tidak mempunyai maklumat yang diperlukan tentang mengapa mereka melakukan apa yang mereka lakukan dan cara terbaik untuk melakukannya. Kekurangan maklumat ini memberi kesan kepada kualiti kerja sumber orang ramai.
Bagi seorang manusia, mempunyai keseluruhan konteks memberikan kejelasan dan tujuan kepada kerja mereka.
Tambahkan pada campuran ini satu lagi dimensi NDA – perjanjian bukan pendedahan yang mengehadkan jumlah maklumat yang diberikan oleh pekerja ramai. Dari perspektif pekerja ramai, penarikan maklumat ini menunjukkan kekurangan kepercayaan dan mengurangkan kepentingan terhadap kerja mereka.
Apabila situasi yang sama dilihat dari hujung spektrum yang lain, terdapat kekurangan ketelusan dari hujung pekerja. Pemohon tidak memahami sepenuhnya pekerja yang ditugaskan untuk melakukan kerja itu. Sesetengah projek mungkin memerlukan jenis pekerja tertentu; namun, dalam kebanyakan projek, terdapat kekaburan. The kebenaran tanah adakah ini boleh merumitkan penilaian, maklum balas, dan latihan.
Untuk mengatasi kesukaran ini, bekerja dengan pakar pengumpulan data dengan rekod prestasi menyediakan data yang pelbagai, disusun dan diwakili dengan baik daripada pelbagai pilihan penyumbang adalah penting.
Memilih Shaip sebagai rakan kongsi data anda boleh mempunyai pelbagai faedah. Kami memberi tumpuan kepada kepelbagaian dan pengedaran data yang mewakili. Kakitangan kami yang berpengalaman dan berdedikasi memahami paksaan setiap projek dan membangunkan set data yang boleh melatih penyelesaian berasaskan AI yang mantap dalam masa yang singkat.
[Baca juga: Panduan Pemula Data Latihan AI: Definisi, Contoh, Set Data]