Kunci untuk Mengatasi Halangan Pembangunan AI

Data Lebih Boleh dipercayai

Pengenalan

Kecerdasan buatan mula menangkap khayalan ketika Tin Man dari "The Wizard of Oz" melanda layar perak pada tahun 1939, dan ia hanya mendapat pijakan yang lebih kuat di zeitgeist sejak itu. Dalam aplikasi, bagaimanapun, produk AI telah melalui kitaran boom-and-bust biasa yang sejauh ini telah melambangkan penggunaan yang paling berpengaruh.

Semasa ledakan, jurutera dan penyelidik telah membuat kemajuan yang luar biasa, tetapi ketika aspirasi mereka pasti melebihi kemampuan pengkomputeran yang tersedia pada masa itu, masa dorman telah menyusul. Nasib baik, peningkatan eksponensial dalam kekuatan pengkomputeran yang diramalkan oleh Undang-Undang Moore pada tahun 1965 telah terbukti paling tepat, dan pentingnya kenaikan ini sukar untuk dilebih-lebihkan.

Halangan Pembangunan Ai
Baca eBook: Kunci Mengatasi Halangan Pembangunan AI, atau memuat turun versi PDF dari eBook.

Kunci untuk Mengatasi Halangan Pembangunan AI: Data Lebih Boleh dipercayai

Hari ini, rata-rata orang kini mempunyai jutaan kali lebih banyak kuasa pengkomputeran dari poket mereka daripada NASA yang terpaksa melakukan pendaratan bulan pada tahun 1969. Peranti yang ada di mana-mana yang dengan mudah menunjukkan banyak kekuatan pengkomputeran juga memenuhi syarat lain untuk zaman keemasan AI: banyak data. Menurut pandangan dari Information Overload Research Group, 90% data dunia dibuat dalam dua tahun terakhir. Sekarang bahawa pertumbuhan eksponensial dalam daya pengkomputeran akhirnya berkumpul dengan pertumbuhan meteorik yang sama dalam penjanaan data, inovasi data AI meletup begitu banyak sehingga beberapa pakar berpendapat akan memulai Revolusi Industri Keempat.

Data dari National Venture Capital Association menunjukkan bahawa sektor AI mencatatkan pelaburan $ 6.9 bilion pada suku pertama tahun 2020. Tidak sukar untuk melihat potensi alat AI kerana sudah disadap di sekitar kita. Beberapa kes penggunaan yang lebih jelas untuk produk AI adalah enjin cadangan di sebalik aplikasi kegemaran kami seperti Spotify dan Netflix. Walaupun senang menemui artis baru untuk didengarkan atau rancangan TV baru untuk menonton, pelaksanaan ini agak rendah. Skor ujian gred algoritma lain - sebahagiannya menentukan di mana pelajar diterima masuk ke kuliah - dan masih ada yang meneliti resume calon, menentukan pemohon mana yang mendapat pekerjaan tertentu. Beberapa alat AI bahkan boleh membawa implikasi hidup atau mati, seperti model AI yang meneliti barah payudara (yang mengatasi doktor).

Walaupun terdapat pertumbuhan yang stabil dalam kedua-dua contoh pembangunan AI di dunia nyata dan bilangan syarikat yang baru berusaha untuk mencipta generasi alat transformasi seterusnya, cabaran untuk pembangunan dan pelaksanaan yang berkesan tetap ada. Khususnya, output AI hanya seakurat input, yang bermaksud kualiti adalah yang terpenting.

Halangan Pembangunan Ai

Cabaran Kualiti Data yang Tidak Konsisten dalam Penyelesaian AI

Terdapat sejumlah besar data yang dihasilkan setiap hari: 2.5 quintillion bait, menurut Social Media Today. Tetapi itu tidak bermakna semuanya layak untuk melatih algoritma anda. Beberapa data tidak lengkap, ada yang berkualiti rendah, dan ada yang tidak tepat, jadi menggunakan salah satu maklumat yang salah ini akan menghasilkan ciri yang sama dari inovasi data AI (mahal) anda. Menurut penyelidikan dari Gartner, sekitar 85% projek AI yang dibuat pada tahun 2022 akan menghasilkan hasil yang tidak tepat kerana data yang berat sebelah atau tidak tepat. Walaupun anda boleh dengan mudah melangkau cadangan lagu yang tidak sesuai dengan citarasa anda, algoritma tidak tepat lain dengan kos kewangan dan reputasi yang besar.

Pada tahun 2018, Amazon mula menggunakan alat perekrutan bertenaga AI, yang dihasilkan sejak tahun 2014, yang mempunyai berat sebelah yang kuat dan jelas terhadap wanita. Ternyata model komputer yang menyokong alat ini dilatih menggunakan riwayat hidup yang diserahkan kepada syarikat selama lebih dari satu dekad. Oleh kerana kebanyakan pemohon teknologi adalah lelaki (dan masih, mungkin kerana teknologi ini), algoritma memutuskan untuk menghukum riwayat hidup dengan "wanita" yang disertakan di mana sahaja - kapten bola sepak wanita atau kumpulan perniagaan wanita, misalnya. Bahkan memutuskan untuk menghukum pemohon dua kolej wanita. Amazon mendakwa bahawa alat itu tidak pernah digunakan sebagai kriteria tunggal untuk menilai calon yang berpotensi, namun perekrut melihat mesin cadangan ketika mencari pekerja baru.

Alat pengambilan pekerja Amazon akhirnya dibatalkan setelah bertahun-tahun bekerja, tetapi pelajarannya berlanjutan, menyoroti pentingnya kualiti data ketika melatih algoritma dan alat AI. Seperti apa data "berkualiti tinggi"? Ringkasnya, ia memeriksa lima kotak berikut:

1. Berkaitan

Untuk dianggap berkualiti tinggi, data mesti membawa sesuatu yang berharga untuk proses membuat keputusan. Adakah terdapat hubungan antara status pemohon pekerjaan sebagai juara negara pole vaulter dan prestasi mereka di tempat kerja? Itu mungkin, tapi nampaknya tidak mungkin. Dengan menyingkirkan data yang tidak relevan, algoritma dapat menumpukan pada menyusun maklumat yang benar-benar mempengaruhi hasil.

2. tepat

Data yang anda gunakan mesti mewakili idea yang anda uji dengan tepat. Sekiranya tidak, ia tidak berbaloi. Sebagai contoh, Amazon melatih algoritma pengambilannya dengan menggunakan rumum pemohon selama 10 tahun, tetapi tidak jelas sama ada syarikat itu mengesahkan maklumat yang diberikan pada rumum tersebut terlebih dahulu. Penyelidikan dari syarikat pemeriksa rujukan Checkster menunjukkan bahawa 78% pemohon berbohong atau akan mempertimbangkan untuk berbohong dalam permohonan pekerjaan. Sekiranya algoritma membuat keputusan cadangan menggunakan IPK calon, adalah idea yang baik untuk mengesahkan kesahihan nombor tersebut terlebih dahulu. Proses ini memerlukan masa dan wang, tetapi juga akan meningkatkan ketepatan hasil anda.

3. Disusun dan diberi komen dengan betul

Sekiranya model pengambilan pekerja berdasarkan rumum, anotasi agak mudah. Dalam arti tertentu, riwayat hidup diberikan pra-anotasi, walaupun tidak diragukan lagi ada pengecualian. Sebilangan besar pemohon menyenaraikan pengalaman kerja mereka di bawah tajuk "Pengalaman" dan kemahiran yang relevan di bawah "Kemahiran". Namun, dalam situasi lain, seperti pemeriksaan barah, data akan jauh lebih berbeza. Maklumat boleh datang dalam bentuk pengimejan perubatan, hasil pemeriksaan fizikal, atau bahkan perbualan antara doktor dan pesakit mengenai sejarah kesihatan keluarga dan kejadian barah, antara bentuk data lainnya. Agar maklumat ini dapat menyumbang kepada algoritma pengesanan yang tepat, ia mesti disusun dan diberi penjelasan dengan teliti untuk memastikan model AI belajar membuat ramalan yang tepat berdasarkan kesimpulan yang tepat.

4. terkini

Amazon berusaha membuat alat yang dapat menjimatkan masa dan wang dengan menghasilkan keputusan pengambilan pekerja yang sama yang dibuat oleh manusia dalam masa yang jauh lebih sedikit. Untuk membuat saran seakurat mungkin, data harus selalu diperbarui. Sekiranya syarikat pernah menunjukkan pilihan untuk calon yang mempunyai kemampuan untuk membaiki mesin taip, sebagai contoh, pekerja bersejarah ini mungkin tidak banyak mempengaruhi kesesuaian pemohon pekerjaan sekarang untuk apa jua peranan. Akibatnya, adalah bijaksana untuk membuangnya.

5. tepat pelbagai

Jurutera Amazon memilih untuk melatih algoritma dengan kumpulan pemohon yang sangat lelaki. Keputusan ini adalah kesilapan kritikal, dan keputusan itu tidak terlalu parah oleh kenyataan bahawa itu adalah riwayat hidup yang ada pada masa itu. Jurutera Amazon boleh bekerjasama dengan organisasi ternama dengan yang serupa ada jawatan yang telah menerima lebih banyak pemohon pekerjaan wanita untuk menebus kekurangan, atau mungkin mengurangkan jumlah rujukan lelaki secara artifisial agar sesuai dengan jumlah wanita dan terlatih dan membimbing algoritma dengan perwakilan populasi yang lebih tepat. Maksudnya ialah data kepelbagaian adalah kunci, dan melainkan jika usaha bersepadu dilakukan untuk menghilangkan bias input, output yang berat sebelah akan berlaku berlaku.

Jelas, data berkualiti tinggi tidak muncul entah dari mana. Sebaliknya, ia mesti dikendalikan dengan teliti dengan mempertimbangkan hasil yang diharapkan. Di bidang AI, sering dikatakan bahawa "sampah bermaksud sampah keluar." Kenyataan ini benar, tetapi agak mementingkan kepentingan kualiti. AI dapat memproses sejumlah besar maklumat dan mengubahnya menjadi apa saja, dari pemilihan stok hingga cadangan pengambilan hingga diagnosis perubatan. Kapasiti ini jauh melebihi kemampuan manusia, yang juga bermaksud ia membesar hasil. Seorang perekrut manusia yang berat sebelah hanya dapat mengabaikan begitu banyak wanita, tetapi perekrut AI yang berat sebelah dapat mengabaikan mereka semua. Dalam pengertian itu, sampah tidak hanya berarti membuang sampah - itu bermaksud sejumlah kecil data "sampah" dapat berubah menjadi tempat pembuangan sampah secara keseluruhan.

Mengatasi Halangan Pembangunan AI

Usaha pengembangan AI merangkumi rintangan yang besar tidak kira industri apa yang mereka lakukan, dan proses mendapatkan dari idea yang layak ke produk yang berjaya penuh dengan kesulitan. Di antara cabaran memperoleh data yang tepat dan keperluan untuk menganonimkannya untuk mematuhi semua peraturan yang relevan, terasa seperti benar-benar membina dan melatih algoritma adalah bahagian yang mudah.

Untuk memberi organisasi anda setiap kelebihan yang diperlukan dalam usaha merancang pengembangan AI baru yang inovatif, anda harus mempertimbangkan untuk bekerjasama dengan syarikat seperti Shaip. Chetan Parikh dan Vatsal Ghiya mengasaskan Shaip untuk membantu syarikat merancang jenis penyelesaian yang dapat mengubah penjagaan kesihatan di AS Setelah lebih dari 16 tahun berniaga, syarikat kami telah berkembang sehingga merangkumi lebih dari 600 ahli pasukan, dan kami telah bekerjasama dengan ratusan pelanggan menjadikan idea menarik menjadi penyelesaian AI.

Dengan orang, proses, dan platform kami yang berfungsi untuk organisasi anda, anda dapat segera membuka empat faedah berikut dan melancarkan projek anda ke arah kejayaan yang berjaya:

1. Keupayaan untuk membebaskan saintis data anda


Tidak dapat dijangkakan bahawa proses pengembangan AI memerlukan banyak masa, tetapi anda selalu dapat mengoptimumkan fungsi yang paling banyak menghabiskan masa oleh pasukan anda. Anda mengupah saintis data anda kerana mereka pakar dalam pengembangan algoritma canggih dan model pembelajaran mesin, tetapi penyelidikan secara konsisten menunjukkan bahawa pekerja ini sebenarnya menghabiskan 80% masa mereka untuk mendapatkan, membersihkan, dan mengatur data yang akan menggerakkan projek. Lebih daripada tiga perempat (76%) saintis data melaporkan bahawa proses pengumpulan data biasa ini juga merupakan bahagian pekerjaan mereka yang paling tidak disukai, tetapi keperluan untuk data yang berkualiti meninggalkan hanya 20% masa mereka untuk pembangunan yang sebenarnya, iaitu karya yang paling menarik dan merangsang intelektual bagi banyak saintis data. Dengan mendapatkan data melalui vendor pihak ketiga seperti Shaip, sebuah syarikat boleh membiarkan jurutera data yang mahal dan berbakat menggunakan sumber pekerjaan mereka sebagai penyedia data dan sebaliknya menghabiskan masa mereka pada bahagian penyelesaian AI di mana mereka dapat menghasilkan nilai terbanyak.

2. Keupayaan untuk mencapai hasil yang lebih baik

Banyak pemimpin pembangunan AI memutuskan untuk menggunakan data sumber terbuka atau sumber banyak untuk mengurangkan perbelanjaan, tetapi keputusan ini hampir selalu memakan kos lebih lama dalam jangka panjang. Jenis data ini tersedia, tetapi tidak dapat menandingi kualiti set data yang disusun dengan teliti. Data sumber ramai khususnya terdapat kesilapan, peninggalan, dan ketidaktepatan, dan walaupun masalah ini kadang-kadang dapat diselesaikan semasa proses pembangunan di bawah pengawasan jurutera anda, ia memerlukan iterasi tambahan yang tidak diperlukan jika anda memulakan dengan yang lebih tinggi - data kualiti dari awal.

Mengandalkan data sumber terbuka adalah jalan pintas umum lain yang dilengkapi dengan perangkap sendiri. Kekurangan pembezaan adalah salah satu masalah terbesar, kerana algoritma yang dilatih menggunakan data sumber terbuka lebih mudah ditiru daripada yang dibina berdasarkan set data berlesen. Dengan melalui laluan ini, anda mengundang persaingan dari peserta lain di ruang yang dapat menurunkan harga anda dan mengambil bahagian pasaran pada bila-bila masa. Apabila anda bergantung pada Shaip, anda mengakses data berkualiti tinggi yang dikumpulkan oleh tenaga kerja terurus yang terampil, dan kami dapat memberikan anda lesen eksklusif untuk set data khusus yang menghalang pesaing mencipta semula harta intelektual anda yang dimenangkan.

3. Akses kepada profesional yang berpengalaman

Akses Kepada Profesional Berpengalaman Walaupun senarai dalaman anda merangkumi jurutera mahir dan saintis data berbakat, alat AI anda dapat memanfaatkan kebijaksanaan yang hanya ada melalui pengalaman. Pakar subjek kami telah menerajui banyak implementasi AI di bidangnya dan mempelajari pelajaran berharga sepanjang perjalanan, dan tujuan utamanya adalah untuk membantu anda mencapai tujuan anda.

Dengan pakar domain mengenal pasti, mengatur, mengkategorikan, dan melabel data untuk anda, anda tahu maklumat yang digunakan untuk melatih algoritma anda dapat menghasilkan hasil yang terbaik. Kami juga melakukan jaminan kualiti secara berkala untuk memastikan data memenuhi piawaian tertinggi dan akan berfungsi seperti yang diharapkan tidak hanya di makmal, tetapi juga dalam situasi di dunia nyata.

4. Garis masa pembangunan yang dipercepat

Pengembangan AI tidak berlaku dalam sekelip mata, tetapi dapat terjadi lebih cepat ketika anda bekerjasama dengan Shaip. Pengumpulan dan anotasi data dalaman mewujudkan hambatan operasi yang signifikan yang menahan proses pembangunan yang selebihnya. Bekerja dengan Shaip memberi anda akses segera ke perpustakaan data siap pakai kami yang luas, dan pakar kami dapat memperoleh segala jenis input tambahan yang anda perlukan dengan pengetahuan industri dan rangkaian global kami yang mendalam. Tanpa beban sumber dan anotasi, pasukan anda dapat segera mengembangkan pembangunan sebenar, dan model latihan kami dapat membantu mengenal pasti ketidaktepatan awal untuk mengurangkan lelaran yang diperlukan untuk memenuhi tujuan ketepatan.

Sekiranya anda tidak bersedia melakukan outsourcing semua aspek dalam pengurusan data anda, Shaip juga menawarkan platform berasaskan awan yang membantu pasukan menghasilkan, mengubah, dan memberi anotasi pelbagai jenis data dengan lebih berkesan, termasuk sokongan untuk gambar, video, teks, dan audio . ShaipCloud merangkumi pelbagai alat pengesahan dan alur kerja intuitif, seperti penyelesaian yang dipatenkan untuk mengesan dan memantau beban kerja, alat transkripsi untuk menyalin rakaman audio yang rumit dan sukar, dan komponen kawalan kualiti untuk memastikan kualiti tanpa kompromi. Yang terbaik, ia boleh diskalakan, sehingga dapat berkembang seiring dengan bertambahnya permintaan dari projek anda.

Zaman inovasi AI baru bermula, dan kita akan melihat kemajuan dan inovasi yang luar biasa pada tahun-tahun mendatang yang berpotensi untuk membentuk semula seluruh industri atau bahkan mengubah masyarakat secara keseluruhan. Di Shaip, kami ingin menggunakan kepakaran kami untuk berfungsi sebagai kekuatan transformatif, membantu syarikat yang paling revolusioner di dunia memanfaatkan kekuatan penyelesaian AI untuk mencapai tujuan yang bercita-cita tinggi.

Kami mempunyai pengalaman yang mendalam dalam aplikasi kesihatan dan AI percakapan, tetapi kami juga mempunyai kemahiran yang diperlukan untuk melatih model untuk hampir semua jenis aplikasi. Untuk maklumat lebih lanjut mengenai bagaimana Shaip dapat membantu mengambil projek anda dari idea hingga pelaksanaan, lihat banyak sumber yang ada di laman web kami atau hubungi kami hari ini.

Garis Masa Pembangunan yang Dipercepat

Mari berbincang

  • Dengan mendaftar, saya bersetuju dengan Shaip Polisi Privasi and Syarat Perkhidmatan dan memberikan persetujuan saya untuk menerima komunikasi pemasaran B2B daripada Shaip.