Pengumpulan Data Untuk AI Perbualan

Cara Mendekati Pengumpulan Data untuk AI Perbualan

Hari ini, kami mempunyai beberapa robot bercakap sebagai chatbots, pembantu maya dan banyak lagi di rumah kami, sistem kereta, peranti mudah alih, penyelesaian automasi rumah, dsb. Peranti ini mendengar dengan tepat apa yang kami katakan dan cara kami berkata serta mendapatkan hasil atau melaksanakan tugas tertentu .

Dan jika anda telah menggunakan pembantu seperti Siri atau Alexa, anda juga akan menyedari bahawa mereka menjadi lebih aneh dari hari ke hari. Tanggapan mereka bijak, mereka bercakap balas, mereka meremehkan, membalas pujian dan berkelakuan lebih seperti manusia daripada beberapa rakan sekerja yang mungkin anda kenali. Kami tidak bergurau. Menurut PwC, 27% daripada pengguna yang berinteraksi dengan rakan perkhidmatan pelanggan mereka baru-baru ini tidak tahu sama ada mereka bercakap dengan manusia atau chatbot.

Membangunkan sistem dan peranti perbualan yang rumit itu sangat kompleks dan menakutkan. Ia adalah permainan bola yang berbeza sama sekali dengan pendekatan pembangunan yang berbeza. Itulah sebabnya kami fikir kami harus memecahkannya untuk anda untuk pemahaman yang lebih mudah. Jadi, jika anda ingin membangunkan enjin AI perbualan atau pembantu maya, panduan ini akan membantu anda mendapatkan kejelasan.

Kepentingan AI Perbualan

Memandangkan teknologi menjadi aspek yang lebih penting dalam kehidupan kita dalam bentuk peranti dan sistem yang lebih baharu, timbul keperluan untuk menolak halangan, memecahkan konvensyen dan menghasilkan cara baharu untuk berinteraksi dengannya. Daripada hanya menggunakan persisian yang disambungkan seperti tetikus dan papan kekunci, kami beralih kepada pad tetikus yang menawarkan lebih banyak kemudahan. Kami kemudiannya berhijrah ke skrin sentuh yang menawarkan kemudahan selanjutnya dalam memberi input dan melaksanakan tugas.

Dengan peranti menjadi sambungan kepada diri kita sendiri, kami kini membuka kunci medium arahan baharu melalui suara. Kita tidak perlu berada berdekatan dengan peranti untuk mengendalikannya. Apa yang perlu kita lakukan ialah menggunakan suara kita untuk membuka kuncinya dan mengarahkan input kita. Dari bilik berdekatan, semasa memandu, sambil menggunakan peranti lain secara serentak, AI perbualan melaksanakan tugas yang kita inginkan dengan lancar. Jadi di manakah kita bermula - semuanya bermula dengan data pertuturan berkualiti tinggi untuk melatih model ML.

Asas Mengumpul Data Latihan Pidato

Mengumpul dan menganotasi data latihan AI untuk AI perbualan adalah sangat berbeza. Terdapat banyak kerumitan yang terlibat dalam perintah manusia dan pelbagai langkah perlu dilaksanakan untuk memastikan setiap aspek dipenuhi untuk hasil yang memberi kesan. Mari kita lihat beberapa asas data pertuturan.

Pemahaman Bahasa Asli (NLU)

Untuk chatbots dan pembantu maya memahami dan membalas apa yang kami teks atau perintah, proses dipanggil NLU dilaksanakan. Ia bermaksud Pemahaman Bahasa Semula jadi dan melibatkan tiga konsep teknologi untuk mentafsir dan memproses jenis input yang pelbagai.

  • niat

    Semuanya bermula dengan niat. Apakah yang cuba disampaikan, disampaikan atau dicapai oleh pengguna tertentu melalui arahan? Adakah pengguna sedang mencari maklumat? Adakah mereka menunggu kemas kini untuk tindakan? Adakah mereka mengarahkan arahan untuk dilaksanakan oleh sistem? Bagaimana mereka memerintahkannya? Adakah melalui soalan atau permintaan? Semua aspek ini membantu mesin memahami dan mengklasifikasikan niat dan tujuan untuk menghasilkan respons kedap udara masing-masing.

  • Koleksi Lafaz

    Terdapat perbezaan antara arahan, "Di manakah ATM terdekat?" dan arahan, "Cari saya ATM berdekatan." Sekarang manusia akan mengakui bahawa kedua-duanya bermaksud perkara yang sama tetapi mesin perlu dijelaskan dengan perbezaan ini. Mereka adalah sama dari segi niat tetapi bagaimana niat telah dibentuk adalah berbeza sama sekali.

    Pengumpulan ujaran adalah tentang mentakrifkan dan memetakan ujaran dan frasa yang berbeza ke arah matlamat khusus untuk pelaksanaan tugas dan respons yang tepat. Secara teknikal, pakar anotasi data bekerja pada data pertuturan atau data teks untuk membantu mesin membezakan perkara ini.

  • Pengekstrakan Entiti

    Setiap ayat mempunyai perkataan atau frasa tertentu yang membawa wajaran yang ditekankan dan penekanan inilah yang membawa kepada tafsiran konteks dan tujuan. Mesin, seperti sistem tegarnya, perlu diberi makan kepada entiti sedemikian. Sebagai contoh, "Di manakah saya boleh mencari tali dari gitar saya berhampiran 6th Avenue?"

    Jika anda memperhalusi ayat, cari ialah entiti satu, rentetan ialah dua, gitar ialah tiga dan jalan ke-6 ialah 4. Entiti ini digabungkan bersama oleh mesin untuk mendapatkan hasil yang sesuai dan untuk ini berlaku, pakar bekerja di bahagian belakang.

Set Data Suara / Pertuturan / Audio di luar rak untuk Melatih Model AI Perbualan Anda dengan Lebih Pantas

Merekabentuk Dialog Untuk AI Perbualan

Matlamat AI kebanyakannya adalah mereplikasi tingkah laku manusia melalui gerak isyarat, tindakan dan tindak balas. Fikiran manusia yang sedar mempunyai keupayaan semula jadi untuk memahami konteks, niat, nada, emosi, dan faktor lain dan bertindak balas dengan sewajarnya. Tetapi bagaimana mesin boleh membezakan aspek ini? 

Mereka bentuk dialog untuk perbualan AI adalah sangat kompleks dan yang lebih penting, agak mustahil untuk melancarkan model universal. Setiap individu mempunyai cara berfikir, bercakap dan bertindak balas yang berbeza. Walaupun dalam respons, kita semua menyatakan pemikiran kita secara unik. Jadi, mesin perlu mendengar dan bertindak balas dengan sewajarnya. 

Walau bagaimanapun, ini tidak lancar juga. Apabila manusia bercakap, faktor seperti aksen, sebutan, etnik, bahasa dan banyak lagi masuk dan tidak mudah bagi mesin untuk salah faham dan salah tafsir perkataan dan membalas balik.. Perkataan tertentu boleh difahami oleh mesin dalam pelbagai cara apabila ditentukan oleh seorang India, British, Amerika dan Mexico. Terdapat banyak halangan bahasa yang berlaku dan cara paling praktikal untuk menghasilkan sistem tindak balas adalah melalui pengaturcaraan visual yang berasaskan carta alir. 

Melalui blok khusus untuk gerak isyarat, respons dan pencetus, pengarang dan pakar boleh membantu mesin membangunkan watak. Ini lebih seperti mesin algoritma yang boleh digunakan untuk menghasilkan respons yang betul. Apabila input diberikan, maklumat mengalir melalui faktor yang sepadan, membawa kepada tindak balas yang betul untuk dihantar oleh mesin. 

Dail D Untuk Kepelbagaian

Seperti yang kami nyatakan, interaksi manusia adalah sangat unik. Orang di seluruh dunia datang daripada pelbagai lapisan masyarakat, latar belakang, kewarganegaraan, demografi, etnik, loghat, diksi, sebutan dan banyak lagi. 

Untuk bot perbualan atau sistem boleh dikendalikan secara universal, ia perlu dilatih dengan data latihan yang pelbagai yang mungkin. Jika, sebagai contoh, model telah dilatih hanya dengan data pertuturan satu bahasa atau etnik tertentu, loghat baharu akan mengelirukan sistem dan memaksanya untuk menyampaikan hasil yang salah. Ini bukan sahaja memalukan pemilik perniagaan tetapi juga menghina pengguna. 

Itulah sebabnya fasa pembangunan harus melibatkan data latihan AI daripada kumpulan set data yang pelbagai yang terdiri daripada orang dari semua latar belakang yang mungkin. Lebih banyak aksen dan etnik yang difahami oleh sistem anda, lebih universal ia akan berlaku. Selain itu, perkara yang lebih menggusarkan pengguna bukanlah pengambilan maklumat yang salah tetapi kegagalan untuk memahami input mereka pada mulanya. 

Menghapuskan berat sebelah harus menjadi keutamaan utama dan satu cara syarikat boleh melakukan ini adalah dengan memilih data sumber ramai. Apabila anda menggunakan sumber ramai data pertuturan atau data teks anda, anda membenarkan orang dari seluruh dunia menyumbang kepada keperluan anda, menjadikan kumpulan data anda hanya sihat (Baca kami blog untuk memahami faedah dan kesulitan data penyumberan luar kepada pekerja sumber ramai). Kini, model anda akan memahami aksen dan sebutan yang berbeza dan bertindak balas dengan sewajarnya. 

Jalan kehadapan

Membangunkan AI perbualan adalah sama sukarnya dengan membesarkan bayi. Satu-satunya perbezaan ialah bayi itu akhirnya akan membesar untuk memahami sesuatu dan menjadi lebih baik dalam berkomunikasi secara autonomi. Ia adalah mesin yang perlu ditolak secara konsisten. Terdapat beberapa cabaran dalam ruang ini pada masa ini dan kita harus mengakui hakikat bahawa kita mempunyai beberapa sistem AI perbualan yang paling revolusioner yang muncul walaupun menghadapi cabaran ini. Mari kita tunggu dan lihat masa depan untuk chatbot kejiranan mesra dan pembantu maya kami. Sementara itu, jika anda berhasrat untuk mendapatkan AI perbualan seperti Google Home yang dibangunkan untuk perniagaan anda, hubungi kami untuk data latihan AI dan keperluan anotasi anda.

Kongsi sosial