Pasaran pengecaman suara, di dunia, dijangka berkembang ke $ 84.97 bilion menjelang 2032 daripada $10.7 bilion pada 2023 pada CAGR sebanyak 23.7%.
Menyesuaikan pengumpulan data pertuturan adalah penting untuk kejayaan projek AI dan pembelajaran mesin (ML) anda. Sama ada anda membina ejen AI perbualan, model pengecaman pertuturan atau aplikasi berasaskan suara lain, kualiti dan kepelbagaian data pertuturan anda boleh menjadikan atau merosakkan prestasi model anda.
Dalam panduan komprehensif ini, kami akan meneroka 7 kaedah terbukti untuk membantu anda menyesuaikan dan mengoptimumkan proses pengumpulan data pertuturan anda. Daripada menentukan keperluan bahasa dan demografi yang betul kepada menyepadukan teknik penambahan data lanjutan, strategi ini akan memastikan anda mengumpul data pertuturan berkualiti tinggi yang model AI/ML anda perlukan untuk berkembang maju.
Mari kita lihat semua cara atau perkara yang berkesan untuk diingat sebelum menyesuaikan pengumpulan data ucapan projek.
- Bahasa dan demografi
- Saiz Koleksi
- Struktur Skrip
- Keperluan dan format audio
- Keperluan Penghantaran dan Pemprosesan
- Manfaatkan Teknik Pembesaran Data Lanjutan
- Perkara Penting Lain yang Perlu Diperhatikan
Bahasa dan demografi
Projek itu hendaklah terlebih dahulu menentukan bahasa sasaran dan demografi sasaran.
Bahasa dan Dialek
Mulakan dengan mengingati keperluan projek – bahasa yang mana set data pertuturan sedang dikumpulkan dan disesuaikan. Juga, fahami keperluan kemahiran khusus. Sebagai contoh, patutkah peserta ialah penutur asli atau bukan penutur asli?
Sebagai contoh – Penutur Bahasa Inggeris Asli
Berjalan dekat pada tumit bahasa adalah dialek. Untuk memastikan set data tidak mengalami berat sebelah, adalah dinasihatkan untuk memperkenalkan dialek secara sengaja untuk menampung kepelbagaian dalam peserta.
Sebagai contoh – Penceramah beraksen Inggeris Australia
negara
Sebelum menyesuaikan, adalah penting untuk mengetahui sama ada terdapat keperluan khusus bahawa peserta harus datang dari negara tertentu. Dan, sama ada peserta perlu tinggal di negara tertentu pada masa ini.
Sebagai contoh – Bahasa Punjabi dituturkan secara berbeza di India dan Pakistan.
Demografi
Selain bahasa dan geografi, penyesuaian juga boleh dilakukan berdasarkan demografi. Pengagihan sasaran peserta berdasarkan umur, jantina, kelayakan pendidikan dan banyak lagi juga boleh dilakukan.
Sebagai contoh – Dewasa Vs Kanak-kanak atau Berpendidikan vs Tidak Berpendidikan
Saiz koleksi
Set data anda akan memberi kesan kepada prestasi projek data anda. Walau bagaimanapun, saiz data pengumpulan yang anda perlukan juga akan menentukan peserta yang diperlukan.
Jumlah Bilangan Responden
Tentukan jumlah peserta yang akan diperlukan untuk projek tersebut. Sekiranya projek memerlukan bahasa pengumpulan data audio, anda harus menganalisis jumlah bilangan peserta yang diperlukan bagi setiap bahasa sasaran.
Sebagai contoh – 50% Bahasa Inggeris Amerika dan 50% Penutur Bahasa Inggeris Australia
Jumlah Bilangan Lafaz
Untuk membina pengumpulan data pertuturan, tentukan jumlah sebutan atau ulangan setiap peserta atau jumlah ulangan yang diperlukan.
Sebagai contoh – 50 peserta dengan 25 sebutan setiap peserta = 1250 ulangan
Struktur skrip
Skrip juga boleh disesuaikan untuk memenuhi keperluan projek, jadi adalah dinasihatkan untuk mendapatkan bantuan daripada ahli terapi pertuturan untuk mereka bentuk aliran teks. Jika model ML perlu dilatih mengenai data yang tersusun dengan baik, ia perlu mengambil kira skrip dan aliran kerja.
Berskrip vs Tidak Berskrip
Anda boleh memilih antara menggunakan teks berskrip atau teks semula jadi atau tidak berskrip untuk dibaca oleh peserta.
Dalam ucapan teks berskrip, para peserta membaca apa yang dipaparkan pada skrin. Kaedah ini, kebanyakannya, digunakan untuk merekod arahan atau arahan.
Sebagai contoh – 'Matikan muzik,' 'Tekan 1 untuk merakam.'
Dalam ucapan tanpa skrip, para peserta diberikan senario dan diminta untuk merangka ayat mereka dan bercakap secara semulajadi yang mungkin.
Sebagai contoh – 'Bolehkah anda beritahu saya di mana stesen minyak seterusnya?'
Koleksi Lafaz / Kata Bangun
Sekiranya teks skrip digunakan, anda perlu menentukan bilangan skrip yang akan digunakan dan sama ada setiap peserta akan membaca skrip unik atau sekumpulan skrip. Juga, tentukan sama ada skrip mengandungi koleksi perkataan dan arahan bangun.
Sebagai contoh -
Perintah 1:
"Alexa, apakah resipi untuk kek cawan coklat?"
“Ok Google, apakah resipi untuk kek cawan coklat?”
"Siri, apakah resipi untuk kek cawan coklat?"
Perintah 2:
"Alexa, bila penerbangan ke New York?"
“Google, bila penerbangan ke New York?”
“Siri, bila penerbangan ke New York?”
Keperluan dan format audio
Kualiti audio memainkan peranan penting dalam pengecaman pertuturan pengumpulan data proses. Bunyi latar belakang yang mengganggu boleh menjejaskan kualiti nota suara yang dikumpul secara negatif. Ini mungkin juga mengurangkan keberkesanan algoritma pengecaman suara.
Kualiti audio
Kualiti rakaman dan kehadiran bunyi latar belakang boleh memberi kesan kepada hasil projek. Tetapi beberapa pengumpulan data pertuturan menerima kehadiran bunyi. Walau bagaimanapun, adalah dinasihatkan untuk mempunyai pemahaman yang lebih baik tentang keperluan dari segi kadar bit, nisbah isyarat-ke-bunyi, amplitud dan banyak lagi.
format
Format fail, titik data, struktur kandungan, pemampatan dan keperluan pasca pemprosesan juga menentukan kualiti rakaman pertuturan.
Sebab pentingnya format fail ialah model perlu mengenal pasti output fail dan dilatih untuk mengenali kualiti bunyi tertentu itu.
Tentukan Keperluan Audio Tersuai
Keperluan audio tersuai hendaklah dinyatakan sebelum permulaan proses pengumpulan. Pelanggan boleh memilih fail audio tersuai di mana fail tertentu digabungkan bersama.
[Baca juga: Tingkatkan model AI dengan set data audio bahasa India kami yang berkualiti.]
Keperluan Penghantaran dan Pemprosesan
Setelah data pertuturan dikumpul, pelanggan boleh memilih untuk menyampaikannya mengikut keperluan mereka.
Keperluan Transkripsi dan Anotasi
Sesetengah pelanggan memerlukan transkripsi dan pelabelan data sebelum mereka menghantar. Selain itu, mereka juga mungkin memerlukan bentuk pelabelan dan pembahagian tertentu.
Kadang-kadang lebih baik mencari ahli patologi bahasa pertuturan dan pakar untuk membantu dalam menyalin pertuturan dalam pelbagai bahasa untuk mengekalkan keaslian bahasa sasaran.
Konvensyen penamaan fail
. borang pengumpulan data hendaklah menentukan sebarang konvensyen penamaan fail yang perlu diikuti. Jika konvensyen penamaan adalah kompleks atau di luar skop standard proses, ia boleh menarik kos pembangunan tambahan.
Garis Panduan Penghantaran
Garis panduan keselamatan dan penghantaran hendaklah dipatuhi seperti yang dinyatakan dalam keperluan projek. Lebih-lebih lagi, jika data ingin dihantar dalam pencapaian kecil atau sebagai pakej lengkap sekaligus harus dinyatakan. Pelanggan juga lebih suka menepati masa pemantauan kemajuan kemas kini supaya mereka boleh menjejaki status projek.
Manfaatkan Teknik Pembesaran Data Lanjutan
- Penambahan data pertuturan boleh mengembangkan kepelbagaian dan keteguhan set data anda dengan ketara.
- Terokai teknik seperti peralihan nada audio, regangan masa, suntikan hingar dan penukaran suara untuk menghasilkan sampel pertuturan baharu yang berkualiti tinggi secara sintetik.
- Sepadukan kaedah penambahan data ini ke dalam aliran kerja pengumpulan data pertuturan anda untuk mencipta set data yang lebih komprehensif dan mewakili
Perkara Penting Lain yang Perlu Diperhatikan
Penyesuaian akan memberi kesan bagaimana,
- Kaedah pengumpulan data yang digunakan
- Pengambilan peserta
- Garis masa untuk penghantaran
- Kos Tentatif projek
Kajian Kes: Pengumpulan Data Pertuturan Pelbagai Bahasa
Shaip baru-baru ini bekerjasama dengan syarikat AI perbualan terkemuka untuk mengumpulkan data pertuturan berkualiti tinggi dalam 12 bahasa untuk platform pembantu maya mereka. Dengan memanfaatkan kepakaran kami dalam kepelbagaian linguistik dan amalan terbaik pengumpulan data, kami berjaya menyampaikan set data komprehensif yang meningkatkan dengan ketara ketepatan pengecaman pertuturan pelanggan dan pengalaman pengguna merentas pelbagai pasaran.
Masa Depan Pengumpulan Data Pertuturan
Memandangkan teknologi AI dan ML terus berkembang, permintaan untuk data pertuturan berkualiti tinggi hanya akan terus berkembang. Aliran baru muncul, seperti pengecaman pertuturan berbilang bahasa dan berbilang aksen, akan memerlukan set data yang lebih pelbagai dan mewakili. Selain itu, penggunaan data sintetik dan teknik penambahan data lanjutan akan memainkan peranan yang semakin penting dalam mengembangkan saiz dan kepelbagaian set data pertuturan.
Di Shaip, kami komited untuk kekal di barisan hadapan dalam aliran ini dan menyediakan pelanggan kami perkhidmatan pengumpulan data pertuturan berkualiti tinggi untuk memperkasakan inovasi AI/ML mereka.
Kesimpulan
Dengan mengikuti 7 kaedah terbukti ini, anda boleh mereka bentuk dan melaksanakan projek pengumpulan data pertuturan yang menetapkan aplikasi AI/ML anda untuk berjaya. Ingat, kualiti dan kepelbagaian data pertuturan anda adalah yang terpenting, jadi pastikan anda melaburkan masa dan sumber yang diperlukan untuk mencipta set data yang benar-benar memenuhi keperluan projek anda.
Jika anda memerlukan bantuan lanjut dalam menyesuaikan dan mengoptimumkan pengumpulan data pertuturan anda, pakar di Shaip sedia membantu. Hubungi kami hari ini untuk mengetahui cara perkhidmatan data hujung ke hujung kami boleh meningkatkan keupayaan AI/ML anda.
[Baca juga: Data Latihan Pengecaman Pertuturan – Jenis, Pengumpulan Data dan Aplikasi]