Kajian Kes: Koleksi Ujaran
Menyampaikan 7J+ Ucapan untuk membina pembantu digital berbilang bahasa dalam 13 bahasa
Penyelesaian Dunia Sebenar
Data yang menyokong perbualan global
Keperluan untuk latihan Utterance timbul kerana tidak semua pelanggan menggunakan perkataan atau frasa yang tepat semasa berinteraksi atau bertanya soalan kepada pembantu suara mereka dalam format skrip. Itulah sebabnya aplikasi suara tertentu mesti dilatih mengenai data pertuturan spontan. Cth, “Di manakah lokasi hospital terdekat?” “Cari hospital berdekatan saya” atau “Adakah hospital berdekatan?” semuanya menunjukkan maksud carian yang sama tetapi diungkapkan secara berbeza.
Masalah
Untuk melaksanakan pelan hala tuju pertuturan Pembantu Digital pelanggan untuk bahasa seluruh dunia, pasukan itu perlu memperoleh sejumlah besar data latihan untuk model AI pengecaman pertuturan. Keperluan kritikal pelanggan adalah:
- Dapatkan volum besar data latihan (gesaan sebutan penutur tunggal tidak lebih daripada 3-30 saat) untuk perkhidmatan pengecaman pertuturan dalam 13 bahasa global
- Untuk setiap bahasa, pembekal akan menjana gesaan teks untuk dirakam oleh pembesar suara (melainkan
bekalan pelanggan) dan transkripsikan audio yang terhasil. - Sediakan data audio dan transkripsi sebutan yang dirakam dengan fail JSON yang sepadan
mengandungi metadata untuk semua rakaman. - Pastikan gabungan penceramah yang pelbagai mengikut umur, jantina, pendidikan & dialek
- Pastikan gabungan pelbagai persekitaran rakaman mengikut Spesifikasi.
- Setiap rakaman audio hendaklah sekurang-kurangnya 16kHz tetapi sebaiknya 44kHz
“Selepas menilai banyak vendor, pelanggan memilih Shaip kerana kepakaran mereka dalam projek AI perbualan. Kami kagum dengan kecekapan pelaksanaan projek Shaip, kepakaran mereka untuk mendapatkan, menyalin dan menyampaikan ujaran yang diperlukan daripada pakar bahasa dalam 13 bahasa dalam garis masa yang ketat dan dengan kualiti yang diperlukan”
Penyelesaian
Dengan pemahaman mendalam kami tentang AI perbualan, kami membantu pelanggan mengumpul, menyalin dan menganotasi data dengan sepasukan pakar bahasa dan annotator untuk melatih Suite Suara berbilang bahasa Pemprosesan Pertuturan dikuasakan AI mereka.
Skop kerja untuk Shaip termasuk tetapi tidak terhad kepada memperoleh volum besar data latihan audio untuk pengecaman pertuturan, menyalin rakaman audio dalam berbilang bahasa untuk semua bahasa pada peta jalan bahasa Tahap 1 dan Tahap 2 kami, dan menyampaikan yang sepadan. JSON fail yang mengandungi metadata. Shaip mengumpul sebutan 3-30 saat pada skala sambil mengekalkan tahap kualiti yang diingini yang diperlukan untuk melatih model ML untuk projek yang kompleks.
- Audio Dikumpul, Ditranskripsi & Beranotasi: 22,250 jam
- Bahasa yang Disokong: 13 (Denmark, Korea, Arab Arab Saudi, Belanda, Tanah Besar & Cina Taiwan, Kanada Perancis, Sepanyol Mexico, Turki, Hindi, Poland, Jepun, Rusia)
- Bilangan Lafaz: 7M +
- Garis masa: 7-8 bulan
Semasa mengumpul sebutan audio pada 16 kHz, kami memastikan gabungan pembesar suara yang sihat mengikut umur, jantina, pendidikan dan dialek dalam persekitaran rakaman yang pelbagai.
Hasilnya
Data audio ujaran berkualiti tinggi daripada ahli bahasa pakar memperkasakan pelanggan untuk melatih model Pengecaman Pertuturan berbilang bahasa mereka dengan tepat dalam 13 bahasa Peringkat 1 & 2 Global. Dengan set data latihan standard emas, pelanggan boleh menawarkan bantuan digital yang bijak dan teguh untuk menyelesaikan masalah dunia sebenar masa hadapan.
Kepakaran kami
Sumber Disyorkan
Panduan Pembeli
Panduan Pembeli: AI Perbualan
Chatbot yang anda berbual berjalan pada sistem AI perbualan lanjutan yang dilatih, diuji dan dibina menggunakan banyak set data pengecaman pertuturan.
Blog
Keadaan Perbualan AI 2021
Infografik Conversational AI 2021 membincangkan tentang apa itu AI Percakapan, evolusi, jenisnya, Pasar AI Percakapan mengikut Wilayah, Kes Penggunaan, cabaran, dll.
Blog
3 Halangan Terhadap Evolusi AI Percakapan
Shaip memulai evolusi AI percakapan sebagai alat penglibatan pelanggan dengan menawarkan data audio yang dijelaskan dalam 50+ bahasa.
Beritahu kami bagaimana kami dapat membantu dengan inisiatif AI anda yang seterusnya.