Data Latihan Pengecaman Pertuturan

Data Latihan Pengecaman Pertuturan – Jenis, pengumpulan data dan aplikasi

Jika anda menggunakan Siri, Alexa, Cortana, Amazon Echo atau yang lain sebagai sebahagian daripada kehidupan harian anda, anda akan menerimanya Pengenalan suara telah menjadi sebahagian daripada kehidupan kita di mana-mana. Ini dikuasakan kecerdasan buatan pembantu suara menukar pertanyaan lisan pengguna ke dalam teks, mentafsir dan memahami perkara yang diperkatakan oleh pengguna untuk menghasilkan respons yang sesuai.

Terdapat keperluan untuk pengumpulan data yang berkualiti untuk membangunkan pertuturan yang boleh dipercayai, model pengecaman. Tetapi, berkembang perisian pengecaman pertuturan bukanlah tugas yang mudah – tepat kerana menyalin pertuturan manusia dalam semua kerumitannya, seperti irama, loghat, nada dan kejelasan, adalah sukar. Dan, apabila anda menambah emosi pada campuran kompleks ini, ia menjadi satu cabaran.

Apakah Pengecaman Pertuturan?

Pengecaman pertuturan ialah keupayaan perisian untuk mengecam dan memproses pertuturan manusia ke dalam teks. Walaupun perbezaan antara pengecaman suara dan pengecaman pertuturan mungkin kelihatan subjektif kepada kebanyakan orang, terdapat beberapa perbezaan asas antara keduanya.

Walaupun kedua-dua pertuturan dan pengecaman suara membentuk sebahagian daripada teknologi pembantu suara, mereka melaksanakan dua fungsi berbeza. Pengecaman pertuturan melakukan transkripsi automatik pertuturan dan perintah manusia ke dalam teks, manakala pengecaman suara hanya berkaitan dengan pengecaman suara pembesar suara.

Jenis-jenis Pengecaman Pertuturan

Sebelum kita melompat ke jenis pengecaman pertuturan, mari kita lihat secara ringkas data pengecaman pertuturan.

Data pengecaman pertuturan ialah koleksi rakaman audio pertuturan manusia dan transkripsi teks yang membantu melatih sistem pembelajaran mesin untuk pengecaman suara.

Rakaman audio dan transkripsi dimasukkan ke dalam sistem ML supaya algoritma boleh dilatih untuk mengenali nuansa pertuturan dan memahami maksudnya.

Walaupun terdapat banyak tempat di mana anda boleh mendapatkan set data pra-pakej percuma, yang terbaik adalah untuk mendapatkannya set data tersuai untuk projek anda. Anda boleh memilih saiz koleksi, keperluan audio dan pembesar suara serta bahasa dengan mempunyai set data tersuai.

Spektrum Data Pertuturan

Data pertuturan spektrum mengenal pasti kualiti dan nada pertuturan daripada semula jadi kepada tidak semula jadi.

  • Data pengecaman Pertuturan Skrip

    Seperti namanya, ucapan skrip ialah bentuk data terkawal. Penceramah merekodkan frasa tertentu daripada teks yang disediakan. Ini biasanya digunakan untuk menyampaikan arahan, menekankan bagaimana kata atau frasa dikatakan daripada apa yang diperkatakan.

    Pengecaman pertuturan skrip boleh digunakan apabila membangunkan pembantu suara yang harus mengambil arahan yang dikeluarkan menggunakan aksen pembesar suara yang pelbagai.

  • Pengecaman pertuturan Berasaskan Senario

    Dalam ucapan berasaskan senario, penceramah diminta membayangkan senario tertentu dan mengeluarkan a arahan suara berdasarkan senario. Dengan cara ini, hasilnya ialah himpunan arahan suara yang bukan skrip tetapi dikawal.

    Data pertuturan berasaskan senario diperlukan oleh pembangun yang ingin membangunkan peranti yang memahami pertuturan harian dengan pelbagai nuansanya. Contohnya, meminta arah untuk pergi ke Pizza Hut terdekat menggunakan pelbagai soalan.

  • Pengecaman Pertuturan Semulajadi

    Tepat di penghujung spektrum pertuturan ialah pertuturan yang spontan, semula jadi, dan tidak dikawal dalam apa jua cara. Penceramah bercakap dengan bebas menggunakan nada perbualan semula jadi, bahasa, nada dan tenornya.

    Jika anda ingin melatih aplikasi berasaskan ML tentang pengecaman pertuturan berbilang pembesar suara, maka yang tidak skrip atau pertuturan percakapan set data berguna.

Komponen Pengumpulan Data untuk Projek Pertuturan

Pengumpulan data ucapan Satu siri langkah yang terlibat dalam pengumpulan data pertuturan memastikan data yang dikumpul adalah berkualiti dan membantu dalam melatih model berasaskan AI berkualiti tinggi.

Fahami respons pengguna yang diperlukan

Mulakan dengan memahami respons pengguna yang diperlukan untuk model. Untuk membangunkan model pengecaman pertuturan, anda harus mengumpulkan data yang mewakili kandungan yang anda perlukan. Kumpul data daripada interaksi dunia sebenar untuk memahami interaksi dan respons pengguna. Jika anda sedang membina pembantu sembang berasaskan AI, lihat log sembang, rakaman panggilan, respons kotak dialog sembang untuk mencipta set data.

Teliti bahasa khusus domain

Anda memerlukan kandungan generik dan khusus domain untuk set data pengecaman pertuturan. Sebaik sahaja anda telah mengumpul data pertuturan generik, anda harus menapis data dan mengasingkan generik daripada khusus.

Sebagai contoh, pelanggan boleh menelefon untuk meminta temujanji untuk memeriksa glaukoma di pusat penjagaan mata. Meminta temu janji adalah istilah yang sangat umum, tetapi glaukoma adalah khusus domain.

Selain itu, semasa melatih model ML pengecaman pertuturan, pastikan anda melatihnya untuk mengenal pasti frasa dan bukannya secara individu perkataan yang diiktiraf.

Rakam Ucapan Manusia

Selepas mengumpul data daripada dua langkah sebelumnya, langkah seterusnya melibatkan mendapatkan manusia untuk merekodkan kenyataan yang dikumpul.

Adalah penting untuk mengekalkan panjang skrip yang ideal. Meminta orang ramai membaca lebih daripada 15 minit teks boleh menjadi tidak produktif. Kekalkan jurang minimum 2 – 3 saat antara setiap kenyataan yang direkodkan.

Benarkan rakaman menjadi dinamik

Bina repositori pertuturan pelbagai orang, aksen pertuturan, gaya yang dirakam dalam keadaan, peranti dan persekitaran yang berbeza. Jika majoriti pengguna akan datang akan menggunakan talian tetap, pangkalan data koleksi pertuturan anda harus mempunyai perwakilan penting yang sepadan dengan keperluan tersebut.

Mendorong kebolehubahan dalam rakaman Pertuturan

Setelah persekitaran sasaran telah disediakan, minta subjek pengumpulan data anda membaca skrip yang disediakan di bawah persekitaran yang serupa. Minta subjek untuk tidak bimbang tentang kesilapan dan pastikan persembahan itu senatural mungkin. Ideanya adalah untuk mempunyai sekumpulan besar orang yang merakam skrip dalam persekitaran yang sama.

Terjemahkan Ucapan

Sebaik sahaja anda telah merekodkan skrip menggunakan berbilang subjek (dengan kesilapan), anda harus meneruskan transkripsi. Pastikan kesilapan tetap utuh, kerana ini akan membantu anda mencapai kedinamikan dan kepelbagaian dalam data yang dikumpul.

Daripada meminta manusia menyalin keseluruhan teks perkataan demi perkataan, anda boleh melibatkan enjin pertuturan ke teks untuk melakukan transkripsi. Walau bagaimanapun, kami juga mencadangkan anda menggunakan transkrip manusia untuk membetulkan kesilapan.

Membangunkan Set ujian

Membangunkan set ujian adalah penting kerana ia adalah pendahulu kepada model bahasa.

Buat sepasang ucapan dan teks yang sepadan dan jadikannya menjadi segmen.

Selepas mengumpul elemen yang dikumpul, ekstrak persampelan sebanyak 20%, yang membentuk set ujian. Ia bukan set latihan, tetapi data yang diekstrak ini akan memberitahu anda jika model terlatih menyalin audio yang belum dilatih.

Bina model latihan bahasa dan ukur

Sekarang bina model bahasa pengecaman pertuturan menggunakan pernyataan khusus domain dan variasi tambahan jika perlu. Sebaik sahaja anda telah melatih model, anda harus mula mengukurnya.

Ambil model latihan (dengan 80% segmen audio yang dipilih) dan ujinya terhadap set ujian (yang diekstrak 20% set data) untuk menyemak ramalan dan kebolehpercayaan. Semak kesilapan, corak dan fokus pada faktor persekitaran yang boleh diperbaiki.

Kemungkinan Penggunaan Kes atau Aplikasi

Kes penggunaan pengecaman pertuturan

Aplikasi Suara, Perkakas Pintar, Ucapan kepada teks, Sokongan Pelanggan, Imlak Kandungan, Aplikasi Keselamatan, Kenderaan Autonomi, Mencatat nota untuk penjagaan kesihatan.

Pengecaman pertuturan membuka dunia kemungkinan, dan penggunaan pengguna aplikasi suara telah meningkat selama bertahun-tahun.

Beberapa aplikasi biasa bagi teknologi pengecaman pertuturan termasuk:

  1. Aplikasi Carian Suara

    Menurut Google, mengenai 20% daripada carian yang dijalankan pada apl Google adalah suara. Lapan bilion orang dijangka menggunakan pembantu suara menjelang 2023, peningkatan mendadak daripada 6.4 bilion yang diramalkan pada 2022.

    Penggunaan carian suara telah meningkat dengan ketara selama bertahun-tahun, dan aliran ini diramalkan akan berterusan. Pengguna bergantung pada carian suara untuk mencari pertanyaan, membeli produk, mencari perniagaan, mencari perniagaan tempatan dan banyak lagi.

  2. Peranti Rumah/Perkakas Pintar

    Teknologi pengecaman suara sedang digunakan untuk menyediakan arahan suara kepada peranti pintar rumah seperti TV, lampu dan peralatan lain. 66% pengguna di UK, AS dan Jerman menyatakan bahawa mereka menggunakan pembantu suara apabila menggunakan peranti pintar dan pembesar suara.

  3. Ucapan ke teks

    Aplikasi pertuturan ke teks sedang digunakan untuk membantu dalam pengkomputeran percuma apabila menaip e-mel, dokumen, laporan dan lain-lain. Ucapan ke teks menghapuskan masa untuk menaip dokumen, menulis buku dan mel, video sari kata dan menterjemah teks.

  4. Sokongan pengguna

    Aplikasi pengecaman pertuturan digunakan terutamanya dalam perkhidmatan pelanggan dan sokongan. Sistem pengecaman pertuturan membantu dalam menyediakan penyelesaian perkhidmatan pelanggan 24/7 pada kos yang berpatutan dengan bilangan wakil yang terhad.

  5. Dikte Kandungan

    Imlak kandungan adalah satu lagi kes penggunaan pengecaman pertuturan yang membantu pelajar dan ahli akademik menulis kandungan yang luas dalam masa yang singkat. Ia cukup membantu untuk pelajar yang kurang bernasib baik kerana masalah buta atau penglihatan.

  6. Permohonan keselamatan

    Pengecaman suara digunakan secara meluas untuk tujuan keselamatan dan pengesahan dengan mengenal pasti ciri suara yang unik. Daripada meminta orang itu mengenal pasti diri mereka menggunakan maklumat peribadi yang dicuri atau disalahgunakan, biometrik suara meningkatkan keselamatan.

    Selain itu, pengecaman suara untuk tujuan keselamatan telah meningkatkan tahap kepuasan pelanggan kerana ia menghapuskan proses log masuk yang dilanjutkan dan pertindihan kelayakan.

  7. Arahan suara untuk kenderaan

    Kenderaan, terutamanya kereta, kini mempunyai ciri pengecaman suara biasa untuk meningkatkan keselamatan pemanduan. Ia membantu pemandu menumpukan pada pemanduan dengan menerima arahan suara mudah seperti memilih stesen radio, membuat panggilan atau mengurangkan kelantangan.

  8. Pengambilan nota untuk penjagaan kesihatan

    Perisian transkripsi perubatan yang dibina menggunakan algoritma pengecaman pertuturan dengan mudah menangkap nota suara, arahan, diagnosis dan gejala doktor. Pengambilan nota perubatan meningkatkan kualiti dan kesegeraan dalam industri penjagaan kesihatan.

Adakah anda mempunyai projek pengecaman pertuturan dalam fikiran yang boleh mengubah perniagaan anda? Apa yang anda perlukan ialah set data pengecaman pertuturan tersuai.

Perisian pengecaman pertuturan berasaskan AI perlu dilatih pada set data yang boleh dipercayai pada algoritma pembelajaran mesin untuk menyepadukan sintaks, tatabahasa, struktur ayat, emosi dan nuansa pertuturan manusia. Paling penting, perisian harus terus belajar dan bertindak balas - berkembang dengan setiap interaksi.

Di Shaip, kami menyediakan set data pengecaman pertuturan tersuai sepenuhnya untuk pelbagai projek pembelajaran mesin. Dengan Shaip, anda mempunyai akses kepada data latihan khas yang berkualiti tinggi yang boleh digunakan untuk membina dan memasarkan sistem pengecaman pertuturan yang boleh dipercayai. Hubungi pakar kami untuk pemahaman menyeluruh tentang tawaran kami.

[Baca juga: Panduan Lengkap AI Perbualan]

Kongsi sosial