Kajian Kes: Pengecaman Pertuturan Automatik

Lebih 8k jam Audio Dikumpul, 800 jam Ditranskripsi untuk Teknologi Suara Berbilang Bahasa

Perbualan ai

Pengenalan

India memerlukan platform yang menumpukan pada mencipta set data berbilang bahasa dan penyelesaian teknologi bahasa berasaskan AI untuk menyediakan perkhidmatan digital dalam bahasa India. Untuk melancarkan inisiatif ini, Pelanggan bekerjasama dengan Shaip untuk mengumpul dan menyalin bahasa India untuk membina model pertuturan pelbagai bahasa.

jumlah

Waktu Data Dikumpul
10
Bilangan Halaman Beranotasi
10 +
Tempoh Projek
< 1 bulan

Cabaran

Untuk membantu pelanggan dengan pelan hala tuju pertuturan Teknologi Pertuturan mereka untuk bahasa India, pasukan itu perlu memperoleh, membahagikan dan mentranskripsikan sejumlah besar data latihan untuk membina model AI. Keperluan kritikal pelanggan adalah:

Pengumpulan Data

  • Dapatkan 8000 jam data latihan dari lokasi terpencil di India
  • Pembekal untuk mengumpul ucapan Spontan daripada Kumpulan Umur 20-70 tahun
  • Pastikan gabungan penceramah yang pelbagai mengikut umur, jantina, pendidikan dan dialek
  • Setiap rakaman audio hendaklah sekurang-kurangnya 16kHz dengan 16 bit/sampel.
Pengumpulan data

Transkripsi Data

Ikuti garis panduan transkripsi butiran sekitar Aksara dan Simbol Khas, Ejaan dan Tatabahasa, Huruf Besar, Singkatan, Penguncupan, Huruf Tutur Individu, Nombor, Tanda Baca, Akronim dan Inisial, Pertuturan Tidak Lancar, Pertuturan Tidak Dapat Difahami, Bahasa Bukan Sasaran, Bukan Pertuturan

Transkripsi data

Semakan Kualiti & Maklum Balas

Semua rakaman untuk menjalani penilaian dan pengesahan kualiti, hanya rakaman ucapan yang disahkan untuk disampaikan

Penyelesaian

Dengan pemahaman mendalam kami tentang AI perbualan, kami membantu pelanggan mengumpul, menyalin data audio dengan pasukan pengumpul pakar, ahli bahasa dan anotasi untuk membina korpus besar data audio dari bahagian terpencil di India.

Skop kerja untuk Shaip termasuk tetapi tidak terhad kepada memperoleh sejumlah besar data latihan audio, menyalin data dan menghantar fail JSON yang sepadan yang mengandungi metadata [untuk kedua-dua pembesar suara dan transkrip. Bagi setiap pembesar suara, metadata termasuk ID Speaker tanpa nama, butiran peranti, maklumat demografi seperti jantina, umur dan pendidikan, bersama-sama dengan kod pin, status sosioekonomi, bahasa yang dituturkan dan rekod tempoh penginapan mereka. Untuk setiap transkrip, data tersebut menggabungkan ID Penterjemah tanpa nama, butiran demografi yang serupa dengan penceramah, tempoh pengalaman transkripsi mereka dan pecahan menyeluruh bahasa yang boleh mereka baca, tulis dan tuturkan.

Shaip dikumpul 8000 jam data audio / Pertuturan spontan pada skala dan ditranskripsikan 800 jam sambil mengekalkan tahap kualiti yang diingini yang diperlukan untuk melatih teknologi pertuturan untuk projek yang kompleks. Borang Kebenaran Eksplisit telah diambil daripada setiap peserta. Ucapan / Spontan yang dikumpul adalah berdasarkan imej yang disediakan oleh Universiti. Daripada 3500 gambar, 1000 adalah generik dan 2500 berkaitan dengan budaya khusus daerah, perayaan, dll. Imej menggambarkan pelbagai domain seperti stesen kereta api, pasar, cuaca dan banyak lagi.

Pengumpulan Data

NegeriDaerahAudio HrsTranscription
(Jam)
BiharSaran, Champaran Timur, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaffarpur, Jamui2000200
UttarpradeshDeoria, Varanasi, Gorakhpur, Ghazipur, Muzzaffarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun1000100
TerengganuNagaur, Churu20020
Wilayah PersekutuanTehri Garhwal, Uttarkashi20020
ChhattisgarhBilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma1000100
Bengal BaratPaschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, North 24 Parganas, Dakshin Dinajpur80080
JharkhandSahebganj, Jamtara20020
APGuntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam60060
TelanganaKarimnagar, Nalgonda20020
GoaGoa Utara+Selatan10010
KarnatakaDakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar1000100
SelangorSindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur70070
Jumlah8000800

Garis Panduan Am

format

    • Audio pada 16 kHz, 16 bit/sampel.
    • Saluran tunggal.
    • Audio mentah tanpa transkod.

Style

    • Ucapan spontan.
    • Ayat berdasarkan imej yang disediakan oleh Universiti. Daripada 3500 imej, 1000 adalah generik dan 2500 berkaitan dengan budaya khusus daerah, perayaan, dll. Imej menggambarkan pelbagai domain seperti stesen kereta api, pasar, cuaca dan banyak lagi.

Latar Belakang Rakaman

    • Dirakam dalam persekitaran yang tenang dan bebas gema.
    • Tiada gangguan telefon pintar (getaran atau pemberitahuan) semasa rakaman.
    • Tiada herotan seperti keratan atau kesan medan jauh.
    • Getaran dari telefon tidak boleh diterima; getaran luaran boleh diterima jika audio jelas.

Spesifikasi Pembesar suara

    • Berumur dalam lingkungan 20-70 tahun dengan agihan jantina seimbang setiap daerah.
    • Minimum 400 penutur asli di setiap daerah.
    • Penutur hendaklah menggunakan bahasa/dialek asal mereka.
    • Borang persetujuan adalah wajib untuk semua peserta.


Pemeriksaan Kualiti & Jaminan Kualiti Kritikal

Proses QA mengutamakan jaminan kualiti untuk rakaman audio dan transkripsi. Piawaian audio memfokuskan pada senyap yang tepat, tempoh segmen, kejelasan pembesar suara tunggal dan metadata terperinci termasuk umur dan status sosio-ekonomi. Kriteria transkripsi menekankan ketepatan teg, kebenaran perkataan dan butiran segmen yang betul. Penanda aras penerimaan menentukan bahawa jika lebih daripada 20% kumpulan audio gagal piawaian ini, ia akan ditolak. Untuk percanggahan kurang daripada 20%, rakaman gantian dengan profil yang serupa diperlukan.

Transkripsi Data

Garis panduan transkripsi menekankan ketepatan dan transkripsi verbatim hanya apabila perkataan jelas dan boleh difahami; perkataan yang tidak jelas ditandakan sebagai [tidak dapat difahami] atau [tidak dapat didengar] berdasarkan isu tersebut. Sempadan ayat dalam audio panjang ditandakan dengan , dan tiada parafrasa atau pembetulan kesalahan tatabahasa dibenarkan. Transkripsi verbatim meliputi kesilapan, slanga dan pengulangan tetapi menghilangkan permulaan palsu, bunyi pengisi dan gagap. Bunyi latar belakang dan latar depan ditranskripsikan dengan teg deskriptif, manakala nama, tajuk dan nombor yang betul mengikut peraturan transkripsi tertentu. Label pembesar suara digunakan untuk setiap ayat, dan ayat yang tidak lengkap ditunjukkan dengan.

Aliran Kerja Projek

Aliran kerja menerangkan proses transkripsi audio. Ia bermula dengan peserta onboarding dan latihan. Mereka merakam audio menggunakan aplikasi, yang dimuat naik ke platform QA. Audio ini menjalani pemeriksaan kualiti dan pembahagian automatik. Pasukan teknologi kemudiannya menyediakan segmen untuk transkripsi. Selepas transkripsi manual, terdapat langkah jaminan kualiti. Transkripsi dihantar kepada pelanggan, dan jika diterima, penghantaran dianggap lengkap. Jika tidak, semakan dibuat berdasarkan maklum balas pelanggan.

Hasil

Data audio berkualiti tinggi daripada pakar bahasa akan membolehkan pelanggan kami melatih dan membina model Pengecaman Pertuturan berbilang bahasa dengan tepat dalam pelbagai bahasa India dengan dialek berbeza dalam masa yang ditetapkan. Model pengecaman pertuturan boleh digunakan untuk:

  • Atasi halangan bahasa untuk kemasukan digital dengan menghubungkan rakyat dengan inisiatif dalam bahasa ibunda mereka sendiri.
  • Menggalakkan Tadbir Urus Digital
  • Pemangkin untuk membentuk ekosistem untuk perkhidmatan dan produk dalam bahasa India
  • Kandungan digital yang lebih setempat dalam domain kepentingan awam, khususnya, tadbir urus & dasar

Kami kagum dengan kepakaran Shaip dalam bidang AI perbualan. Tugas mengendalikan 8000 jam data audio bersama-sama dengan 800 jam transkripsi merentasi 80 daerah yang pelbagai adalah monumental, sekurang-kurangnya. Kefahaman mendalam Shaip tentang butiran rumit dan nuansa domain ini yang membolehkan pelaksanaan projek yang mencabar itu berjaya. Keupayaan mereka untuk mengurus dan menavigasi dengan lancar melalui kerumitan jumlah data yang besar ini sambil memastikan kualiti terkemuka benar-benar dipuji.

Emas-5 bintang

Mempercepat AI Percakapan anda
pembangunan aplikasi sebanyak 100%