Kajian Kes: AI Percakapan

Lebih 3k jam Data Dikumpul, Disegmen & Ditranskripsi untuk membina ASR dalam 8 bahasa India

Koleksi lafaz
Kerajaan berhasrat untuk membolehkan rakyatnya mendapat akses mudah kepada perkhidmatan internet & digitale dalam bahasa ibunda mereka sendiri melalui Projek Bhashini.

BHASHINI, platform penterjemahan bahasa dipacu AI India, merupakan bahagian penting dalam inisiatif Digital India.

Direka bentuk untuk menyediakan alatan Kecerdasan Buatan (AI) dan Pemprosesan Bahasa Semulajadi (NLP) kepada MSME, syarikat permulaan dan inovator bebas, platform Bhashini berfungsi sebagai sumber awam. Matlamatnya adalah untuk mempromosikan kemasukan digital dengan membolehkan warga India berinteraksi dengan inisiatif digital negara dalam bahasa ibunda mereka.

Selain itu, ia bertujuan untuk meluaskan ketersediaan kandungan internet dalam bahasa India dengan ketara. Ini terutama disasarkan kepada bidang kepentingan awam seperti tadbir urus dan dasar, sains dan teknologi, dan lain-lain. Akibatnya, ini akan mendorong rakyat untuk menggunakan internet dalam bahasa mereka sendiri, mempromosikan penyertaan aktif mereka.

Manfaatkan NLP untuk membolehkan ekosistem penyumbang yang pelbagai, entiti rakan kongsi dan rakyat untuk tujuan mengatasi halangan bahasa, dengan itu memastikan kemasukan & pemerkasaan digital

Penyelesaian Dunia Sebenar

Melancarkan Kuasa Penyetempatan dengan Data

India memerlukan platform yang akan menumpukan pada mencipta set data berbilang bahasa dan penyelesaian teknologi bahasa berasaskan AI untuk menyediakan perkhidmatan digital dalam bahasa India. Untuk melancarkan inisiatif ini, Institut Teknologi India, Madras (IIT Madras) bekerjasama dengan Shaip untuk mengumpul, membahagikan dan menyalin set data bahasa India untuk membina model pertuturan pelbagai bahasa.

Cabaran

Untuk membantu pelanggan dengan pelan hala tuju pertuturan Teknologi Pertuturan mereka untuk bahasa India, pasukan itu perlu memperoleh, membahagikan dan mentranskripsikan sejumlah besar data latihan untuk membina model AI. Keperluan kritikal pelanggan adalah:

Pengumpulan Data

  • Dapatkan 3000 jam data latihan dalam 8 bahasa India dengan 4 dialek bagi setiap bahasa.
  • Untuk setiap bahasa, pembekal akan mengumpul Extempore Speech dan
    Ucapan Perbualan daripada Kumpulan Umur 18-60 tahun
  • Pastikan gabungan pelbagai penutur mengikut umur, jantina, pendidikan & dialek
  • Pastikan gabungan pelbagai persekitaran rakaman mengikut Spesifikasi.
  • Setiap rakaman audio hendaklah sekurang-kurangnya 16kHz tetapi sebaiknya 44kHz

Segmentasi Data

  • Buat segmen pertuturan selama 15 saat & cap masa audio kepada milisaat untuk setiap pembesar suara yang diberikan, jenis bunyi (pertuturan, babble, muzik, bunyi bising), selekoh, sebutan & frasa dalam perbualan
  • Buat setiap segmen untuk isyarat bunyi yang disasarkan dengan padding 200-400 milisaat pada permulaan & akhir.
  • Untuk semua segmen, objek berikut mesti diisi iaitu, Masa Mula, Masa Tamat, ID Segmen, Tahap Keras, Jenis Bunyi, Kod Bahasa, ID Pembesar Suara, dsb.

Transkripsi Data

  • Ikut garis panduan transkripsi butiran sekitar Aksara dan Simbol Khas, Ejaan dan Tatabahasa, Huruf Besar, Singkatan, Penguncupan, Huruf Tutur Individu, Nombor, Tanda Baca, Akronim, Tidak Lancar, Pertuturan, Pertuturan Tidak Dapat Difahami, Bahasa Bukan Sasaran, Bukan Pertuturan dsb.

Semakan Kualiti & Maklum Balas

  • Semua rakaman untuk menjalani penilaian & pengesahan kualiti, hanya ucapan yang disahkan untuk disampaikan

Penyelesaian

Dengan pemahaman mendalam kami tentang AI perbualan, kami membantu pelanggan mengumpul, membahagikan dan mentranskripsikan data dengan pasukan pengumpul pakar, ahli bahasa dan anotasi untuk membina kumpulan besar set data audio dalam 8 bahasa India

Skop kerja untuk Shaip termasuk tetapi tidak terhad kepada memperoleh volum besar data latihan audio, membahagikan rakaman audio dalam berbilang, mentranskripsi data dan menghantar fail JSON yang sepadan yang mengandungi metadata [SpeakerID, Umur, Jantina, Bahasa, Dialek,
Bahasa Ibunda, Kelayakan, Pekerjaan, Domain, Format fail, Kekerapan, Saluran, Jenis Audio, Bilangan pembesar suara, Bilangan Bahasa Asing, Persediaan yang digunakan, Audio Narrowband atau Wideband, dsb.]. 

Shaip mengumpul 3000 jam data audio pada skala sambil mengekalkan tahap kualiti yang diingini yang diperlukan untuk melatih teknologi pertuturan untuk projek yang kompleks. Borang Kebenaran Eksplisit telah diambil daripada setiap peserta.

1. Pengumpulan data

2. Pembahagian Data

  • Data audio yang dikumpul dicabangkan lagi kepada segmen pertuturan selama 15 saat setiap satu dan dicap masa kepada milisaat untuk setiap pembesar suara, jenis bunyi, selekoh, sebutan dan frasa dalam perbualan yang diberikan
  • Mencipta setiap segmen untuk isyarat bunyi yang disasarkan dengan padding 200-400 milisaat pada permulaan dan penghujung isyarat bunyi.
  • Untuk semua segmen, objek berikut telah hadir dan diisi iaitu, Masa Mula, Masa Tamat, ID Segmen, Tahap Keradangan (Kuat, Biasa, Senyap), Jenis Bunyi Utama (Pertuturan, Ocehan, Muzik, Bunyi, Bertindih), ID Pembesar Suara Kod Bahasa, Transkripsi dsb.

3. Semakan Kualiti dan Maklum Balas

  • Semua rakaman dinilai untuk kualiti dan hanya rakaman pertuturan yang disahkan dengan WER sebanyak 90% dan TER sebanyak 90% telah dihantar
  • Senarai Semak Kualiti Diikuti:
       » Panjang segmen maksimum 15 saat
       » Transkripsi daripada domain tertentu, iaitu: Cuaca, pelbagai jenis berita, kesihatan, pertanian, pendidikan, pekerjaan atau kewangan
       » Bunyi latar belakang rendah
       » Tiada Klip Audio dimatikan – Tiada herotan
       » Pembahagian audio yang betul untuk transkripsi

4. Transkripsi Data
Semua perkataan yang dituturkan, termasuk teragak-agak, kata pengisi, permulaan palsu dan tics lisan lain, telah ditangkap dengan tepat dalam transkripsi. Kami juga mengikuti garis panduan transkripsi butiran sekitar huruf besar dan huruf kecil, ejaan, huruf besar, singkatan, pengecutan, nombor,
tanda baca, Akronim, Pertuturan Tidak Fasih, bunyi bukan pertuturan dll. Selain itu, Aliran Kerja yang diikuti untuk Pengumpulan dan Transkripsi adalah seperti di bawah:

Hasil

Data audio berkualiti tinggi daripada pakar bahasa akan membolehkan Institut Teknologi India – Madras, melatih dan membina model Pengecaman Pertuturan berbilang bahasa dalam 8 bahasa India dengan dialek berbeza dalam masa yang ditetapkan dengan tepat. Model pengecaman pertuturan boleh digunakan untuk:

  • Atasi halangan bahasa untuk kemasukan digital dengan menghubungkan rakyat dengan inisiatif dalam bahasa ibunda mereka sendiri.
  • Menggalakkan Tadbir Urus Digital
  • Pemangkin untuk membentuk ekosistem untuk perkhidmatan dan produk dalam bahasa India
  • Kandungan digital yang lebih setempat dalam domain kepentingan awam, khususnya, tadbir urus & dasar
Emas-5 bintang

Kami kagum dengan kepakaran Shaip dalam ruang AI perbualan. Kecekapan pelaksanaan projek keseluruhan mereka daripada mendapatkan, membahagikan, menyalin dan menyampaikan data latihan yang diperlukan daripada ahli bahasa pakar dalam 8 bahasa dalam garis masa dan garis panduan yang ketat; sambil mengekalkan standard kualiti yang boleh diterima.”

Mempercepat AI Percakapan anda
pembangunan aplikasi sebanyak 100%

Pelanggan Pilihan

Memperkasakan pasukan untuk membina produk AI yang terkemuka di dunia.