Kajian Kes: AI Percakapan

Lebih 3k jam Data Dikumpul, Disegmen & Ditranskripsi untuk membina ASR dalam 8 bahasa India

Koleksi lafaz
Kerajaan berhasrat untuk membolehkan rakyatnya mendapat akses mudah kepada perkhidmatan internet & digitale dalam bahasa ibunda mereka sendiri melalui Projek Bhashini.

BHASHINI, platform penterjemahan bahasa dipacu AI India, merupakan bahagian penting dalam inisiatif Digital India.

Direka bentuk untuk menyediakan alatan Kecerdasan Buatan (AI) dan Pemprosesan Bahasa Semulajadi (NLP) kepada MSME, syarikat permulaan dan inovator bebas, platform Bhashini berfungsi sebagai sumber awam. Matlamatnya adalah untuk mempromosikan kemasukan digital dengan membolehkan warga India berinteraksi dengan inisiatif digital negara dalam bahasa ibunda mereka.

Selain itu, ia bertujuan untuk meluaskan ketersediaan kandungan internet dalam bahasa India dengan ketara. Ini terutama disasarkan kepada bidang kepentingan awam seperti tadbir urus dan dasar, sains dan teknologi, dan lain-lain. Akibatnya, ini akan mendorong rakyat untuk menggunakan internet dalam bahasa mereka sendiri, mempromosikan penyertaan aktif mereka.

Manfaatkan NLP untuk membolehkan ekosistem penyumbang yang pelbagai, entiti rakan kongsi dan rakyat untuk tujuan mengatasi halangan bahasa, dengan itu memastikan kemasukan & pemerkasaan digital

Penyelesaian Dunia Sebenar

Melancarkan Kuasa Penyetempatan dengan Data

India memerlukan platform yang akan menumpukan pada mencipta set data berbilang bahasa dan penyelesaian teknologi bahasa berasaskan AI untuk menyediakan perkhidmatan digital dalam bahasa India. Untuk melancarkan inisiatif ini, Institut Teknologi India, Madras (IIT Madras) bekerjasama dengan Shaip untuk mengumpul, membahagikan dan menyalin set data bahasa India untuk membina model pertuturan pelbagai bahasa.

Cabaran

Untuk membantu pelanggan dengan pelan hala tuju pertuturan Teknologi Pertuturan mereka untuk bahasa India, pasukan itu perlu memperoleh, membahagikan dan mentranskripsikan sejumlah besar data latihan untuk membina model AI. Keperluan kritikal pelanggan adalah:

Pengumpulan Data

  • Dapatkan 3000 jam data latihan dalam 8 bahasa India dengan 4 dialek bagi setiap bahasa.
  • Untuk setiap bahasa, pembekal akan mengumpul Extempore Speech dan
    Ucapan Perbualan daripada Kumpulan Umur 18-60 tahun
  • Pastikan gabungan pelbagai penutur mengikut umur, jantina, pendidikan & dialek
  • Pastikan gabungan pelbagai persekitaran rakaman mengikut Spesifikasi.
  • Setiap rakaman audio hendaklah sekurang-kurangnya 16kHz tetapi sebaiknya 44kHz

Segmentasi Data

  • Buat segmen pertuturan selama 15 saat & cap masa audio kepada milisaat untuk setiap pembesar suara yang diberikan, jenis bunyi (pertuturan, babble, muzik, bunyi bising), selekoh, sebutan & frasa dalam perbualan
  • Buat setiap segmen untuk isyarat bunyi yang disasarkan dengan padding 200-400 milisaat pada permulaan & akhir.
  • Untuk semua segmen, objek berikut mesti diisi iaitu, Masa Mula, Masa Tamat, ID Segmen, Tahap Keras, Jenis Bunyi, Kod Bahasa, ID Pembesar Suara, dsb.

Transkripsi Data

  • Ikut garis panduan transkripsi butiran sekitar Aksara dan Simbol Khas, Ejaan dan Tatabahasa, Huruf Besar, Singkatan, Penguncupan, Huruf Tutur Individu, Nombor, Tanda Baca, Akronim, Tidak Lancar, Pertuturan, Pertuturan Tidak Dapat Difahami, Bahasa Bukan Sasaran, Bukan Pertuturan dsb.

Semakan Kualiti & Maklum Balas

  • Semua rakaman untuk menjalani penilaian & pengesahan kualiti, hanya ucapan yang disahkan untuk disampaikan

Penyelesaian

Dengan pemahaman mendalam kami tentang AI perbualan, kami membantu pelanggan mengumpul, membahagikan dan mentranskripsikan data dengan pasukan pengumpul pakar, ahli bahasa dan anotasi untuk membina kumpulan besar set data audio dalam 8 bahasa India

Skop kerja untuk Shaip termasuk tetapi tidak terhad kepada memperoleh volum besar data latihan audio, membahagikan rakaman audio dalam berbilang, mentranskripsi data dan menghantar fail JSON yang sepadan yang mengandungi metadata [SpeakerID, Umur, Jantina, Bahasa, Dialek,
Bahasa Ibunda, Kelayakan, Pekerjaan, Domain, Format fail, Kekerapan, Saluran, Jenis Audio, Bilangan pembesar suara, Bilangan Bahasa Asing, Persediaan yang digunakan, Audio Narrowband atau Wideband, dsb.]. 

Shaip mengumpul 3000 jam data audio pada skala sambil mengekalkan tahap kualiti yang diingini yang diperlukan untuk melatih teknologi pertuturan untuk projek yang kompleks. Borang Kebenaran Eksplisit telah diambil daripada setiap peserta.

1. Pengumpulan data