Pengiktirafan Ucapan Automatik

Pengecaman Pertuturan Automatik (ASR): Segala-galanya yang Perlu Dikenali oleh Pemula (pada tahun 2024)

Teknologi Pengecaman Pertuturan Automatik telah wujud sejak sekian lama tetapi baru-baru ini mendapat perhatian selepas penggunaannya menjadi lazim dalam pelbagai aplikasi telefon pintar seperti Siri dan Alexa. Aplikasi telefon pintar berasaskan AI ini telah menggambarkan kuasa ASR dalam memudahkan tugas harian untuk kita semua.

Selain itu, apabila industri menegak yang berbeza terus bergerak ke arah automasi, keperluan asas untuk ASR tertakluk kepada lonjakan. Oleh itu, marilah kita memahami hebat ini teknologi pengecaman pertuturan mendalam dan mengapa ia dianggap sebagai salah satu teknologi yang paling penting untuk masa hadapan.

Sejarah Ringkas Teknologi ASR

Sebelum meneruskan dan meneroka potensi Pengecaman Pertuturan Automatik, mari kita lihat evolusinya dahulu.

1950s

Pada tahun 1950-an, Bell Labs mencipta pengecam pertuturan maya yang dikenali sebagai 'Audrey' yang boleh mengenal pasti nombor antara 1-9 apabila dituturkan oleh satu suara.

1960s

Pada tahun 1952, IBM melancarkan sistem pengecaman suara pertamanya, 'Shoebox,' yang boleh memahami dan membezakan antara enam belas perkataan Inggeris.

1970s

Universiti Carnegie Mellon pada tahun 1976 membangunkan sistem 'Harpy' yang boleh mengenali lebih 1000 perkataan.

1990s

Selepas 40 tahun, Bell Technologies sekali lagi menerobos industri dengan sistem IVR dail masuknya yang boleh menentukan pertuturan manusia.

2000s

Google mencipta perisian pertuturan lanjutan dengan kadar ketepatan 80%, menjadikannya popular di seluruh dunia.

2010s

Dekad yang lalu menjadi tempoh keemasan untuk ASR, dengan Amazon dan Apple melancarkan perisian pertuturan berasaskan AI pertama mereka, Alexa dan Siri.

Menjelang tahun 2010, ASR berkembang dengan pesat dan menjadi semakin berleluasa dan tepat. Hari ini, Amazon, Google dan Apple adalah peneraju yang paling menonjol dalam teknologi ASR.

[ Baca Juga: Panduan Lengkap AI Perbualan ]

Bagaimanakah Pengecaman Suara Berfungsi?

Pengecaman Pertuturan Automatik ialah teknologi yang agak canggih yang amat sukar untuk direka bentuk dan dibangunkan. Terdapat beribu-ribu bahasa di seluruh dunia dengan pelbagai dialek dan aksen, jadi sukar untuk membangunkan perisian yang boleh memahami semuanya.

ASR menggunakan konsep pemprosesan bahasa semula jadi dan pembelajaran mesin untuk pembangunannya. Dengan menggabungkan pelbagai mekanisme pembelajaran bahasa dalam perisian, pembangun memastikan ketepatan dan kecekapan perisian pengecaman pertuturan.

Berikut ialah beberapa langkah asas yang digunakan dalam membangunkan perisian Pengecaman Pertuturan Automatik:

  • Penghantaran Suara ke Isyarat Elektrik: Getaran suara seseorang ditangkap menggunakan mikrofon dan dihantar ke isyarat elektrik seperti gelombang.
  • Mengubah Elektrik kepada Isyarat Digital: Isyarat elektrik diubah lagi menjadi isyarat digital menggunakan peranti fizikal seperti kad bunyi.
  • Mendaftarkan Fonem ke Perisian: Perisian pengecaman pertuturan kemudian memeriksa isyarat digital dan mendaftarkan fonem untuk membezakan antara perkataan yang ditangkap.
  • Membina semula Fonem kepada Perkataan: Selepas memproses isyarat digital sepenuhnya dan mendaftarkan semua fonem, perkataan dibina semula, dan ayat dibentuk.

Untuk mencapai ketepatan yang dimaksudkan, perisian memanfaatkan kaedah analisis trigram, yang bergantung pada penggunaan tiga perkataan yang kerap digunakan melalui pangkalan data tertentu. Perisian ASR ialah teknologi luar biasa yang memecahkan sebarang corak audio, menganalisis bunyi dan menyalin bunyi yang dikumpul itu ke dalam teks dan perkataan yang bermakna.

[ Baca Juga: Apakah itu Teknologi Ucapan-ke-Teks dan Bagaimana ia berfungsi]

Contoh Dunia Nyata ASR

Real-world examples of asr

Pengecaman Pertuturan Automatik ialah teknologi hebat yang telah menjadi popular secara meluas dan berharga hari ini. Penonjolannya yang tinggi adalah kerana ia membolehkan pengguna menyelesaikan pelbagai tugas dengan pantas menggunakan kawalan bebas tangan. Produk paling popular yang menggunakan teknologi pengecaman pertuturan ialah:

  • Pembantu Google
    Dibangunkan pada 2016, Google Assistant ialah perisian berasaskan sembang terbaik hari ini, mempunyai kadar ketepatan tertinggi melebihi 95% dalam bahasa Inggeris AS. Secara kasarnya, ia digunakan oleh ratusan juta orang di seluruh dunia.
  • Apple Siri
    Siri ialah contoh klasik ketersediaan ASR di lebih 30 negara dan 21 bahasa di seluruh dunia. Siri ialah sistem berasaskan sembang pertama yang merevolusikan penggunaan teknologi pertuturan ke teks.
  • Amazon Alexa
    Alexa telah menjadi nama dan peranti isi rumah hari ini, dengan anggaran kiraan pengguna melebihi 100 juta orang di seluruh dunia.

Meneroka Lebih Banyak Kes Penggunaan untuk Teknologi Pengecaman Pertuturan

Selain daripada menggunakan teknologi ASR dalam perisian berasaskan sembang, terdapat kes penggunaan lain teknologi luar biasa ini. Berikut adalah beberapa daripada mereka:

  • Pengecaman Ucapan Kenderaan

    Vehicle speech recognition Hari ini, kami mempunyai kemewahan untuk memberitahu kereta kami siapa yang perlu dihubungi, lagu yang hendak dimainkan, dan tempat untuk menetapkan destinasi. Ini semua telah menjadi mungkin kerana teknologi pertuturan ke teks. Ini adalah satu langkah besar dalam aspek keselamatan pengalaman memandu anda. Dengan menghapuskan keperluan untuk berinteraksi secara fizikal dengan skrin, penggunaan ASR menghalang kehilangan perhatian yang boleh membawa kepada kemalangan.

  • Perkhidmatan Transkripsi

    Perkhidmatan transkripsi Teknologi ASR telah memperkemas proses transkripsi, membolehkan penukaran kandungan lisan yang cepat dan tepat kepada teks bertulis. Ini telah terbukti tidak ternilai untuk industri seperti kewartawanan, undang-undang dan sektor perubatan, di mana transkripsi yang tepat dan tepat pada masanya adalah penting.

 

  • Pusat Panggilan & Sokongan Pelanggan

    Call centers and customer support Pusat panggilan telah menerima sistem ASR untuk menyalin interaksi pelanggan, membolehkan penjejakan, analisis dan kawalan kualiti yang lebih baik. Dengan menukar perbualan yang dituturkan kepada teks, ASR membolehkan ejen dan pengurus pusat panggilan menyemak interaksi pelanggan dan mengekstrak pandangan berharga untuk meningkatkan perkhidmatan mereka.

  • Belajar bahasa

    Belajar bahasa Teknologi ASR telah merevolusikan pembelajaran bahasa dengan menyediakan maklum balas masa nyata tentang kemahiran sebutan dan bahasa pertuturan. Ini membolehkan pelajar memperhalusi corak pertuturan mereka, menerima pembetulan segera dan meningkatkan kefasihan mereka dengan cara yang lebih cekap.

  • Kebolehcapaian untuk Orang Kurang Upaya Pendengaran

    Kebolehcapaian untuk orang cacat pendengaran Sistem ASR telah memainkan peranan penting dalam memecahkan halangan komunikasi bagi individu yang mengalami masalah pendengaran. Dengan menukar bahasa pertuturan kepada teks bertulis, teknologi ASR menyediakan perkhidmatan kapsyen masa nyata, menjadikan kandungan audio lebih mudah diakses oleh khalayak yang lebih luas.

  • Biometrik dan Keselamatan Suara

    Voice biometrics and security Ciri unik suara seseorang boleh digunakan sebagai satu bentuk pengesahan biometrik. Teknologi ASR memainkan peranan penting dalam sistem biometrik suara, menawarkan lapisan keselamatan tambahan untuk pengenalan peribadi dan kawalan akses.

 

Apakah Masa Depan untuk Teknologi ASR?

Dengan kemajuan AI dan pembelajaran mesin, teknologi Pengecaman Pertuturan Automatik dijangka menjadi lebih tepat, lebih pantas dan lebih bunyi semula jadi. Di samping itu, teknologi ASR berkemungkinan menjadi lazim dalam perkhidmatan pelanggan, pendidikan, penjagaan kesihatan dan banyak lagi. Bagi organisasi, membangunkan penyelesaian perniagaan berasaskan ASR tersuai mesti menjadi sasaran seterusnya.

Dapatkan Bantuan untuk Projek Berasaskan ASR Anda daripada Pakar Shaip

Kongsi sosial