Pengumpulan Data Ujaran

Apakah itu "Ucapan" dalam AI?: Contoh, Set Data dan Amalan Terbaik

Pernahkah anda terfikir bagaimana chatbots dan pembantu maya bangun apabila anda berkata, 'Hei Siri' atau 'Alexa'? Ia adalah kerana pengumpulan ujaran teks atau mencetuskan perkataan yang tertanam dalam perisian yang mengaktifkan sistem sebaik sahaja ia mendengar perkataan bangun yang diprogramkan.

Walau bagaimanapun, proses keseluruhan untuk mencipta bunyi dan data sebutan tidaklah semudah itu. Ia adalah satu proses yang mesti dijalankan dengan teknik yang betul untuk mendapatkan hasil yang diinginkan. Oleh itu, blog ini akan berkongsi laluan untuk mencipta ujaran/perkataan pencetus yang baik yang berfungsi dengan lancar dengan AI perbualan anda.

Apakah "Utterance" dalam AI?

Dalam AI perbualan (chatbots, pembantu suara), ujaran ialah sekeping pendek input pengguna—perkataan tepat yang disebut atau ditaip oleh seseorang. Model menggunakan sebutan untuk mengetahui niat (matlamat) pengguna dan sebarang entiti (butiran seperti tarikh, nama produk, jumlah).

Contoh mudah

Bot e-dagang

Lafaz: “Jejaki pesanan saya 123-456"

  • Niat: TrackOrder
  • Entiti: order_id = 123-456

Bot telekomunikasi

Lafaz: “Tingkatkan pelan data saya"

  • Niat: ChangePlan
  • Entiti: plan_type = data

Pembantu suara perbankan

Lafaz (diucapkan): “Wapakah baki semak saya hari ini?"

  • Niat: CheckBalance
  • Entiti: jenis_akaun = menyemak, tarikh = hari ini

Mengapa AI Perbualan Anda Memerlukan Data Ujaran yang Baik

Jika anda mahu chatbot atau pembantu suara anda berasa membantu—bukan rapuh—mulakan dengan data sebutan yang lebih baik. Ujaran ialah frasa mentah yang orang sebut atau taip untuk menyelesaikan sesuatu (“tempah bilik saya untuk esok,” “tukar rancangan saya,” “apa statusnya?”). Mereka menguasakan klasifikasi niat, pengekstrakan entiti, dan akhirnya pengalaman pelanggan. Apabila ujaran adalah pelbagai, mewakili dan dilabel dengan baik, model anda mempelajari sempadan yang betul antara niat dan mengendalikan input dunia nyata yang tidak kemas dengan tenang.

Membina repositori ujaran anda: aliran kerja yang mudah

Membina repositori ujaran

1. Mulakan daripada bahasa pengguna sebenar

Lombong log sembang, pertanyaan carian, transkrip IVR, nota ejen, dan e-mel pelanggan. Kelompokkan mereka mengikut matlamat pengguna kepada niat benih. (Anda akan menangkap bahasa sehari-hari dan model mental yang anda tidak akan fikirkan di dalam bilik.)

2. Buat variasi dengan sengaja

Untuk setiap niat, pengarang pelbagai contoh:

  • Ungkapkan semula kata kerja dan kata nama (“batal,” “berhenti,” “tamat”; “rancang,” “langganan”).
  • Campurkan panjang dan struktur ayat (soalan, arahan, serpihan).
  • Sertakan kesilapan menaip, singkatan, emoji (untuk sembang), penukaran kod jika berkaitan.
  • Tambah kes negatif yang kelihatan serupa tetapi sepatutnya tidak peta kepada niat ini.

3. Seimbangkan kelas anda

Latihan yang sangat berat sebelah (cth, 500 contoh untuk satu niat dan 10 untuk yang lain) merosakkan kualiti ramalan. Simpan saiz niat agak sekata dan kembangkannya bersama-sama sambil lalu lintas mengajar anda.

4. Sahkan kualiti sebelum latihan

Sekat data isyarat rendah dengan pengesah semasa mengarang/pengumpulan:

  • Pengesanan bahasa: memastikan contoh adalah dalam bahasa sasaran.
  • Pengesan omong kosong: tangkap rentetan yang mengarut.
  • Pemeriksaan pendua/hampir pendua: kekalkan kepelbagaian tinggi.
  • Regex/ejaan & tatabahasa: menguatkuasakan peraturan gaya jika perlu.
    Pengesah pintar (seperti yang digunakan oleh Appen) boleh mengautomasikan sebahagian besar penjaga pintu ini.

5. Labelkan entiti secara konsisten

Tentukan jenis slot (tarikh, produk, alamat) dan tunjukkan anotasi cara menanda sempadan. Corak seperti Corak mana-mana dalam LUIS boleh menyahkekaburan rentang pembolehubah yang panjang (cth, nama dokumen) yang mengelirukan model.

6. Uji seperti pengeluaran

Tolak tidak kelihatan sebutan sebenar kepada titik akhir ramalan atau bot pementasan, semak salah klasifikasi dan menggalakkan contoh yang tidak jelas dalam latihan. Jadikan ini gelung: kumpul → latih → semak → kembangkan.

Maksud "realiti tidak kemas" sebenarnya (dan cara mengendalikannya)

Pengguna sebenar jarang bercakap dalam ayat yang sempurna. Jangkakan:

  • Serpihan: “bayaran balik yuran penghantaran”
  • Matlamat kompaun: “batalkan pesanan dan susun semula dengan warna biru”
  • Entiti tersirat: "hantar ke pejabat saya" (anda mesti tahu pejabat mana)
  • Kekaburan: “ubah rancangan saya” (pelan mana? berkuat kuasa bila?)

Pembetulan praktikal

  • Menyediakan gesaan yang menjelaskan hanya apabila diperlukan; elakkan terlebih bertanya.
  • Tangkap pemindahan konteks (kata ganti nama seperti "perintah itu," "yang terakhir").
  • Penggunaan niat mundur dengan pemulihan yang disasarkan: "Saya boleh membantu membatalkan atau menukar rancangan-apa yang anda mahukan?"
  • Pantau kesihatan niat (kekeliruan, perlanggaran) dan tambah data di mana ia lemah

Pembantu suara dan kata bangun: data berbeza, peraturan serupa

Pembantu suara dan kata bangun Kata Bangun (“Hey Siri,” “Alexa,” frasa bangun tersuai) ialah subset sebutan khusus dengan kekangan akustik yang kuat, tetapi pemikiran liputan masih terpakai: pelbagai pembesar suara, peranti dan persekitaran. Selepas bangun tidur, ujaran bahasa mengambil alih tugas sebenar (“hidupkan lampu,” “main jazz”). Simpan anda bangun dan tugasan set data berbeza, dan nilaikannya secara berasingan.

Bila (dan cara) menggunakan data luar biasa berbanding data tersuai

Data luar biasa lwn. Data tersuai

  • Di luar rak: liputan lompat mula di tempat baharu, kemudian ukur tempat kekal kekeliruan.
  • Adat: tangkap bahasa domain anda (istilah dasar, nama produk) dan "suara jenama."
  • Dicampur: mulakan secara meluas, kemudian tambahkan data berketepatan tinggi untuk niat dengan kesan pesongan atau hasil yang paling banyak.

Jika anda memerlukan tanjakan pantas, Shaip menyediakan koleksi ujaran dan set data pertuturan/sembang di luar rak merentas banyak bahasa; lihat kajian kes untuk pelancaran pembantu berbilang bahasa.

Senarai semak pelaksanaan

Senarai semak pelaksanaan

  • Tentukan niat dan entiti dengan contoh dan negatif kes
  • Pengarang pelbagai, seimbang lafaz untuk setiap niat (mula kecil, berkembang setiap minggu)
  • Tambah pengesah (bahasa, omong kosong, pendua, regex) sebelum latihan
  • Menubuhkan gelung ulasan daripada lalu lintas sebenar; mempromosikan item yang tidak jelas kepada latihan 
  • Track kesihatan niat dan perlanggaran; betulkan dengan lafaz baru
  • Nilai semula mengikut saluran/tempatan untuk menangkap drift lebih awal

Bagaimana Shaip boleh membantu

  • Pengumpulan & pelabelan sebutan tersuai (sembang + suara) dengan pengesah untuk memastikan kualiti tinggi.
  • Set data sedia untuk digunakan merentas 150+ bahasa/varian untuk bootstrap pantas.
  • Program semakan yang sedang dijalankan yang menukar trafik langsung kepada data latihan isyarat tinggi—selamat (kawalan PII).

Terokai pelbagai bahasa kami kajian kes pengumpulan ujaran.

Kongsi sosial