Bayangkan bercakap dengan rakan melalui panggilan video. Anda bukan sahaja mendengar kata-kata mereka—anda melihat ekspresi, gerak isyarat, malah objek di latar belakang mereka. Itu gabungan pelbagai mod komunikasi adalah apa yang menjadikan perbualan lebih kaya, lebih manusiawi, dan lebih berkesan.
AI sedang menuju ke arah yang sama. Daripada bergantung pada teks biasa, sistem lanjutan perlu digabungkan teks, imej, audio dan kadangkala video untuk lebih memahami dan menjawab. Di tengah-tengah evolusi ini terletaknya set data perbualan pelbagai mod—kumpulan dialog berstruktur yang diperkaya dengan input yang pelbagai.
Artikel ini meneroka apakah set data ini, sebab ia penting dan cara contoh utama dunia membentuk masa depan pembantu AI, enjin pengesyoran dan sistem pintar emosi.
Apakah Set Data Perbualan Multimodal?
A set data perbualan pelbagai mod ialah koleksi data dialog di mana setiap giliran mungkin termasuk lebih daripada teks. Ia boleh menggabungkan:
teks (perkataan lisan atau bertulis)
Imej (gambar yang dikongsi atau visual yang dirujuk)
Audio (intonasi, emosi pertuturan, atau isyarat latar belakang)
video (isyarat, ekspresi muka)
Analogi: Anggaplah ia seperti menonton filem dengan kedua-dua bunyi dan sari kata. Jika anda hanya mempunyai satu mod, cerita itu mungkin tidak lengkap. Tetapi dengan kedua-duanya, konteks dan makna lebih jelas.
👉 Untuk definisi yang jelas tentang konsep AI multimodal, lihat entri glosari multimodal kami.
Set Data Perbualan Multimodal Mesti Tahu (Lanskap Pesaing)

1. muse – Set Data Syor Perbualan
Maklumat Penting: ~7,000 perbualan cadangan fesyen, 83,148 sebutan. Dijana oleh ejen multimodal, berdasarkan senario dunia sebenar.
Kes Penggunaan: Sesuai untuk melatih penggaya AI atau pembantu beli-belah.
2. MMDialog – Data Dialog Domain Terbuka Besar-besaran
Maklumat Penting: 1.08 juta dialog, 1.53 juta imej, merentas 4,184 topik. Salah satu set data multimodal terbesar yang tersedia.
Kes Penggunaan: Hebat untuk AI tujuan umum, daripada pembantu maya kepada bot sembang domain terbuka.
3. DeepDialogue – Perbualan Kaya Emosi (2025)
Maklumat Penting: 40,150 dialog berbilang pusingan, 41 domain, 20 kategori emosi. Fokus pada menjejaki perkembangan emosi.
Kes Penggunaan: Mereka bentuk ejen sokongan AI yang empati atau rakan kesihatan mental.
4. MELD – Pengiktirafan Emosi Pelbagai Modal dalam Perbualan
Maklumat Penting: 13,000+ ujaran daripada dialog rancangan TV berbilang pihak (Rakan), diperkaya dengan audio dan video. Label termasuk emosi seperti kegembiraan, kemarahan, kesedihan.
Kes Penggunaan: Sistem kesedaran emosi untuk pengesanan dan tindak balas sentimen perbualan.
5. MIntRec2.0 – Penanda Aras Pengiktirafan Niat Multimodal
Maklumat Penting: 1,245 dialog, 15,040 sampel, dengan label dalam skop (9,304) dan di luar skop (5,736). Termasuk konteks berbilang pihak dan pengkategorian niat.
Kes Penggunaan: Menanamkan pemahaman yang mantap tentang niat pengguna, meningkatkan keselamatan dan kejelasan pembantu.
6. MMD (Multimodal Dialogs) – Perbualan Beli-belah Sedar Domain
Maklumat Penting: 150K+ sesi antara pembeli dan ejen. Termasuk pertukaran teks dan imej dalam konteks runcit.
Kes Penggunaan: Membina chatbot runcit pelbagai mod atau antara muka pengesyoran e-dagang.
Jadual Perbandingan
| Dataset | Skala / Saiz | Modaliti | Kekuatan | Had |
|---|---|---|---|---|
| muse | ~7K penukaran; 83K sebutan | Teks + Imej | Kekhususan pengesyoran fesyen | Khusus domain (fesyen) |
| MMDialog | 1.08J penukaran; 1.53J imej | Teks + Imej | Liputan topik yang besar dan luas | Pengendalian yang kompleks |
| DeepDialogue | 40K penukaran, 20 emosi | Teks + Imej | Perkembangan emosi & empati | Lebih baru, kurang diuji |
| MELAYU | 13K sebutan | Teks + Video/Audio | Pelabelan emosi berbilang pihak | Lebih kecil, terhad domain |
| MIntRec2.0 | 15K sampel | Teks + Berbilang modal | Pengesanan niat dengan di luar skop | Fokus niat sempit |
| JMM | 150K sesi pembeli | Teks + Imej | Dialog khusus runcit | Domain runcit sahaja |
Mengapa Set Data Ini Penting
Set data kaya ini membantu sistem AI:
- Memahami konteks melampaui perkataan—seperti isyarat visual atau emosi.
- Sesuaikan cadangan dengan realisme (cth, muse).
- Bina sistem empati atau sedar emosi (DeepDialogue, MELAYU).
- Lebih baik mengesan niat pengguna dan mengendalikan pertanyaan yang tidak dijangka (MIntRec2.0).
- Layankan antara muka perbualan dalam persekitaran runcit (JMM).
At Saip, kami memperkasakan perniagaan dengan menyampaikan kualiti tinggi perkhidmatan pengumpulan data dan anotasi pelbagai mod—menyokong ketepatan, kepercayaan dan kedalaman dalam sistem AI.
Had & Pertimbangan Etika
Data multimodal juga membawa cabaran:
Bias domain: Banyak set data adalah khusus untuk fesyen, runcit atau emosi.
Overhed anotasi: Melabelkan kandungan multimodal adalah intensif sumber.
Risiko privasi: Menggunakan video atau audio memerlukan persetujuan yang ketat dan pengendalian beretika.
Kebimbangan generalisasi: Model yang dilatih pada set data sempit mungkin gagal dalam konteks yang lebih luas.
Shaip memerangi ini melalui sumber yang bertanggungjawab dan anotasi yang pelbagai saluran paip.
Kesimpulan
Kebangkitan set data perbualan pelbagai mod sedang mengubah AI daripada bot teks sahaja kepada sistem yang boleh lihat, rasa dan fahami dalam konteks.
daripada Muse's logik pengesyoran digayakan kepada MMDialog keluasan dan MIntRec2.0's kecanggihan niat, sumber ini memacu AI yang lebih pintar dan lebih empati.
At Saip, kami membantu organisasi menavigasi landskap set data—membuat kerajinan data multimodal bersumberkan etika yang berkualiti tinggi untuk membina sistem pintar generasi akan datang.
Apakah set data perbualan pelbagai mod?
Set data yang mana dialog digandingkan dengan imej, audio atau video untuk menyediakan konteks yang lebih kaya.
Set data manakah yang menyokong pemahaman emosi?
DeepDialogue memberi tumpuan kepada perkembangan emosi; MELAYU termasuk interaksi berbilang pihak berlabel emosi.
Mana yang terbaik untuk AI domain terbuka?
MMDialog, dengan lebih sejuta perbualan dan topik yang pelbagai, sesuai untuk pembantu tujuan am.
Apakah set data yang membantu dengan pengesanan niat?
MIntRec2.0 termasuk pengesanan di luar skop dan taksonomi niat yang terperinci untuk sistem perusahaan yang teguh.
Adakah set data ini khusus domain?
ya. Banyak yang khusus—fesyen (muse), emosi (DeepDialogue, MELAYU), runcit (JMM), dsb.-yang boleh mengehadkan generalisasi silang aplikasi.


