Meningkatkan Pemahaman Pertanyaan Carian dengan Anotasi Manusia
Memanfaatkan pertimbangan manusia dan taksonomi berstruktur untuk mengendalikan kes kelebihan yang samar-samar secara konsisten dan meningkatkan perkaitan carian untuk konglomerat e-dagang terkemuka yang berpangkalan di Poland.
Gambaran Keseluruhan projek
Pelanggan, pemimpin e-dagang yang berpangkalan di Poland, menerima berjuta-juta pertanyaan carian setiap hari. Banyak daripada pertanyaan ini adalah samar-samar, termasuk ejaan yang salah, atau rujuk pelbagai kategori produk, mencipta cabaran untuk enjin carian automatik.
Untuk menambah baik sketepatan carian dan pengalaman pelanggan, Shaip membangunkan rangka kerja anotasi berstruktur yang diilhamkan oleh kajian Baymard. Pertanyaan dikelaskan secara sistematik ke dalam Kategori 11 (cth, Kategori Produk, Tema, Atribut Khusus, Tepat, Pedagang, Gejala, Bukan Produk, dsb.) dengan peraturan keutamaan untuk memastikan pengkategorian yang konsisten.
Statistik Utama
50,000+ Pertanyaan Beranotasi
merentasi pelbagai kategori
11 Kelas Anotasi
dengan definisi & peraturan keutamaan yang jelas
Aliran Kerja 3 Langkah
Anotasi ➔ QA ➔ Timbang tara PKS
Skop projek
Projek ini tertumpu kepada pembinaan a taksonomi komprehensif untuk menangkap spektrum penuh gelagat carian pengguna pada platform pasaran berskala besar. Skop termasuk:
- Membangunkan taksonomi 11 kategori dengan takrifan yang jelas dan hierarki keutamaan untuk menangani kes di mana pertanyaan boleh dimuatkan ke dalam lebih daripada satu kelas.
- Menganotasi beribu-ribu pertanyaan sebenar merentas kedua-dua domain produk dan bukan produk untuk melatih dan menentukur sistem pengelasan.
- Menyelesaikan pertanyaan yang tidak jelas dengan meningkat kepada Pakar Perkara (PKS), memastikan konsistensi dalam cara kes-kes sampingan dikendalikan.
- Menyediakan contoh beranotasi dan justifikasi untuk penentukuran QA, mencipta set latihan yang boleh dipercayai oleh anotasi masa depan untuk rujukan.
Contoh Anotasi disertakan:
- De dietrich ELENSIO ➔ Tepat
- E 91 ➔ Sukar untuk dikatakan
- tezfiles ➔ Pedagang
- subaru brz toyota gt86 ➔ Bukan Produk
- okulary BHP ➔ Kategori Produk
- stawu skokowego ➔ Gejala
Cabaran
Projek itu terpaksa mengatasi beberapa isu kerumitan data yang biasa dalam persekitaran carian e-dagang:
Kekaburan
Pertanyaan seperti "E 91" mungkin sepadan dengan produk yang jauh berbeza (model kereta, pemegang fius, cap kapsul), menjadikan tafsiran sangat tidak pasti.
Taipo & Varian
Kesalahan ejaan atau trengkas, seperti "lampa uf zestaw", memerlukan tafsiran manusia kontekstual untuk memahami sebagai "lampa UV zestaw".
Kategori Bertindih
Pertanyaan selalunya memadankan berbilang kelas (cth, Tepat lwn Serasi lwn Atribut Khusus), memerlukan peraturan keutamaan untuk memastikan ketekalan.
Input Tidak Sah
Kod bersiri atau pengecam tanpa sebarang padanan produk perlu ditandakan sebagai "Frasa tidak sah" dan bukannya dikelaskan secara salah.
scalability
Menggunakan peraturan pengelasan bernuansa secara konsisten merentas berpuluh ribu pertanyaan menuntut tadbir urus QA dan anotasi yang kukuh.
Penyelesaian
Untuk menangani cabaran ini, a rangka kerja anotasi berstruktur telah diperkenalkan, mengimbangi automasi dengan pengawasan manusia:
Garis Panduan Anotasi
Takrifan, contoh dan arahan terperinci telah dicipta untuk membantu anotasi mengklasifikasikan secara konsisten, walaupun dalam senario yang rumit.
Peraturan Keutamaan
Hierarki telah ditubuhkan (cth, Serasi > Tepat > Atribut Khusus) supaya kes bertindih diselesaikan secara sistematik.
Proses QA berbilang peringkat
- Anotasi awal oleh anotasi terlatih.
- Semakan sekunder oleh pakar QA.
- Peningkatan kepada PKS untuk timbang tara mengenai kes-kes sampingan atau perselisihan faham
Aplikasi Praktikal Garis Panduan dengan pertanyaan dunia sebenar
- 4008146044786 ➔ Frasa Tidak Sah
- miraculum królika ➔ Atribut Tematik
- zcd galactic kelabu ➔ Serasi
- owczarek belgijski ➔ Tema
Ini memastikan penjajaran, kualiti dan kebolehpercayaan merentasi saluran paip anotasi.
Hasil
Inisiatif ini menyampaikan peningkatan yang boleh diukur kepada ekosistem carian pelanggan:
- 50,000+ Pertanyaan Dikelaskan dengan ketepatan tinggi, membentuk set data latihan yang mantap untuk penambahbaikan carian.
- Perkaitan Hasil Carian yang Diperbaiki, secara langsung meningkatkan kepuasan pengguna dan mengurangkan kekecewaan daripada perlawanan yang tidak berkaitan.
- Kekaburan yang dikurangkan dengan menyelesaikan kes kelebihan secara sistematik melalui peraturan timbang tara dan keutamaan yang dipacu oleh PKS.
- Kebolehtemuan Produk yang Dipertingkatkan, memastikan pengguna dapat mencari item dengan lebih tepat merentas kategori, atribut dan tema.
Secara keseluruhannya, projek itu meletakkan asas untuk a pengalaman carian yang lebih bijak dan tertumpu kepada pengguna, membantu pelanggan mengekalkan kelebihan daya saingnya dalam pasaran e-dagang.
Aliran kerja anotasi manusia memberikan kejelasan kepada pertanyaan carian yang kompleks. Taksonomi berstruktur dan peraturan keutamaan telah meningkatkan ketepatan enjin carian kami dengan ketara dan menjadikan pengalaman pengguna lebih lancar.
– Ketua Carian & Penemuan, Konglomerat E-dagang yang berpangkalan di Poland