Setiap kali kita mendengar perkataan atau membaca teks, kita mempunyai keupayaan semula jadi untuk mengenal pasti dan mengkategorikan perkataan itu kepada orang, tempat, lokasi, nilai dan banyak lagi. Manusia boleh dengan cepat mengenali sesuatu perkataan, mengkategorikannya dan memahami konteksnya. Sebagai contoh, apabila anda mendengar perkataan 'Steve Jobs,' anda boleh segera memikirkan sekurang-kurangnya tiga hingga empat atribut dan mengasingkan entiti ke dalam kategori,
- Orang: Steve Jobs
- Syarikat: Apple
- Location: California
Memandangkan komputer tidak mempunyai keupayaan semula jadi ini, mereka memerlukan bantuan kami untuk mengenal pasti perkataan atau teks dan mengkategorikannya. Ia adalah di mana Pengiktirafan Entiti Dinamakan (NER) datang bermain.
Mari dapatkan pemahaman ringkas tentang NER dan kaitannya dengan NLP.
Apakah yang dinamakan Pengiktirafan Entiti?
Pengiktirafan Entiti Dinamakan adalah sebahagian daripada Pemprosesan Bahasa Semulajadi. Objektif utama bagi NER adalah untuk memproses data berstruktur dan tidak berstruktur dan klasifikasikan entiti yang dinamakan ini ke dalam kategori yang telah ditetapkan. Beberapa kategori biasa termasuk nama, lokasi, syarikat, masa, nilai kewangan, acara dan banyak lagi.
Secara ringkasnya, NER berurusan dengan:
- Pengiktirafan/pengesan entiti bernama – Mengenal pasti perkataan atau siri perkataan dalam dokumen.
- Pengelasan entiti bernama – Mengelaskan setiap entiti yang dikesan ke dalam kategori yang telah ditetapkan.
Tetapi bagaimanakah NER berkaitan dengan NLP?
Pemprosesan Bahasa Asli membantu membangunkan mesin pintar yang mampu mengekstrak makna daripada pertuturan dan teks. Pembelajaran Mesin membantu sistem pintar ini meneruskan pembelajaran dengan melatih sejumlah besar bahasa semula jadi set data.
Secara amnya, NLP terdiri daripada tiga kategori utama:
- Memahami struktur dan peraturan bahasa - Syntax
- Menghasilkan makna perkataan, teks, dan pertuturan dan mengenal pasti hubungan mereka - Semantik
- Mengenal pasti dan mengenal perkataan yang dituturkan dan mengubahnya menjadi teks – Ucapan
NER membantu dalam bahagian semantik NLP, mengekstrak makna perkataan, mengenal pasti dan mengesannya berdasarkan perhubungan mereka.
Contoh Biasa NER
Beberapa contoh biasa yang telah ditetapkan pengkategorian entiti ialah:
Orang: Michael Jackson, Oprah Winfrey, Barack Obama, Susan Sarandon
Location: Kanada, Honolulu, Bangkok, Brazil, Cambridge
Organisasi: Samsung, Disney, Universiti Yale, Google
Masa: 15.35, 12 PM,
Kategori lain termasuk nilai berangka, Ungkapan, Alamat E-Mel dan Kemudahan.
Kekaburan dalam Pengiktirafan Entiti Dinamakan
Kategori sesuatu istilah adalah secara intuitif agak jelas untuk manusia. Walau bagaimanapun, itu tidak berlaku dengan komputer – mereka menghadapi masalah klasifikasi. Sebagai contoh:
Manchester City (pertubuhan) memenangi Trofi Liga Perdana manakala dalam ayat berikut organisasi digunakan secara berbeza. Manchester City (Lokasi) ialah Rumah Kuasa Tekstil dan perindustrian.
Keperluan model NER anda data latihan untuk menjalankan dengan tepat pengekstrakan entiti dan klasifikasi. Jika anda melatih model anda dalam Bahasa Inggeris Shakespeare, tidak perlu dikatakan, model itu tidak akan dapat mentafsir Instagram.
Pendekatan NER yang berbeza
Matlamat utama a model NER adalah untuk melabelkan entiti dalam dokumen teks dan mengkategorikannya. Tiga pendekatan berikut biasanya digunakan untuk tujuan ini. Walau bagaimanapun, anda boleh memilih untuk menggabungkan satu atau lebih kaedah juga.
Pendekatan yang berbeza untuk mencipta sistem NER ialah:
Sistem berasaskan kamus
Sistem berasaskan kamus mungkin merupakan pendekatan NER yang paling mudah dan asas. Ia akan menggunakan kamus dengan banyak perkataan, sinonim dan koleksi perbendaharaan kata. Sistem akan menyemak sama ada entiti tertentu yang terdapat dalam teks juga tersedia dalam perbendaharaan kata. Dengan menggunakan algoritma pemadanan rentetan, semakan silang entiti dilakukan.
Satu kelemahan menggunakan pendekatan ini ialah terdapat keperluan untuk sentiasa menaik taraf set data perbendaharaan kata untuk fungsi berkesan model NER.
Sistem berasaskan peraturan
Dalam pendekatan ini, maklumat diekstrak berdasarkan satu set peraturan yang telah ditetapkan. Terdapat dua set peraturan utama yang digunakan,
Peraturan berasaskan corak - Seperti namanya, peraturan berasaskan corak mengikut corak morfologi atau rentetan perkataan yang digunakan dalam dokumen.
Peraturan berasaskan konteks - Peraturan berasaskan konteks bergantung pada makna atau konteks perkataan dalam dokumen.
Sistem berasaskan pembelajaran mesin
Dalam sistem berasaskan pembelajaran mesin, pemodelan statistik digunakan untuk mengesan entiti. Perwakilan berasaskan ciri bagi dokumen teks digunakan dalam pendekatan ini. Anda boleh mengatasi beberapa kelemahan daripada dua pendekatan pertama kerana model boleh mengenali jenis entiti walaupun terdapat sedikit variasi dalam ejaan mereka.
Aplikasi NER
NER mempunyai beberapa kes penggunaan dalam banyak bidang yang berkaitan dengan Pemprosesan Bahasa Semulajadi dan mencipta set data latihan untuk pembelajaran mesin and pembelajaran mendalam penyelesaian. Beberapa aplikasi NER ialah:
Sokongan Pelanggan Diperkemas
Sistem NER boleh mengesan aduan, pertanyaan dan maklum balas pelanggan yang berkaitan dengan mudah berdasarkan maklumat penting seperti nama produk, spesifikasi, lokasi cawangan dan banyak lagi. Aduan atau maklum balas diklasifikasikan dengan tepat dan dialihkan ke jabatan yang betul dengan menapis kata kunci keutamaan.
Sumber Manusia yang Cekap
NER membantu pasukan Sumber Manusia meningkatkan proses pengambilan pekerja mereka dan mengurangkan garis masa dengan meringkaskan resume pemohon dengan cepat. Alat NER boleh mengimbas resume dan mengekstrak maklumat yang berkaitan - nama, umur, alamat, kelayakan, kolej, dan sebagainya.
Selain itu, jabatan HR juga boleh menggunakan alat NER untuk menyelaraskan aliran kerja dalaman dengan menapis aduan pekerja dan memajukannya kepada ketua jabatan berkenaan.
Klasifikasi Kandungan Ringkas
Pengelasan kandungan adalah tugas besar untuk penyedia berita. Mengelaskan kandungan ke dalam kategori yang berbeza menjadikannya lebih mudah untuk ditemui, memperoleh cerapan, mengenal pasti arah aliran dan memahami subjek. A bernama Pengiktirafan Entiti alat boleh berguna untuk penyedia berita. Ia boleh mengimbas banyak artikel, mengenal pasti kata kunci keutamaan dan mengekstrak maklumat berdasarkan orang, organisasi, lokasi dan banyak lagi.
Mengoptimumkan Enjin Carian
NER membantu dalam memudahkan dan meningkatkan kelajuan dan kaitan hasil carian. Daripada menjalankan pertanyaan carian untuk beribu-ribu artikel, model NER boleh menjalankan pertanyaan sekali dan menyimpan hasilnya. Jadi, berdasarkan teg dalam pertanyaan carian, artikel yang dikaitkan dengan pertanyaan itu boleh diambil dengan cepat.
Pengesyoran Kandungan Tepat
Beberapa aplikasi moden bergantung pada alatan NER untuk menyampaikan pengalaman pelanggan yang dioptimumkan dan disesuaikan. Sebagai contoh, Netflix menyediakan pengesyoran diperibadikan berdasarkan carian dan sejarah paparan pengguna menggunakan pengecaman entiti bernama.
Pengiktirafan Entiti Dinamakan menjadikan anda pembelajaran mesin model lebih cekap dan boleh dipercayai. Walau bagaimanapun, anda memerlukan set data latihan yang berkualiti untuk model anda berfungsi pada tahap optimumnya dan mencapai matlamat yang dimaksudkan. Apa yang anda perlukan ialah rakan kongsi perkhidmatan berpengalaman yang boleh memberikan anda set data berkualiti sedia untuk digunakan. Jika begitu, Shaip adalah pertaruhan terbaik anda. Hubungi kami untuk mendapatkan set data NER yang komprehensif untuk membantu anda membangunkan penyelesaian ML yang cekap dan maju untuk model AI anda.P