Set Data NLP untuk ML

15 Set Data NLP Terbaik untuk melatih anda Model Pemprosesan Bahasa Semulajadi

Pemprosesan bahasa semula jadi adalah bahagian penting dalam perisai pembelajaran mesin. Walau bagaimanapun, ia memerlukan sejumlah besar data dan latihan untuk model itu berfungsi dengan baik. Salah satu isu penting dengan NLP ialah kekurangan set data latihan yang boleh merangkumi bidang minat yang luas dalam domain.

Jika anda bermula dalam bidang yang luas ini, anda mungkin mendapati ia mencabar dan boleh dikatakan berlebihan untuk mencipta set data anda. Lebih-lebih lagi bila ada kualiti NLP set data tersedia untuk melatih model pembelajaran mesin anda berdasarkan tujuannya.

Pasaran NLP dijangka berkembang pada CAGR sebanyak 11.7% pada 2018 dan 2026 untuk dicapai $ 28.6 bilion pada tahun 2026. Terima kasih kepada permintaan yang semakin meningkat untuk NLP dan pembelajaran mesin, kini anda boleh mendapatkan set data berkualiti yang memenuhi keperluan analisis sentimen, ulasan, analisis soal jawab dan set data analisis pertuturan.

Set Data NLP Untuk Pembelajaran Mesin yang Boleh Anda Percayai

Memandangkan banyak set data – memfokuskan pada pelbagai keperluan – dikeluarkan hampir setiap hari, ia boleh menjadi mencabar untuk mengakses set data yang berkualiti, boleh dipercayai dan terbaik. Di sini, kami telah memudahkan kerja anda, kerana kami telah membentangkan set data susun atur yang diasingkan berdasarkan kategori yang disediakan.

Umum

Spambase, yang dibuat di Hewlett-Packard Labs, mempunyai koleksi e-mel spam oleh pengguna, bertujuan untuk membangunkan penapis spam yang diperibadikan. Ia mempunyai lebih daripada 4600 pemerhatian daripada mesej e-mel, yang mana hampir 1820 adalah spam.

Set data Enron mempunyai koleksi besar e-mel 'sebenar' tanpa nama yang tersedia kepada orang ramai untuk melatih model pembelajaran mesin mereka. Ia mempunyai lebih daripada setengah juta e-mel daripada lebih 150 pengguna, kebanyakannya pengurusan kanan Enron. Set data ini tersedia untuk digunakan dalam kedua-dua format berstruktur dan tidak berstruktur. Untuk merapikan data tidak berstruktur, anda perlu menggunakan teknik pemprosesan data.

Dataset Sistem Pengesyor ialah koleksi besar pelbagai set data yang mengandungi ciri berbeza seperti,

  • Ulasan produk
  • Penilaian bintang
  • Penjejakan kecergasan
  • Data lagu
  • Rangkaian sosial
  • Masa tamat
  • Interaksi pengguna/item
  • data GPS

Analisis Sentimen

Analisis sentimen
Set data Kamus untuk Filem dan Kewangan menyediakan kamus khusus domain untuk polariti positif atau negatif dalam pengisian Kewangan dan ulasan filem. Kamus ini diambil daripada pengisian IMDb dan Borang-8 AS.

Sentimen 140 mempunyai lebih daripada 160,000 tweet dengan pelbagai emotikon yang dikategorikan dalam 6 medan berbeza: tarikh tweet, polariti, teks, nama pengguna, ID dan pertanyaan. Set data ini membolehkan anda menemui sentimen jenama, produk atau topik berdasarkan aktiviti Twitter. Memandangkan set data ini dicipta secara automatik, tidak seperti tweet beranotasi manusia lain, ia mengklasifikasikan tweet dengan emosi positif dan emosi negatif sebagai tidak menguntungkan.

  • Set data Sentimen Berbilang Domain (Pautan)

Set data sentimen berbilang domain ini ialah repositori ulasan Amazon untuk pelbagai produk. Sesetengah kategori produk, seperti buku, mempunyai ribuan ulasan, manakala yang lain hanya mempunyai beberapa ratus ulasan. Selain itu, ulasan dengan penarafan bintang boleh ditukar kepada label binari.

Mari bincangkan keperluan Data Latihan AI anda hari ini.

teks

Dicipta untuk membantu penyelidikan soalan dan jawapan domain terbuka, WiKi QA Corpus ialah salah satu set data yang tersedia secara umum yang paling meluas. Disusun daripada log pertanyaan enjin carian Bing, ia disertakan dengan pasangan soal-jawab. Ia mempunyai lebih daripada 3000 soalan dan 1500 ayat jawapan berlabel.

  • Set Data Laporan Kes Undang-undang (Pautan)

Dataset Laporan Kes Undang-undang mempunyai koleksi 4000 kes undang-undang dan boleh digunakan untuk melatih ringkasan teks automatik dan analisis petikan. Setiap dokumen, frasa kunci, kelas petikan, frasa kunci petikan dan banyak lagi digunakan.

Set data Jeopardy ialah koleksi lebih daripada 200,000 soalan yang dipaparkan dalam rancangan TV kuiz popular yang dibawa bersama oleh pengguna Reddit. Setiap titik data diklasifikasikan mengikut tarikh siaran, nombor episod, nilai, pusingan dan soalan/jawapannya.

Ucapan Audio

  • Wikipedia Corpora yang dituturkan (Pautan)

Ucapan audio Set data ini sesuai untuk semua orang yang ingin melangkaui bahasa Inggeris. Set data ini mempunyai koleksi artikel yang dituturkan dalam bahasa Belanda dan Jerman dan Inggeris. Ia mempunyai pelbagai topik dan set pembesar suara yang memakan masa ratusan jam.

Dataset bahasa Inggeris HUB2000 5 mempunyai 40 transkrip perbualan telefon dalam bahasa Inggeris. Data tersebut disediakan oleh Institut Piawaian dan Teknologi Kebangsaan, dan fokus utamanya adalah untuk mengenali pertuturan perbualan dan menukar pertuturan kepada teks.

Set data LibriSpeech ialah koleksi hampir 1000 jam pertuturan bahasa Inggeris yang diambil dan dibahagikan mengikut topik ke dalam bab daripada buku audio, menjadikannya alat yang sempurna untuk Pemprosesan Bahasa Asli.

Review

Set data Yelp mempunyai koleksi besar kira-kira 8.5 juta ulasan daripada 160,000 tambah perniagaan, ulasan mereka dan data pengguna. Ulasan boleh digunakan untuk melatih model anda tentang analisis sentimen. Selain itu, set data ini juga mempunyai lebih daripada 200,000 gambar yang meliputi lapan lokasi metropolitan.

Ulasan IMDB adalah antara set data paling popular yang mengandungi maklumat pelakon, penilaian, perihalan dan genre untuk lebih daripada 50 ribu filem. Set data ini boleh digunakan untuk menguji dan melatih model pembelajaran mesin anda.

  • Set Data Ulasan dan Penilaian Amazon (Pautan)

Set data semakan dan penilaian Amazon mengandungi koleksi metadata dan ulasan berharga produk berbeza daripada Amazon yang dikumpulkan dari 1996 hingga 2014 – kira-kira 142.8 juta rekod. Metadata termasuk harga, perihalan produk, jenama, kategori dan banyak lagi, manakala ulasan mempunyai kualiti teks, kegunaan teks, penilaian dan banyak lagi.

Jadi, set data manakah yang telah anda pilih untuk melatih model pembelajaran mesin anda?

Semasa kami pergi, kami akan meninggalkan anda dengan pro-tip. 

Pastikan anda menyemak fail README dengan teliti sebelum memilih set data NLP untuk keperluan anda. Set data akan mengandungi semua maklumat yang anda perlukan, seperti kandungan set data, pelbagai parameter yang mana data telah dikategorikan dan kemungkinan kes penggunaan set data.

Tidak kira model yang anda bina, terdapat prospek yang menarik untuk menyepadukan mesin kami dengan lebih rapat dan intrinsik dengan kehidupan kami. Dengan NLP, kemungkinan untuk perniagaan, filem, pengecaman pertuturan, kewangan dan banyak lagi dipertingkatkan. Jika anda sedang mencari lebih banyak set data sedemikian Tekan di sini.

Kongsi sosial

Awak juga mungkin menyukai