Set Data NLP untuk ML

Set Data NLP Teratas untuk Mengecas Model Pembelajaran Mesin Anda

Apakah NLP?

NLP (Natural Language Processing) membantu komputer memahami bahasa manusia. Ia seperti mengajar komputer membaca, memahami dan bertindak balas terhadap teks dan pertuturan seperti yang dilakukan oleh manusia.

Apa yang boleh dilakukan oleh NLP?

  • Tukar teks yang tidak kemas kepada data yang teratur
  • Fahami sama ada komen positif atau negatif
  • Terjemah antara bahasa
  • Buat ringkasan teks panjang
  • Dan banyak lagi!
  • Bermula dengan NLP:

Untuk membina sistem NLP yang baik, anda memerlukan banyak contoh untuk melatih mereka – sama seperti cara manusia belajar lebih baik dengan lebih banyak latihan. Berita baiknya ialah terdapat banyak sumber percuma di mana anda boleh menemui contoh ini: Memeluk Muka, Kaggle and GitHub

Saiz dan Pertumbuhan Pasaran NLP:

Sehingga 2023, pasaran Pemprosesan Bahasa Semulajadi (NLP) bernilai sekitar $26 bilion. Ia dijangka berkembang dengan ketara, dengan kadar pertumbuhan tahunan kompaun (CAGR) kira-kira 30% dari 2023 hingga 2030. Pertumbuhan ini didorong oleh peningkatan permintaan untuk aplikasi NLP dalam industri seperti penjagaan kesihatan, kewangan dan perkhidmatan pelanggan.

Bagaimana untuk memilih set data NLP yang baik, pertimbangkan faktor berikut:

  • Relevan: Pastikan set data sejajar dengan tugas atau domain khusus anda.
  • Saiz: Set data yang lebih besar biasanya meningkatkan prestasi model, tetapi mengimbangi saiz dengan kualiti.
  • Kepelbagaian: Cari set data dengan gaya bahasa dan konteks yang pelbagai untuk meningkatkan keteguhan model.
  • Kualiti: Semak data yang dilabel dengan baik dan tepat untuk mengelakkan kesilapan.
  • Capaian: Pastikan set data tersedia untuk digunakan dan pertimbangkan sebarang sekatan pelesenan.
  • Pemprosesan Pra: Tentukan sama ada set data memerlukan pembersihan atau prapemprosesan yang ketara.
  • Sokongan Komuniti: Set data popular selalunya mempunyai lebih banyak sumber dan sokongan komuniti, yang boleh membantu.

Dengan menilai faktor ini, anda boleh memilih set data yang paling sesuai dengan keperluan projek anda

33 Set Data Terbuka Mesti Lihat Terbaik untuk NLP

Umum

  • Spambase UCI (Pautan)

    Spambase, yang dibuat di Hewlett-Packard Labs, mempunyai koleksi e-mel spam oleh pengguna, bertujuan untuk membangunkan penapis spam yang diperibadikan. Ia mempunyai lebih daripada 4600 pemerhatian daripada mesej e-mel, yang mana hampir 1820 adalah spam.

  • set data Enron (Pautan)

    Set data Enron mempunyai koleksi besar e-mel 'sebenar' tanpa nama yang tersedia kepada orang ramai untuk melatih model pembelajaran mesin mereka. Ia mempunyai lebih daripada setengah juta e-mel daripada lebih 150 pengguna, kebanyakannya pengurusan kanan Enron. Set data ini tersedia untuk digunakan dalam kedua-dua format berstruktur dan tidak berstruktur. Untuk merapikan data tidak berstruktur, anda perlu menggunakan teknik pemprosesan data.

  • Set data Sistem Pengesyor (Pautan)

    Dataset Sistem Pengesyor ialah koleksi besar pelbagai set data yang mengandungi ciri berbeza seperti,

    • Ulasan produk
    • Penilaian bintang
    • Penjejakan kecergasan
    • Data lagu
    • Rangkaian sosial
    • Masa tamat
    • Interaksi pengguna/item
    • data GPS
  • Penn Treebank (Pautan)

    Korpus ini, daripada Wall Street Journal, popular untuk menguji model pelabelan jujukan.

  • NLTK (Pautan)

    Pustaka Python ini menyediakan akses kepada lebih 100 korpora dan sumber leksikal untuk NLP. Ia juga termasuk buku NLTK, kursus latihan untuk menggunakan perpustakaan.

  • Kebergantungan Sejagat (Pautan)

    UD menyediakan cara yang konsisten untuk menganotasi tatabahasa, dengan sumber dalam lebih 100 bahasa, 200 tebing pokok dan sokongan daripada lebih 300 ahli komuniti.

Analisis Sentimen

  • Kamus untuk Filem dan Kewangan (Pautan)

    Analisis sentimen
    Set data Kamus untuk Filem dan Kewangan menyediakan kamus khusus domain untuk polariti positif atau negatif dalam pengisian Kewangan dan ulasan filem. Kamus ini diambil daripada pengisian IMDb dan Borang-8 AS.

  • Sentimen 140 (Pautan)

    Sentimen 140 mempunyai lebih daripada 160,000 tweet dengan pelbagai emotikon yang dikategorikan dalam 6 medan berbeza: tarikh tweet, polariti, teks, nama pengguna, ID dan pertanyaan. Set data ini membolehkan anda menemui sentimen jenama, produk atau topik berdasarkan aktiviti Twitter. Memandangkan set data ini dicipta secara automatik, tidak seperti tweet beranotasi manusia lain, ia mengklasifikasikan tweet dengan emosi positif dan emosi negatif sebagai tidak menguntungkan.

  • Set data Sentimen Berbilang Domain (Pautan)

    Set data sentimen berbilang domain ini ialah repositori ulasan Amazon untuk pelbagai produk. Sesetengah kategori produk, seperti buku, mempunyai ribuan ulasan, manakala yang lain hanya mempunyai beberapa ratus ulasan. Selain itu, ulasan dengan penarafan bintang boleh ditukar kepada label binari.

  • Standford Sentimen TreeBank (Pautan)

    Set data NLP daripada Rotten Tomatoes ini termasuk frasa yang lebih panjang dan contoh teks yang lebih terperinci.

  • Korpus Pengarang Blog (Pautan)

    Koleksi ini mempunyai catatan blog dengan hampir 1.4 juta perkataan, setiap blog adalah set data yang berasingan.

  • Set Data OpinRank (Pautan)

    300,000 ulasan daripada Edmunds dan TripAdvisor, yang dianjurkan oleh model kereta atau destinasi pelancongan dan hotel.

teks

  • Wiki QA Corpus (Pautan)

    Dicipta untuk membantu penyelidikan soalan dan jawapan domain terbuka, WiKi QA Corpus ialah salah satu set data yang tersedia secara umum yang paling meluas. Disusun daripada log pertanyaan enjin carian Bing, ia disertakan dengan pasangan soal-jawab. Ia mempunyai lebih daripada 3000 soalan dan 1500 ayat jawapan berlabel.

  • Set Data Laporan Kes Undang-undang (Pautan)

    Dataset Laporan Kes Undang-undang mempunyai koleksi 4000 kes undang-undang dan boleh digunakan untuk melatih ringkasan teks automatik dan analisis petikan. Setiap dokumen, frasa kunci, kelas petikan, frasa kunci petikan dan banyak lagi digunakan.

  • Jeopardy (Pautan)

    Set data Jeopardy ialah koleksi lebih daripada 200,000 soalan yang dipaparkan dalam rancangan TV kuiz popular yang dibawa bersama oleh pengguna Reddit. Setiap titik data diklasifikasikan mengikut tarikh siaran, nombor episod, nilai, pusingan dan soalan/jawapannya.

  • 20 Kumpulan Berita (Pautan)

    Koleksi 20,000 dokumen merangkumi 20 kumpulan berita dan subjek, memperincikan topik dari agama hingga sukan popular.

  • Set Data Berita Reuters (Pautan)

    Mula-mula muncul pada tahun 1987, set data ini telah dilabel, diindeks dan disusun untuk tujuan pembelajaran mesin.

  • ArXiv (Pautan)

    Set data 270 GB yang besar ini termasuk teks lengkap semua kertas penyelidikan arXiv.

  • Prosiding Parlimen Eropah Selari Korpus (Pautan)

    Pasangan hukuman daripada prosiding Parlimen termasuk penyertaan daripada 21 bahasa Eropah, yang menampilkan beberapa bahasa yang kurang biasa untuk korpora pembelajaran mesin.

  • Penanda Aras Billion Word (Pautan)

    Diperolehi daripada WMT 2011 News Crawl, set data pemodelan bahasa ini mengandungi hampir satu bilion perkataan untuk menguji teknik pemodelan bahasa yang inovatif.

Ucapan Audio

  • Wikipedia Corpora yang dituturkan (Pautan)

    Ucapan audio Set data ini sesuai untuk semua orang yang ingin melangkaui bahasa Inggeris. Set data ini mempunyai koleksi artikel yang dituturkan dalam bahasa Belanda dan Jerman dan Inggeris. Ia mempunyai pelbagai topik dan set pembesar suara yang memakan masa ratusan jam.

  • 2000 HUB5 Bahasa Inggeris (Pautan)

    Dataset bahasa Inggeris HUB2000 5 mempunyai 40 transkrip perbualan telefon dalam bahasa Inggeris. Data tersebut disediakan oleh Institut Piawaian dan Teknologi Kebangsaan, dan fokus utamanya adalah untuk mengenali pertuturan perbualan dan menukar pertuturan kepada teks.

  • LibriSpeech (Pautan)

    Set data LibriSpeech ialah koleksi hampir 1000 jam pertuturan bahasa Inggeris yang diambil dan dibahagikan mengikut topik ke dalam bab daripada buku audio, menjadikannya alat yang sempurna untuk Pemprosesan Bahasa Asli.

  • Set Data Digit Pertuturan Percuma (Pautan)

    Set data NLP ini termasuk lebih daripada 1,500 rakaman digit yang dituturkan dalam bahasa Inggeris.

  • Set Data Pertuturan Makmal M-AI (Pautan)

    Set data menawarkan hampir 1,000 jam audio dengan transkripsi, merangkumi berbilang bahasa dan dikategorikan mengikut suara lelaki, perempuan dan campuran.

  • Pangkalan Data Pertuturan Bising (pautan)

    Set data ini menampilkan rakaman pertuturan bising dan bersih selari, bertujuan untuk pembangunan perisian peningkatan pertuturan tetapi juga bermanfaat untuk latihan pertuturan dalam keadaan yang mencabar.

Review

  • Ulasan Yelp (Pautan)

    Set data Yelp mempunyai koleksi besar kira-kira 8.5 juta ulasan daripada 160,000 tambah perniagaan, ulasan mereka dan data pengguna. Ulasan boleh digunakan untuk melatih model anda tentang analisis sentimen. Selain itu, set data ini juga mempunyai lebih daripada 200,000 gambar yang meliputi lapan lokasi metropolitan.

  • Ulasan IMDB (Pautan)

    Ulasan IMDB adalah antara set data paling popular yang mengandungi maklumat pelakon, penilaian, perihalan dan genre untuk lebih daripada 50 ribu filem. Set data ini boleh digunakan untuk menguji dan melatih model pembelajaran mesin anda.

  • Set Data Ulasan dan Penilaian Amazon (Pautan)

    Set data semakan dan penilaian Amazon mengandungi koleksi metadata dan ulasan berharga produk berbeza daripada Amazon yang dikumpulkan dari 1996 hingga 2014 – kira-kira 142.8 juta rekod. Metadata termasuk harga, perihalan produk, jenama, kategori dan banyak lagi, manakala ulasan mempunyai kualiti teks, kegunaan teks, penilaian dan banyak lagi.

Soalan dan jawapan

  • Set Data Soal Jawab Stanford (SQuAD) (Pautan)

    Set data pemahaman bacaan ini mempunyai 100,000 soalan yang boleh dijawab dan 50,000 yang tidak boleh dijawab, semuanya dicipta oleh pekerja ramai Wikipedia.

  • Soalan Semulajadi (Pautan)

    Set latihan ini mempunyai lebih 300,000 contoh latihan, 7,800 contoh pembangunan dan 7,800 contoh ujian, setiap satu dengan pertanyaan Google dan halaman Wikipedia yang sepadan.

  • TriviaQA (Pautan)

    Set soalan mencabar ini mempunyai 950,000 pasangan QA, termasuk subset yang disahkan manusia dan dijana mesin.

  • CLEVR (Bahasa Komposisi dan Penaakulan Visual Asas) (Pautan)

    Set data menjawab soalan visual ini menampilkan objek yang dipaparkan 3D dan beribu-ribu soalan dengan butiran tentang pemandangan visual.

Jadi, set data manakah yang telah anda pilih untuk melatih model pembelajaran mesin anda?

Semasa kami pergi, kami akan meninggalkan anda dengan pro-tip.

Pastikan anda menyemak fail README dengan teliti sebelum memilih set data NLP untuk keperluan anda. Set data akan mengandungi semua maklumat yang anda perlukan, seperti kandungan set data, pelbagai parameter yang mana data telah dikategorikan dan kemungkinan kes penggunaan set data.

Tidak kira model yang anda bina, terdapat prospek yang menarik untuk menyepadukan mesin kami dengan lebih rapat dan intrinsik dengan kehidupan kami. Dengan NLP, kemungkinan untuk perniagaan, filem, pengecaman pertuturan, kewangan dan banyak lagi dipertingkatkan.

Kongsi sosial