Buka Pangkalan Data
Cari kumpulan data sumber terbuka yang membolehkan anda melatih model ML
Dataset Sumber Terbuka Untuk Memulakan Anda dengan Model AI / ML
Keluaran model AI & ML anda hanya sebaik data yang anda gunakan untuk melatihnya - jadi ketepatan yang anda gunakan untuk pengumpulan data dan penandaan dan pengenalpastian data itu penting!
Oleh itu, jika anda ingin memulakan inisiatif AI / ML baru dan sekarang anda dengan cepat menyedari bahawa mencari data latihan berkualiti tinggi akan menjadi salah satu aspek yang lebih mencabar dari projek anda kerana set data berkualiti tinggi adalah bahan bakar yang menjaga AI / Enjin ML sedang berjalan. Kami telah mengumpulkan senarai set data terbuka yang bebas digunakan dan melatih model AI / ML anda di masa hadapan.
| Pengkhususan | Jenis data | Nama Set Data | Industri / Jabatan | Kes Anotasi / Penggunaan | pautan |
|---|---|---|---|---|---|
| +NLP | teks | Ulasan Amazon | E-dagang | Analisis Sentimen | pautan |
| Penerangan Produk | Satu set ulasan & penilaian 35 Juta dari lebih 18 tahun terakhir dalam teks biasa dengan maklumat pengguna dan produk. | ||||
| +NLP | teks | Data Pautan Wikipedia | Umum | pautan | |
| Penerangan Produk | Lebih daripada 4 Mn. artikel yang mengandungi 1.9 Bn. perkataan dari Wikipedia. Setiap artikel mengandungi hiperpautan untuk entiti yang berkaitan. | ||||
| +NLP | teks | Standford Sentimen Treebank | hiburan | Analisis Sentimen | pautan |
| Penerangan Produk | Set data anotasi sentimen untuk lebih 10,000 ayat ulasan filem Rotten Tomatoes. Tersedia pada peringkat frasa - setiap ayat dihuraikan menjadi subfrasa dengan meduakan pepohon hurai dalam format Penn Treebank. | ||||
| +NLP | teks | Sentimen Syarikat Penerbangan AS Twitter | Syarikat penerbangan | Analisis Sentimen | pautan |
| Penerangan Produk | Tweet 2015 di US Airlines terbahagi kepada sentimen positif, neutral dan negatif. | ||||
| +CV | Image | Imagenet | Umum | pautan | |
| Penerangan Produk | Set data dengan lebih 14 Mn. imej dalam pelbagai format fail dipetakan kepada sekitar 21,000 synset. Synset ialah sinonim dengan entiti berkaitan yang hadir sebagai imej. 1 Mn. Imej mempunyai kotak sempadan dan lebih daripada 1 Mn. imej mempunyai ciri SIFT. | ||||
| +CV | Image | Gambar Terbuka Google | Umum | pautan | |
| Penerangan Produk | Set data yang serupa dengan ImageNet dengan 600 kategori. Tersedia dalam pembahagian pembangunan, pengesahan dan latihan. Sesetengah imej juga termasuk kotak sempadan dan hubungan visual. | ||||
| +NLP | teks | Dialog Filem Cornell | hiburan | Dialog | pautan |
| Penerangan Produk | Koleksi perbualan fiksyen, dengan metadata watak dan filem. Setiap baris ialah dialog antara dua orang, dalam format soalan-jawapan. | ||||
| Penerangan Produk | Set data jawapan soalan dengan soalan dan jawapan daripada portal Yahoo Answers antara Apr 2007 dan Okt 2007. | ||||
| +NLP | teks | MS MARCO | Umum | Menjawab Soalan | pautan |
| Penerangan Produk | Set data jawapan soalan dengan anotasi daripada log carian web Bing. Setiap soalan mengandungi jawapan yang diberikan daripada pengguna, serta petikan web yang mengandungi jawapannya. | ||||
| +NLP | teks | Set Data Soalan Semulajadi | Umum | Menjawab Soalan | pautan |
| Penerangan Produk | Dikeluarkan oleh Google, set data ini mengandungi pertanyaan dan jawapan pengguna sebenar daripada artikel Wikipedia. | ||||
| +NLP | teks | DBPedia | Umum | Graf Pengetahuan | pautan |
| Penerangan Produk | Satu pemaparan berstruktur Wikipedia, dengan entiti dan perhubungan diekstrak sebagai Graf Pengetahuan. | ||||
| +NLP | teks | YAGO | Umum | Graf Pengetahuan | pautan |
| Penerangan Produk | Graf pengetahuan yang mengandungi entiti dan hubungan daripada Wikipedia, WordNet dan GeoNames. | ||||
| +NLP | teks | FreeBase | Umum | Graf Pengetahuan | pautan |
| Penerangan Produk | Pangkalan pengetahuan sumber orang ramai yang terdiri daripada entiti dan perhubungan, kini digabungkan ke dalam graf pengetahuan Google. | ||||
| +NLP | teks | Ontonotes | Umum | Pelabelan Peranan Semantik | pautan |
| Penerangan Produk | Korpus dengan anotasi peringkat sintaksis, semantik dan wacana yang digunakan dalam tugas bersama CoNLL. | ||||
| Penerangan Produk | Set data bahasa Inggeris beranotasi untuk entiti bernama seperti orang, organisasi dan lokasi. | ||||
| +CV | Image | Coco | Umum | Pengesanan Objek | pautan |
| Penerangan Produk | Objek Biasa dalam Konteks: set data beranotasi yang kaya untuk pengesanan objek, pembahagian dan kapsyen. | ||||
| +CV | Image | PASCAL VOC | Umum | Pengesanan Objek | pautan |
| Penerangan Produk | Set data penanda aras untuk pengesanan objek dan cabaran pembahagian. | ||||
| +CV | Image | Pemandangan bandar | Memandu Autonomi | Segmentasi Semantik | pautan |
| Penerangan Produk | Set data untuk pemahaman pemandangan bandar dengan anotasi tahap piksel untuk 30 kelas. | ||||
| +CV | Image | MNIST | Umum | Klasifikasi Digit | pautan |
| Penerangan Produk | Set data digit tulisan tangan dengan 60,000 latihan dan 10,000 imej ujian 28x28 piksel. | ||||
| +CV | Image | Fesyen-MNIST | Runcit | Pengelasan Imej | pautan |
| Penerangan Produk | Set data imej artikel Zalando dalam format yang sama seperti MNIST, digunakan sebagai pengganti drop-in untuk penanda aras. | ||||
| +NLP | Audio | LibriSpeech | Umum | ASR | pautan |
| Penerangan Produk | Korpus pertuturan bahasa Inggeris yang dibaca yang diperoleh daripada buku audio, dengan 1000 jam pertuturan dan teks yang berkaitan. | ||||
| +NLP | Audio | TED-LIUM | Umum | ASR | pautan |
| Penerangan Produk | Mentranskripsi ceramah TED dengan audio dan transkripsi sejajar untuk penyelidikan pengecaman pertuturan. | ||||
| +NLP | Audio | TIMIT | Umum | Pengecaman Fonem | pautan |
| Penerangan Produk | Ucapan yang ditranskripsi secara fonetik bagi penutur bahasa Inggeris Amerika, digunakan secara meluas untuk tugas pengecaman fonem. | ||||
| +NLP | Audio | Suara biasa | Umum | ASR | pautan |
| Penerangan Produk | Korpus ucapan baca berbilang bahasa yang disumbangkan oleh sukarelawan di seluruh dunia. | ||||
| +NLP | Audio | VoxCeleb | Umum | Pengiktirafan Penceramah | pautan |
| Penerangan Produk | Set data pengenalan pembesar suara berskala besar yang dikumpulkan daripada video YouTube. | ||||
| +NLP | teks | Lambakan Wikipedia | Umum | Pemodelan Bahasa | pautan |
| Penerangan Produk | Lambakan teks penuh artikel Wikipedia, dikemas kini dengan kerap, digunakan untuk model bahasa pralatihan. | ||||
| +NLP | teks | Gigaword | Berita | Pemodelan Bahasa | pautan |
| Penerangan Produk | Arkib komprehensif data teks wayar berita daripada pelbagai agensi berita. | ||||
| +NLP | teks | Ulasan IMDB | hiburan | Analisis Sentimen | pautan |
| Penerangan Produk | Set data semakan filem yang besar untuk klasifikasi sentimen binari. | ||||
| +CV | video | Kinetik-700 | Umum | Pengiktirafan Tindakan | pautan |
| Penerangan Produk | Set data klip video YouTube berskala besar dan berkualiti tinggi yang meliputi 700 kelas tindakan manusia. | ||||
| +CV | video | UCF101 | Umum | Pengiktirafan Tindakan | pautan |
| Penerangan Produk | Set data video tindakan realistik, dengan 101 kategori tindakan. | ||||
| +CV | video | HMDB51 | Umum | Pengiktirafan Tindakan | pautan |
| Penerangan Produk | Pangkalan data video gerakan manusia yang besar dengan 51 kategori tindakan. | ||||
| Penerangan Produk | Pangkalan data gambar muka yang direka untuk mengkaji pengecaman muka tanpa batasan. | ||||
| +CV | Image | CASIA-WebFace | Umum | Pengiktirafan Muka | pautan |
| Penerangan Produk | Set data dengan berjuta-juta imej muka untuk melatih model pengecaman muka dalam. | ||||
| +NLP | teks | SKUAD | Umum | Pemahaman bacaan | pautan |
| Penerangan Produk | Set Data Menjawab Soalan Stanford: soalan yang dikemukakan oleh orang ramai pada set artikel Wikipedia. | ||||
| Penerangan Produk | Set data pemahaman mesin dengan soalan dan jawapan berdasarkan artikel berita CNN. | ||||
| +NLP | teks | MultiNLI | Umum | Inferens Bahasa Semulajadi | pautan |
| Penerangan Produk | Set data untuk inferens bahasa semula jadi pasangan ayat merentas berbilang genre. | ||||
| +NLP | teks | SNLI | Umum | Inferens Bahasa Semulajadi | pautan |
| Penerangan Produk | Stanford Natural Language Inference Corpus dengan pasangan ayat yang dilabelkan sebagai entailment, percanggahan atau neutral. | ||||
| Penerangan Produk | Koleksi lebih 100 juta token yang diekstrak daripada set artikel Baik dan Pilihan yang disahkan di Wikipedia. | ||||
| Penerangan Produk | Set data 16,185 imej 196 kelas kereta. | ||||
| +CV | Image | Bunga Oxford 102 | Botani | Klasifikasi berbutir halus | pautan |
| Penerangan Produk | 102 kategori bunga yang biasa berlaku di United Kingdom. | ||||
| +CV | Image | CIFAR-10 | Umum | Pengelasan Imej | pautan |
| Penerangan Produk | Imej 10 kelas: kapal terbang, kereta, burung, kucing, rusa, anjing, katak, kuda, kapal dan trak. | ||||
| +CV | Image | CIFAR-100 | Umum | Pengelasan Imej | pautan |
| Penerangan Produk | Set data yang serupa dengan CIFAR-10, tetapi dengan 100 kelas berbutir halus. | ||||
| +CV | Image | Susun Atur Orang VOC | Umum | Anggaran Pose | pautan |
| Penerangan Produk | Sebahagian daripada PASCAL VOC memfokuskan pada anotasi susun atur orang seperti kepala, tangan dan kaki. | ||||
| +CV | Image | Pose Manusia MPII | Umum | Anggaran Pose | pautan |
| Penerangan Produk | Sekitar 25,000 imej yang mengandungi lebih 40,000 orang dengan sendi badan beranotasi. | ||||
| Penerangan Produk | Koleksi artikel berita Reuters untuk penyelidikan pengkategorian teks. | ||||
| +NLP | teks | 20 Kumpulan Berita | Umum | Pengelasan Teks | pautan |
| Penerangan Produk | Koleksi 20,000 dokumen kumpulan berita dibahagikan kepada 20 kumpulan berita yang berbeza. | ||||