Buka Pangkalan Data
Cari kumpulan data sumber terbuka yang membolehkan anda melatih model ML
Dataset Sumber Terbuka Untuk Memulakan Anda dengan Model AI / ML
Keluaran model AI & ML anda hanya sebaik data yang anda gunakan untuk melatihnya - jadi ketepatan yang anda gunakan untuk pengumpulan data dan penandaan dan pengenalpastian data itu penting!
Oleh itu, jika anda ingin memulakan inisiatif AI / ML baru dan sekarang anda dengan cepat menyedari bahawa mencari data latihan berkualiti tinggi akan menjadi salah satu aspek yang lebih mencabar dari projek anda kerana set data berkualiti tinggi adalah bahan bakar yang menjaga AI / Enjin ML sedang berjalan. Kami telah mengumpulkan senarai set data terbuka yang bebas digunakan dan melatih model AI / ML anda di masa hadapan.
Pengkhususan | Jenis data | Nama Set Data | Industri / Jabatan | Kes Anotasi / Penggunaan | Penerangan Produk | pautan |
---|---|---|---|---|---|---|
NLP | teks | Ulasan Amazon | E-dagang | Analisis Sentimen | Satu set ulasan & penilaian 35 Juta dari lebih 18 tahun terakhir dalam teks biasa dengan maklumat pengguna dan produk. | pautan |
NLP | teks | Data Pautan Wikipedia | Umum | Lebih daripada 4 Mn. artikel yang mengandungi 1.9 Bn. kata yang terdiri daripada kata dan frasa serta perenggan. | pautan | |
NLP | teks | Standford Sentimen Treebank | hiburan | Analisis Sentimen | Set data anotasi sentimen untuk lebih daripada 10,000 keping ulasan dari Rotten Tomatoes dalam format fail HTML | pautan |
NLP | teks | Sentimen Syarikat Penerbangan AS Twitter | Syarikat penerbangan | Analisis Sentimen | Tweet 2015 di US Airlines berubah menjadi nada positif, negatif, dan neutral | pautan |
CV | Image | Muka Berlabel Di Liar | Umum | Pengecaman wajah | Set data yang mengandungi lebih dari 13,000 wajah yang dipotong dengan dua gambar berbeza untuk latihan pengecaman wajah. | pautan |
CV | Video, Imej | Set Data UMDFaces | Umum | Pengecaman wajah | Set data teranotasi yang mengandungi lebih daripada 367,000 wajah dari lebih 8,000 subjek yang merangkumi gambar pegun dan video. | pautan |
CV | Image | Imagenet | Umum | Set data dengan lebih dari 14 Mn. gambar dalam pelbagai format fail, disusun mengikut hierarki WordNet. | pautan | |
CV | Image | Gambar Terbuka Google | Umum | 9 Mn. URL untuk mengkategorikan gambar awam dari lebih 6,000 kategori. | pautan | |
NLP | teks | Pangkalan Data Penjagaan Kritikal MIMIC | Healthcare | Dataset Fisiologi Komputasi dengan data yang tidak dikenal pasti dari 40,000 pesakit rawatan kritikal. Set data mengandungi maklumat seperti demografi, tanda vital, ubat-ubatan, dll. | pautan | |
CV | Image | Pejabat Pelancongan dan Pelancongan Nasional AS | Pelancongan | Menyediakan gambar luas dari industri pelancongan dengan pangkalan data yang boleh dipercayai, merangkumi topik-topik seperti perjalanan masuk dan keluar dan maklumat pelancongan antarabangsa. | pautan | |
NLP | teks | Jabatan Pengangkutan | Pelancongan | Set data pelancongan yang merangkumi Taman Negara, daftar pemandu, maklumat jambatan & rel dll. | pautan | |
NLP | Audio | Kapsyen Audio Flickr Corpus | Umum | Lebih daripada 40 ribu keterangan lisan dari 8,000 gambar yang direka untuk corak pertuturan tanpa pengawasan | pautan | |
NLP | Audio | Set data Perintah Ucapan | Umum | Pengiktirafan Ucapan, Anotasi Audio | Ucapan panjang 1 saat dari ribuan individu, untuk membina antara muka suara asas. | pautan |
NLP | Audio | Set Data Audio Alam Sekitar | Umum | Set data audio persekitaran yang mengandungi jadual bunyi peristiwa dan jadual pemandangan akustik. | pautan | |
NLP | teks | Pangkalan Data Penyelidikan Terbuka COVID-19 | Healthcare | Perubatan AI | Kumpulan data penyelidikan yang terdiri daripada 45,000 artikel ilmiah mengenai COVID-19 & keluarga virus coronavirus. | pautan |
CV | Image | Set Data Terbuka Waymo | Automotif | Kumpulan data pemanduan autonomi paling pelbagai yang dikeluarkan oleh Waymo | pautan | |
CV | Image | Labelme | Kerajaan Awam | Kumpulan gambar beranotasi yang besar dapat diakses melalui Labelme Matlab | pautan | |
CV | Image | Dataset Anjing Stanford | Umum | Lebih 20,500+ gambar dikategorikan ke dalam set gambar 120 baka anjing yang berbeza | pautan | |
CV | Image | Pengiktirafan Pemandangan Dalaman | Umum | Pengiktirafan Adegan | Set data khusus yang terdiri daripada 15620 gambar dari 67 kategori dalaman untuk membina model pengenalan pemandangan | pautan |
CV | Image | VisualQA | Umum | Set data yang merangkumi soalan terbuka berkaitan dengan 265,016 foto yang memerlukan pemahaman penglihatan dan pemahaman bahasa untuk bertindak balas. | pautan | |
NLP | teks | Pangkalan Data Analisis Sentimen Multidomain | E-dagang | Analisis Sentimen | Set data yang mengandungi ulasan produk dari Amazon | pautan |
NLP | teks | Ulasan IMDB | hiburan | Analisis Sentimen | Set data yang mengandungi 25000 ulasan filem untuk analisis sentimen | pautan |
NLP | teks | Blogger Corpus | Umum | Kata kunci Ananlysis | Set data yang mengandungi 681,288 catatan blog dari blogger.com yang terdiri daripada minimum 200 kejadian perkataan Inggeris yang banyak digunakan. | pautan |
NLP | teks | Jeopardy | Umum | Latihan Chatbot | Set data dengan lebih daripada 200,000 soalan yang dapat digunakan untuk melatih model pembelajaran mesin untuk bertindak balas secara pintar secara automatik | pautan |
NLP | teks | Koleksi Spam SMS dalam Bahasa Inggeris | Telecom | Pengiktirafan Spam | Set data mesej spam yang terdiri daripada 5,574 SMS Inggeris | pautan |
NLP | teks | Ulasan Yelp | Umum | Analisis Sentimen | Set data dengan tinjauan lebih dari 5 juta diterbitkan oleh Yelp | pautan |
NLP | teks | Spambase UCI | Enterprise | Pengiktirafan Spam | Set data besar e-mel spam, berguna untuk penapisan spam. | pautan |
CV | Video, Imej | Berkeley DeepDrive BDD100k | Automotif | Kenderaan Autonomi | Salah satu kumpulan data terbesar untuk AI memandu sendiri yang mengandungi 1,100 jam pengalaman memandu dalam lebih 100,000 video dari waktu yang berlainan dari kawasan New York dan San Francisco. | pautan |
CV | video | Koma.ai | Automotif | Kenderaan Autonomi | Set data pemanduan lebuh raya selama 7 jam yang terdiri daripada maklumat mengenai kelajuan, pecutan, sudut stereng, dan koordinat GPS | pautan |
CV | Video, Imej | Set data Cityscape | Automotif | Label Semantik untuk Kenderaan Autonomi | Set data anotasi tahap piksel 5,000 ditambah satu set 20,000 bingkai lemah yang diberi anotasi dalam urutan video stereo yang lebih besar, direkodkan dari 50 bandar yang berbeza | pautan |
CV | Image | Dataset Tanda Lalu Lintas KUL Belgium | Automotif | Kenderaan Autonomi | Lebih dari 10000+ anotasi tanda lalu lintas dari wilayah Flanders berdasarkan tanda lalu lintas yang berbeza secara fizikal dari seluruh Belgium. | pautan |
CV | Image | LISA: Makmal untuk Mobil Pintar & Selamat, Dataset UC San Diego | Automotif | Kenderaan Autonomi | Kumpulan data kaya yang mengandungi tanda lalu lintas, pengesanan kenderaan, lampu isyarat, dan corak lintasan. | pautan |
CV | Image | CIFAR-10 | Umum | Pengecaman Objek | Kumpulan data yang terdiri daripada 50,000 gambar dan 10,000 gambar ujian (iaitu 60,000 gambar 32 × 32 warna dalam 10 kelas) untuk pengecaman objek. | pautan |
CV | Image | Fesyen MNIST | Fesyen | Set data gambar yang terdiri daripada 60,000 contoh dan satu set ujian 10,000 contoh dalam gambar skala abu-abu 28 × 28, yang dikaitkan dengan label dari 10 kelas. | pautan | |
CV | Image | Set Data IMDB-Wiki | hiburan | Pengecaman wajah | Kumpulan data wajah yang besar dengan label seperti jantina dan usia. Daripada keseluruhan 523,051 gambar wajah, 460,723 gambar diperoleh daripada 20,284 selebriti dari IMDB & 62,328 dari Wikipedia. | pautan |
CV | video | Kinetik-700 | Umum | Untuk setiap kelas tindakan, set data berkualiti tinggi terdiri daripada 650,000 klip video dan merangkumi 700 kelas aksi manusia dengan sekurang-kurangnya 600 klip video. Di sini, setiap klip berlangsung selama 10 saat atau lebih. | pautan | |
CV | Image | MS Coco | Umum | Pengesanan objek, Segmentasi | Set data tersebut mengandungi 328k gambar dan memiliki total 2.5 Mn instance dan 91 gambar objek untuk melatih pengesanan objek, segmentasi, dan model data yang berkaitan dengan caption data berskala besar. | pautan |
CV | Image | Set Data Pose Manusia MPII | Umum | Kira-kira 25K gambar yang mengandungi lebih daripada 40K individu dengan sendi badan beranotasi dimasukkan ke dalam set data, yang digunakan untuk mengartikulasikan pose manusia. Secara keseluruhan dataset merangkumi 410 aktiviti manusia dan setiap gambar diberikan label aktiviti. | pautan | |
CV | Image | Buka Imej | Umum | Anotasi lokasi objek | Set data gambar dengan gambar sekitar 9 Mn diberi anotasi dengan label tahap gambar, kotak pengikat objek, segmentasi objek dll. Set data juga terdiri dari 16 Mn. kotak pengikat untuk 600 kelas objek pada gambar 1.9 Mn. | pautan |
CV | Video, Imej | Argo, oleh Argo, Amerika Syarikat | Automotif | Kotak Pengikat, Aliran Optik, Label Tingkah Laku, Label Semantik, Penandaan Lorong | Set data memandu sendiri yang terdiri daripada peta HD dengan metadata geometri & semantik iaitu garis tengah lorong, arah lorong, & kawasan yang boleh dipacu. Set data digunakan untuk melatih model ML, untuk membuat algoritma persepsi yang lebih tepat, yang akan membantu kenderaan memandu sendiri menavigasi dengan selamat. | pautan |
CV | video | Lampu Lalu Lintas Kecil Bosch, oleh Bosch North America Research | Automotif | Kotak Berikat | Set data yang terdiri daripada 13427 gambar kamera dengan resolusi 1280 * 720 untuk membina sistem pengesanan lampu isyarat berasaskan penglihatan. Set data mempunyai lebih daripada 24000 lampu isyarat beranotasi. | pautan |
CV | video | Brain4Cars, oleh Cornell Univ., Amerika Syarikat | Automotif | Label Tingkah Laku | Set data yang terdiri daripada pelbagai sensor kabin (kamera, sensor taktil, peranti pintar, dll.) Untuk mengekstrak statistik berguna mengenai kewaspadaan pemandu. Algoritma kami dapat mengesan pemandu yang mengantuk atau terganggu dan meningkatkan penggera yang diperlukan untuk meningkatkan perlindungan. | pautan |
CV | Image | CULane, oleh Univ Cina. Hong Kong, Beijing, China | Automotif | Penandaan Lorong | Set data Visi Komputer mengenai pengesanan lorong lalu lintas, terdiri daripada 55 jam video yang mana 133,235 (set latihan 88880, set pengesahan 9675, dan set ujian 34680) diekstrak. Ia dikumpulkan oleh kamera yang dipasang pada enam kenderaan berbeza yang dipandu oleh pemandu yang berbeza di Beijing. | pautan |
CV | video | DAVIS, oleh Univ. of Zurich, ETH ¨ Zurich, Jerman, Switzerland | Automotif | Set data latihan memandu kenderaan end-to-end yang menggunakan kamera + acara DAVIS. Data kereta seperti stereng, pendikit, GPS, dan lain-lain digunakan untuk menilai penyatuan data bingkai dan peristiwa untuk aplikasi automotif. | pautan | |
CV | video | DBNet, oleh Shanghai Jiao Tong Univ., Xiamen Univ., China | Automotif | Awan Titik, LiDAR | Data pemanduan 1000 KM dunia nyata, yang merangkumi video sejajar, cloud point, GPS dan tingkah laku pemandu untuk penyelidikan mendalam mengenai tingkah laku memandu. | pautan |
CV | video | Dr (mata) ve, oleh Univ. Modena dan Reggio Emilia, Modena, Itali | Automotif | Label Tingkah Laku | Set data yang mengandungi 74 urutan video masing-masing 5 minit, yang dijelaskan dalam lebih dari 500,000 bingkai. Set data terdiri dari lokasi yang dirujuk di Geo, kelajuan pemanduan, kursus, dan juga melabelkan pemandu melihat pandangan dan integrasi temporal mereka yang menyediakan peta khusus tugas. | pautan |
CV | video | ETH Pedestrian (2009), oleh ETH Zurich, Zurich, Switzerland | Umum | Kotak Berikat | Set data 74 urutan video masing-masing 5 minit, dijelaskan dalam lebih daripada 500,000 bingkai. Set data menyediakan kedudukan yang dirujuk secara geografis, kelajuan pemanduan, arah, dan juga label penetapan pandangan untuk pemandu dan integrasi temporal mereka, termasuk peta khusus tugas. | pautan |
CV | video | Ford (2009), oleh Univ. dari Michigan, Michigan, AS | Automotif | Bounding Box,, LiDAR | Set data yang disusun oleh kenderaan darat automatik yang dilengkapi dengan pengimbas lidar 3D Velodyne, dua lidar Rieg yang berpandangan ke hadapan, unit Pengukuran Inersia (IMU) teknikal dan pengguna, dan sistem kamera omnidirectional Point Gray Ladybug3. | pautan |
CV | video | HCI Challenging Stereo, Penyelidikan Bosch Corporation, Hildesheim, Jerman | Umum | Kumpulan data beberapa juta bingkai dari adegan video yang ditangkap yang merangkumi pelbagai keadaan cuaca, pelbagai lapisan gerakan dan kedalaman; keadaan di bandar dan luar bandar, dll. | pautan | |
CV | video | JAAD, oleh Universiti York, Ukraine, Kanada | Automotif | Bounding Box, Label Tingkah Laku | "JAAD adalah dataset untuk mengkaji perhatian bersama dalam konteks pemanduan autonomi. Tumpuannya adalah pada tingkah laku pejalan kaki dan pemandu pada titik persimpangan dan faktor-faktor yang mempengaruhinya. Untuk tujuan ini, set data JAAD menyediakan koleksi 346 video pendek yang diberi anotasi klip (panjang 5-10 saat) diekstrak dari lebih dari 240 jam rakaman pemanduan dari beberapa lokasi di Amerika Utara dan Eropah Timur. Kotak pengikat dengan tanda oklusi digunakan untuk semua pejalan kaki yang menjadikan set data ini sesuai untuk pengesanan pejalan kaki. Anotasi tingkah laku menentukan tingkah laku untuk pejalan kaki yang berinteraksi dengan atau memerlukan perhatian pemandu. Untuk setiap video terdapat beberapa label (cuaca, lokasi, dll.) dan label tingkah laku yang dilekatkan pada masa (mis. berhenti, berjalan, melihat, dll.). Di samping itu, senarai atribut demografi adalah disediakan untuk setiap pejalan kaki (misalnya usia, jantina, arah gerakan, dll.) serta senarai elemen pemandangan lalu lintas yang dapat dilihat (contohnya tanda berhenti, isyarat lalu lintas, dll.) di setiap bingkai. " | pautan |
CV | Image | Tanda Lalu Lintas LISA, oleh Univ. California, San Diego, Amerika Syarikat | Automotif | Kotak Berikat | Kumpulan set data yang mengandungi video dan bingkai beranotasi yang mengandungi tanda lalu lintas AS. Ia dilancarkan dalam dua peringkat, satu dengan hanya gambar dan satu dengan kedua gambar dan video. | pautan |
CV | Image | Mapillary Vistas, oleh Mapillary AB, Global | Automotif | Label Semantik | Kumpulan data fotografi jalanan untuk menafsirkan pemandangan jalanan di seluruh dunia dengan anotasi manusia yang tepat dan tepat untuk piksel. | pautan |
CV | Video, Imej | Semantik KITTI, oleh University of Bonn, Karlsruhe, Jerman | Automotif | Kotak Bounding, Label Semantik, Penandaan Lorong | Set data yang merangkumi anotasi semantik untuk semua urutan Penanda Aras Odometry. Set data memberi anotasi pelbagai jenis lalu lintas bergerak dan tidak bergerak: termasuk kereta, basikal, basikal, pejalan kaki, dan penunggang basikal, yang membolehkan objek di tempat kejadian dipelajari. | pautan |
CV | video | Stanford Track, oleh Stanford Univ., Amerika Syarikat | Automotif | Pengesanan / Pengelasan Objek LiDAR, GPS, Kod | Set data yang merangkumi 14,000 trek objek berlabel seperti yang diperhatikan oleh Velodyne HDL-64E S2 LIDAR dalam pemandangan jalanan semula jadi, yang dapat digunakan untuk melatih model pembelajaran mesin untuk Pengenalan Objek 3D. | pautan |
CV | Video, Imej | Dataset Boxy, oleh Bosch, Amerika Syarikat | Automotif | Bounding Box / Pengesanan Kenderaan | Satu set data pengesanan kenderaan yang mengandungi 2 juta kenderaan beranotasi untuk latihan dan menganalisis strategi pengenalan objek untuk kereta memandu sendiri di lebuh raya. | pautan |
CV | video | Lebuhraya TME, oleh Czech Technical Univ., Itali Utara | Automotif | Kotak Berikat | Set data sebanyak 28 klip selama 27 minit dibahagikan kepada 30,000+ bingkai anotasi kenderaan. Anotasi dihasilkan secara automatik menggunakan data dari pengimbas laser. Pengumpulan data ini melibatkan senario lalu lintas yang berubah-ubah, jumlah lorong, kelengkungan jalan dan pencahayaan, yang merangkumi banyak syarat pemerolehan penuh. | pautan |
CV | video | Llamas Tanpa Pengawasan, oleh Bosch, Amerika Syarikat | Automotif | Penandaan Lorong, LiDAR | Kumpulan data Llamas Tanpa Pengawasan diberi penjelasan dengan menghasilkan peta pemanduan automatik definisi tinggi, termasuk penanda lorong berdasarkan Lidar. Kenderaan autonomi dapat diselaraskan dengan peta ini dan tanda lorong diproyeksikan ke dalam bingkai kamera. Unjuran 3D dioptimumkan dengan meminimumkan perbezaan antara penanda gambar yang sudah diperhatikan dan diramalkan. | pautan |
NLP | Audio | Facebook AI Multibahasa LibriSpeech (MLS) | Umum | Anotasi Audio / Pengiktirafan Ucapan | Facebook AI Multilingual LibriSpeech (MLS), adalah kumpulan data sumber terbuka berskala besar yang direka untuk membantu memajukan penyelidikan dalam pengecaman pertuturan automatik (ASR). MLS menyediakan lebih dari 50,000 jam audio dalam 8 bahasa: Inggeris, Jerman, Belanda, Perancis, Sepanyol, Itali, Portugis, dan Poland. | pautan |