Buka Pangkalan Data

Cari kumpulan data sumber terbuka yang membolehkan anda melatih model ML

Buka set data

Dataset Sumber Terbuka Untuk Memulakan Anda dengan Model AI / ML

Keluaran model AI & ML anda hanya sebaik data yang anda gunakan untuk melatihnya - jadi ketepatan yang anda gunakan untuk pengumpulan data dan penandaan dan pengenalpastian data itu penting!

Oleh itu, jika anda ingin memulakan inisiatif AI / ML baru dan sekarang anda dengan cepat menyedari bahawa mencari data latihan berkualiti tinggi akan menjadi salah satu aspek yang lebih mencabar dari projek anda kerana set data berkualiti tinggi adalah bahan bakar yang menjaga AI / Enjin ML sedang berjalan. Kami telah mengumpulkan senarai set data terbuka yang bebas digunakan dan melatih model AI / ML anda di masa hadapan.

PengkhususanJenis dataNama Set DataIndustri / JabatanKes Anotasi / PenggunaanPenerangan Produkpautan
NLPteksUlasan AmazonE-dagangAnalisis SentimenSatu set ulasan & penilaian 35 Juta dari lebih 18 tahun terakhir dalam teks biasa dengan maklumat pengguna dan produk.pautan
NLPteksData Pautan WikipediaUmumLebih daripada 4 Mn. artikel yang mengandungi 1.9 Bn. kata yang terdiri daripada kata dan frasa serta perenggan.pautan
NLPteksStandford Sentimen TreebankhiburanAnalisis SentimenSet data anotasi sentimen untuk lebih daripada 10,000 keping ulasan dari Rotten Tomatoes dalam format fail HTMLpautan
NLPteksSentimen Syarikat Penerbangan AS TwitterSyarikat penerbanganAnalisis SentimenTweet 2015 di US Airlines berubah menjadi nada positif, negatif, dan neutralpautan
CVImage Muka Berlabel Di LiarUmumPengecaman wajahSet data yang mengandungi lebih dari 13,000 wajah yang dipotong dengan dua gambar berbeza untuk latihan pengecaman wajah.pautan
CVVideo, ImejSet Data UMDFacesUmumPengecaman wajahSet data teranotasi yang mengandungi lebih daripada 367,000 wajah dari lebih 8,000 subjek yang merangkumi gambar pegun dan video.pautan
CVImage ImagenetUmumSet data dengan lebih dari 14 Mn. gambar dalam pelbagai format fail, disusun mengikut hierarki WordNet.pautan
CVImage Gambar Terbuka GoogleUmum9 Mn. URL untuk mengkategorikan gambar awam dari lebih 6,000 kategori.pautan
NLPteksPangkalan Data Penjagaan Kritikal MIMICHealthcareDataset Fisiologi Komputasi dengan data yang tidak dikenal pasti dari 40,000 pesakit rawatan kritikal. Set data mengandungi maklumat seperti demografi, tanda vital, ubat-ubatan, dll.pautan
CVImagePejabat Pelancongan dan Pelancongan Nasional ASPelanconganMenyediakan gambar luas dari industri pelancongan dengan pangkalan data yang boleh dipercayai, merangkumi topik-topik seperti perjalanan masuk dan keluar dan maklumat pelancongan antarabangsa.pautan
NLPteksJabatan PengangkutanPelanconganSet data pelancongan yang merangkumi Taman Negara, daftar pemandu, maklumat jambatan & rel dll.pautan
NLPAudioKapsyen Audio Flickr CorpusUmumLebih daripada 40 ribu keterangan lisan dari 8,000 gambar yang direka untuk corak pertuturan tanpa pengawasanpautan
NLPAudioSet data Perintah UcapanUmumPengiktirafan Ucapan, Anotasi AudioUcapan panjang 1 saat dari ribuan individu, untuk membina antara muka suara asas.pautan
NLPAudioSet Data Audio Alam SekitarUmumSet data audio persekitaran yang mengandungi jadual bunyi peristiwa dan jadual pemandangan akustik.pautan
NLPteksPangkalan Data Penyelidikan Terbuka COVID-19 HealthcarePerubatan AIKumpulan data penyelidikan yang terdiri daripada 45,000 artikel ilmiah mengenai COVID-19 & keluarga virus coronavirus.pautan
CVImageSet Data Terbuka Waymo AutomotifKumpulan data pemanduan autonomi paling pelbagai yang dikeluarkan oleh Waymopautan
CVImageGenom Visual UmumKapsyen ImejPangkalan pengetahuan visual dengan kapsyen terperinci lebih dari 100K gambarpautan
CVImageLabelme Kerajaan AwamKumpulan gambar beranotasi yang besar dapat diakses melalui Labelme Matlabpautan
CVImageCOIL100UmumLebih dari 100 objek bervariasi difotografi dari pelbagai sudut (iaitu 360 darjah)pautan
CVImageDataset Anjing StanfordUmumLebih 20,500+ gambar dikategorikan ke dalam set gambar 120 baka anjing yang berbezapautan
CVImagePengiktirafan Pemandangan DalamanUmumPengiktirafan AdeganSet data khusus yang terdiri daripada 15620 gambar dari 67 kategori dalaman untuk membina model pengenalan pemandanganpautan
CVImageVisualQAUmumSet data yang merangkumi soalan terbuka berkaitan dengan 265,016 foto yang memerlukan pemahaman penglihatan dan pemahaman bahasa untuk bertindak balas.pautan
NLPteksPangkalan Data Analisis Sentimen MultidomainE-dagangAnalisis SentimenSet data yang mengandungi ulasan produk dari Amazonpautan
NLPteksUlasan IMDBhiburanAnalisis SentimenSet data yang mengandungi 25000 ulasan filem untuk analisis sentimenpautan
NLPteksSentimen140UmumAnalisis SentimenSet data yang mengandungi 160,000 tweet dengan emoticon pra-dikeluarkan untuk ketepatan yang lebih tinggipautan
NLPteksBlogger CorpusUmumKata kunci AnanlysisSet data yang mengandungi 681,288 catatan blog dari blogger.com yang terdiri daripada minimum 200 kejadian perkataan Inggeris yang banyak digunakan.pautan
NLPteksJeopardyUmumLatihan ChatbotSet data dengan lebih daripada 200,000 soalan yang dapat digunakan untuk melatih model pembelajaran mesin untuk bertindak balas secara pintar secara automatikpautan
NLPteksKoleksi Spam SMS dalam Bahasa InggerisTelecomPengiktirafan SpamSet data mesej spam yang terdiri daripada 5,574 SMS Inggerispautan
NLPteksUlasan YelpUmumAnalisis SentimenSet data dengan tinjauan lebih dari 5 juta diterbitkan oleh Yelppautan
NLPteksSpambase UCIEnterprisePengiktirafan SpamSet data besar e-mel spam, berguna untuk penapisan spam.pautan
CVVideo, ImejBerkeley DeepDrive BDD100kAutomotifKenderaan AutonomiSalah satu kumpulan data terbesar untuk AI memandu sendiri yang mengandungi 1,100 jam pengalaman memandu dalam lebih 100,000 video dari waktu yang berlainan dari kawasan New York dan San Francisco.pautan
CVvideoKoma.aiAutomotifKenderaan Autonomi Set data pemanduan lebuh raya selama 7 jam yang terdiri daripada maklumat mengenai kelajuan, pecutan, sudut stereng, dan koordinat GPSpautan
CVVideo, ImejSet data CityscapeAutomotifLabel Semantik untuk Kenderaan AutonomiSet data anotasi tahap piksel 5,000 ditambah satu set 20,000 bingkai lemah yang diberi anotasi dalam urutan video stereo yang lebih besar, direkodkan dari 50 bandar yang berbezapautan
CVImageDataset Tanda Lalu Lintas KUL BelgiumAutomotifKenderaan AutonomiLebih dari 10000+ anotasi tanda lalu lintas dari wilayah Flanders berdasarkan tanda lalu lintas yang berbeza secara fizikal dari seluruh Belgium.pautan
CVImageLISA: Makmal untuk Mobil Pintar & Selamat, Dataset UC San DiegoAutomotifKenderaan AutonomiKumpulan data kaya yang mengandungi tanda lalu lintas, pengesanan kenderaan, lampu isyarat, dan corak lintasan.pautan
CVImageCIFAR-10UmumPengecaman ObjekKumpulan data yang terdiri daripada 50,000 gambar dan 10,000 gambar ujian (iaitu 60,000 gambar 32 × 32 warna dalam 10 kelas) untuk pengecaman objek.pautan
CVImageFesyen MNISTFesyenSet data gambar yang terdiri daripada 60,000 contoh dan satu set ujian 10,000 contoh dalam gambar skala abu-abu 28 × 28, yang dikaitkan dengan label dari 10 kelas.pautan
CVImageSet Data IMDB-WikihiburanPengecaman wajahKumpulan data wajah yang besar dengan label seperti jantina dan usia. Daripada keseluruhan 523,051 gambar wajah, 460,723 gambar diperoleh daripada 20,284 selebriti dari IMDB & 62,328 dari Wikipedia.pautan
CVvideoKinetik-700UmumUntuk setiap kelas tindakan, set data berkualiti tinggi terdiri daripada 650,000 klip video dan merangkumi 700 kelas aksi manusia dengan sekurang-kurangnya 600 klip video. Di sini, setiap klip berlangsung selama 10 saat atau lebih.pautan
CVImageMS CocoUmumPengesanan objek, SegmentasiSet data tersebut mengandungi 328k gambar dan memiliki total 2.5 Mn instance dan 91 gambar objek untuk melatih pengesanan objek, segmentasi, dan model data yang berkaitan dengan caption data berskala besar.pautan
CVImageSet Data Pose Manusia MPIIUmumKira-kira 25K gambar yang mengandungi lebih daripada 40K individu dengan sendi badan beranotasi dimasukkan ke dalam set data, yang digunakan untuk mengartikulasikan pose manusia. Secara keseluruhan dataset merangkumi 410 aktiviti manusia dan setiap gambar diberikan label aktiviti.pautan
CVImageBuka ImejUmumAnotasi lokasi objekSet data gambar dengan gambar sekitar 9 Mn diberi anotasi dengan label tahap gambar, kotak pengikat objek, segmentasi objek dll. Set data juga terdiri dari 16 Mn. kotak pengikat untuk 600 kelas objek pada gambar 1.9 Mn.pautan
CVvideoPlatform Terbuka Apollo, oleh Baidu Inc, ChinaAutomotifKotak Sempadan, LiDARSet data pemanduan autonomus yang kaya, yang menyediakan data yang diperlukan kepada pemaju dalam pemanduan autonomi untuk mempercepat kecekapan lelaran inovatif.pautan
CVVideo, ImejArgo, oleh Argo, Amerika SyarikatAutomotifKotak Pengikat, Aliran Optik, Label Tingkah Laku, Label Semantik, Penandaan LorongSet data memandu sendiri yang terdiri daripada peta HD dengan metadata geometri & semantik iaitu garis tengah lorong, arah lorong, & kawasan yang boleh dipacu. Set data digunakan untuk melatih model ML, untuk membuat algoritma persepsi yang lebih tepat, yang akan membantu kenderaan memandu sendiri menavigasi dengan selamat.pautan
CVvideoLampu Lalu Lintas Kecil Bosch, oleh Bosch North America ResearchAutomotifKotak BerikatSet data yang terdiri daripada 13427 gambar kamera dengan resolusi 1280 * 720 untuk membina sistem pengesanan lampu isyarat berasaskan penglihatan. Set data mempunyai lebih daripada 24000 lampu isyarat beranotasi.pautan
CVvideoBrain4Cars, oleh Cornell Univ., Amerika SyarikatAutomotifLabel Tingkah LakuSet data yang terdiri daripada pelbagai sensor kabin (kamera, sensor taktil, peranti pintar, dll.) Untuk mengekstrak statistik berguna mengenai kewaspadaan pemandu. Algoritma kami dapat mengesan pemandu yang mengantuk atau terganggu dan meningkatkan penggera yang diperlukan untuk meningkatkan perlindungan.pautan
CVImageCULane, oleh Univ Cina. Hong Kong, Beijing, ChinaAutomotifPenandaan LorongSet data Visi Komputer mengenai pengesanan lorong lalu lintas, terdiri daripada 55 jam video yang mana 133,235 (set latihan 88880, set pengesahan 9675, dan set ujian 34680) diekstrak. Ia dikumpulkan oleh kamera yang dipasang pada enam kenderaan berbeza yang dipandu oleh pemandu yang berbeza di Beijing.pautan
CVvideoDAVIS, oleh Univ. of Zurich, ETH ¨ Zurich, Jerman, SwitzerlandAutomotifSet data latihan memandu kenderaan end-to-end yang menggunakan kamera + acara DAVIS. Data kereta seperti stereng, pendikit, GPS, dan lain-lain digunakan untuk menilai penyatuan data bingkai dan peristiwa untuk aplikasi automotif.pautan
CVvideoDBNet, oleh Shanghai Jiao Tong Univ., Xiamen Univ., ChinaAutomotifAwan Titik, LiDARData pemanduan 1000 KM dunia nyata, yang merangkumi video sejajar, cloud point, GPS dan tingkah laku pemandu untuk penyelidikan mendalam mengenai tingkah laku memandu.pautan
CVvideoDr (mata) ve, oleh Univ. Modena dan Reggio Emilia, Modena, ItaliAutomotifLabel Tingkah LakuSet data yang mengandungi 74 urutan video masing-masing 5 minit, yang dijelaskan dalam lebih dari 500,000 bingkai. Set data terdiri dari lokasi yang dirujuk di Geo, kelajuan pemanduan, kursus, dan juga melabelkan pemandu melihat pandangan dan integrasi temporal mereka yang menyediakan peta khusus tugas.pautan
CVvideoETH Pedestrian (2009), oleh ETH Zurich, Zurich, SwitzerlandUmumKotak BerikatSet data 74 urutan video masing-masing 5 minit, dijelaskan dalam lebih daripada 500,000 bingkai. Set data menyediakan kedudukan yang dirujuk secara geografis, kelajuan pemanduan, arah, dan juga label penetapan pandangan untuk pemandu dan integrasi temporal mereka, termasuk peta khusus tugas.pautan
CVvideoFord (2009), oleh Univ. dari Michigan, Michigan, ASAutomotifBounding Box,, LiDARSet data yang disusun oleh kenderaan darat automatik yang dilengkapi dengan pengimbas lidar 3D Velodyne, dua lidar Rieg yang berpandangan ke hadapan, unit Pengukuran Inersia (IMU) teknikal dan pengguna, dan sistem kamera omnidirectional Point Gray Ladybug3.pautan
CVvideoHCI Challenging Stereo, Penyelidikan Bosch Corporation, Hildesheim, JermanUmumKumpulan data beberapa juta bingkai dari adegan video yang ditangkap yang merangkumi pelbagai keadaan cuaca, pelbagai lapisan gerakan dan kedalaman; keadaan di bandar dan luar bandar, dll.pautan
CVvideoJAAD, oleh Universiti York, Ukraine, KanadaAutomotifBounding Box, Label Tingkah Laku"JAAD adalah dataset untuk mengkaji perhatian bersama dalam konteks pemanduan autonomi. Tumpuannya adalah pada tingkah laku pejalan kaki dan pemandu pada titik persimpangan dan faktor-faktor yang mempengaruhinya. Untuk tujuan ini, set data JAAD menyediakan koleksi 346 video pendek yang diberi anotasi klip (panjang 5-10 saat) diekstrak dari lebih dari 240 jam rakaman pemanduan dari beberapa lokasi di Amerika Utara dan Eropah Timur. Kotak pengikat dengan tanda oklusi digunakan untuk semua pejalan kaki yang menjadikan set data ini sesuai untuk pengesanan pejalan kaki. Anotasi tingkah laku menentukan tingkah laku untuk pejalan kaki yang berinteraksi dengan atau memerlukan perhatian pemandu. Untuk setiap video terdapat beberapa label (cuaca, lokasi, dll.) dan label tingkah laku yang dilekatkan pada masa (mis. berhenti, berjalan, melihat, dll.). Di samping itu, senarai atribut demografi adalah disediakan untuk setiap pejalan kaki (misalnya usia, jantina, arah gerakan, dll.) serta senarai elemen pemandangan lalu lintas yang dapat dilihat (contohnya tanda berhenti, isyarat lalu lintas, dll.) di setiap bingkai. "pautan
CVvideoKAIST Urban, oleh KAIST, Korea SelatanUmumLiDARPengumpulan data merangkumi banyak sensor lokasi untuk data LiDAR dan gambar stereo yang menyasarkan kawasan bandar yang sangat kompleks (contohnya kawasan metropolis, bangunan kompleks dan kawasan perumahan).pautan
CVImageTanda Lalu Lintas LISA, oleh Univ. California, San Diego, Amerika SyarikatAutomotifKotak BerikatKumpulan set data yang mengandungi video dan bingkai beranotasi yang mengandungi tanda lalu lintas AS. Ia dilancarkan dalam dua peringkat, satu dengan hanya gambar dan satu dengan kedua gambar dan video.pautan
CVImageMapillary Vistas, oleh Mapillary AB, GlobalAutomotifLabel SemantikKumpulan data fotografi jalanan untuk menafsirkan pemandangan jalanan di seluruh dunia dengan anotasi manusia yang tepat dan tepat untuk piksel.pautan
CVVideo, ImejSemantik KITTI, oleh University of Bonn, Karlsruhe, JermanAutomotifKotak Bounding, Label Semantik, Penandaan LorongSet data yang merangkumi anotasi semantik untuk semua urutan Penanda Aras Odometry. Set data memberi anotasi pelbagai jenis lalu lintas bergerak dan tidak bergerak: termasuk kereta, basikal, basikal, pejalan kaki, dan penunggang basikal, yang membolehkan objek di tempat kejadian dipelajari.pautan
CVvideoStanford Track, oleh Stanford Univ., Amerika SyarikatAutomotifPengesanan / Pengelasan Objek LiDAR, GPS, KodSet data yang merangkumi 14,000 trek objek berlabel seperti yang diperhatikan oleh Velodyne HDL-64E S2 LIDAR dalam pemandangan jalanan semula jadi, yang dapat digunakan untuk melatih model pembelajaran mesin untuk Pengenalan Objek 3D.pautan
CVVideo, ImejDataset Boxy, oleh Bosch, Amerika SyarikatAutomotifBounding Box / Pengesanan KenderaanSatu set data pengesanan kenderaan yang mengandungi 2 juta kenderaan beranotasi untuk latihan dan menganalisis strategi pengenalan objek untuk kereta memandu sendiri di lebuh raya.pautan
CVvideoLebuhraya TME, oleh Czech Technical Univ., Itali UtaraAutomotifKotak BerikatSet data sebanyak 28 klip selama 27 minit dibahagikan kepada 30,000+ bingkai anotasi kenderaan. Anotasi dihasilkan secara automatik menggunakan data dari pengimbas laser. Pengumpulan data ini melibatkan senario lalu lintas yang berubah-ubah, jumlah lorong, kelengkungan jalan dan pencahayaan, yang merangkumi banyak syarat pemerolehan penuh.pautan
CVvideoLlamas Tanpa Pengawasan, oleh Bosch, Amerika SyarikatAutomotifPenandaan Lorong, LiDARKumpulan data Llamas Tanpa Pengawasan diberi penjelasan dengan menghasilkan peta pemanduan automatik definisi tinggi, termasuk penanda lorong berdasarkan Lidar. Kenderaan autonomi dapat diselaraskan dengan peta ini dan tanda lorong diproyeksikan ke dalam bingkai kamera. Unjuran 3D dioptimumkan dengan meminimumkan perbezaan antara penanda gambar yang sudah diperhatikan dan diramalkan.pautan
NLPAudioFacebook AI Multibahasa LibriSpeech (MLS)UmumAnotasi Audio / Pengiktirafan UcapanFacebook AI Multilingual LibriSpeech (MLS), adalah kumpulan data sumber terbuka berskala besar yang direka untuk membantu memajukan penyelidikan dalam pengecaman pertuturan automatik (ASR). MLS menyediakan lebih dari 50,000 jam audio dalam 8 bahasa: Inggeris, Jerman, Belanda, Perancis, Sepanyol, Itali, Portugis, dan Poland. pautan