Buka Pangkalan Data

Cari kumpulan data sumber terbuka yang membolehkan anda melatih model ML

Dataset Sumber Terbuka Untuk Memulakan Anda dengan Model AI / ML

Keluaran model AI & ML anda hanya sebaik data yang anda gunakan untuk melatihnya - jadi ketepatan yang anda gunakan untuk pengumpulan data dan penandaan dan pengenalpastian data itu penting!

Oleh itu, jika anda ingin memulakan inisiatif AI / ML baru dan sekarang anda dengan cepat menyedari bahawa mencari data latihan berkualiti tinggi akan menjadi salah satu aspek yang lebih mencabar dari projek anda kerana set data berkualiti tinggi adalah bahan bakar yang menjaga AI / Enjin ML sedang berjalan. Kami telah mengumpulkan senarai set data terbuka yang bebas digunakan dan melatih model AI / ML anda di masa hadapan.

Pengkhususan	Jenis data	Nama Set Data	Industri / Jabatan	Kes Anotasi / Penggunaan	Penerangan Produk	pautan
NLP	teks	Ulasan Amazon	E-dagang	Analisis Sentimen	Satu set ulasan & penilaian 35 Juta dari lebih 18 tahun terakhir dalam teks biasa dengan maklumat pengguna dan produk.	pautan
NLP	teks	Data Pautan Wikipedia	Umum		Lebih daripada 4 Mn. artikel yang mengandungi 1.9 Bn. kata yang terdiri daripada kata dan frasa serta perenggan.	pautan
NLP	teks	Standford Sentimen Treebank	hiburan	Analisis Sentimen	Set data anotasi sentimen untuk lebih daripada 10,000 keping ulasan dari Rotten Tomatoes dalam format fail HTML	pautan
NLP	teks	Sentimen Syarikat Penerbangan AS Twitter	Syarikat penerbangan	Analisis Sentimen	Tweet 2015 di US Airlines berubah menjadi nada positif, negatif, dan neutral	pautan
CV	Image	Muka Berlabel Di Liar	Umum	Pengecaman wajah	Set data yang mengandungi lebih dari 13,000 wajah yang dipotong dengan dua gambar berbeza untuk latihan pengecaman wajah.	pautan
CV	Video, Imej	Set Data UMDFaces	Umum	Pengecaman wajah	Set data teranotasi yang mengandungi lebih daripada 367,000 wajah dari lebih 8,000 subjek yang merangkumi gambar pegun dan video.	pautan
CV	Image	Imagenet	Umum		Set data dengan lebih dari 14 Mn. gambar dalam pelbagai format fail, disusun mengikut hierarki WordNet.	pautan
CV	Image	Gambar Terbuka Google	Umum		9 Mn. URL untuk mengkategorikan gambar awam dari lebih 6,000 kategori.	pautan
NLP	teks	Pangkalan Data Penjagaan Kritikal MIMIC	Healthcare		Dataset Fisiologi Komputasi dengan data yang tidak dikenal pasti dari 40,000 pesakit rawatan kritikal. Set data mengandungi maklumat seperti demografi, tanda vital, ubat-ubatan, dll.	pautan
CV	Image	Pejabat Pelancongan dan Pelancongan Nasional AS	Pelancongan		Menyediakan gambar luas dari industri pelancongan dengan pangkalan data yang boleh dipercayai, merangkumi topik-topik seperti perjalanan masuk dan keluar dan maklumat pelancongan antarabangsa.	pautan
NLP	teks	Jabatan Pengangkutan	Pelancongan		Set data pelancongan yang merangkumi Taman Negara, daftar pemandu, maklumat jambatan & rel dll.	pautan
NLP	Audio	Kapsyen Audio Flickr Corpus	Umum		Lebih daripada 40 ribu keterangan lisan dari 8,000 gambar yang direka untuk corak pertuturan tanpa pengawasan	pautan
NLP	Audio	Set data Perintah Ucapan	Umum	Pengiktirafan Ucapan, Anotasi Audio	Ucapan panjang 1 saat dari ribuan individu, untuk membina antara muka suara asas.	pautan
NLP	Audio	Set Data Audio Alam Sekitar	Umum		Set data audio persekitaran yang mengandungi jadual bunyi peristiwa dan jadual pemandangan akustik.	pautan
NLP	teks	Pangkalan Data Penyelidikan Terbuka COVID-19	Healthcare	Perubatan AI	Kumpulan data penyelidikan yang terdiri daripada 45,000 artikel ilmiah mengenai COVID-19 & keluarga virus coronavirus.	pautan
CV	Image	Set Data Terbuka Waymo	Automotif		Kumpulan data pemanduan autonomi paling pelbagai yang dikeluarkan oleh Waymo	pautan
CV	Image	Genom Visual	Umum	Kapsyen Imej	Pangkalan pengetahuan visual dengan kapsyen terperinci lebih dari 100K gambar	pautan
CV	Image	Labelme	Kerajaan Awam		Kumpulan gambar beranotasi yang besar dapat diakses melalui Labelme Matlab	pautan
CV	Image	COIL100	Umum		Lebih dari 100 objek bervariasi difotografi dari pelbagai sudut (iaitu 360 darjah)	pautan
CV	Image	Dataset Anjing Stanford	Umum		Lebih 20,500+ gambar dikategorikan ke dalam set gambar 120 baka anjing yang berbeza	pautan
CV	Image	Pengiktirafan Pemandangan Dalaman	Umum	Pengiktirafan Adegan	Set data khusus yang terdiri daripada 15620 gambar dari 67 kategori dalaman untuk membina model pengenalan pemandangan	pautan
CV	Image	VisualQA	Umum		Set data yang merangkumi soalan terbuka berkaitan dengan 265,016 foto yang memerlukan pemahaman penglihatan dan pemahaman bahasa untuk bertindak balas.	pautan
NLP	teks	Pangkalan Data Analisis Sentimen Multidomain	E-dagang	Analisis Sentimen	Set data yang mengandungi ulasan produk dari Amazon	pautan
NLP	teks	Ulasan IMDB	hiburan	Analisis Sentimen	Set data yang mengandungi 25000 ulasan filem untuk analisis sentimen	pautan
NLP	teks	Sentimen140	Umum	Analisis Sentimen	Set data yang mengandungi 160,000 tweet dengan emoticon pra-dikeluarkan untuk ketepatan yang lebih tinggi	pautan
NLP	teks	Blogger Corpus	Umum	Kata kunci Ananlysis	Set data yang mengandungi 681,288 catatan blog dari blogger.com yang terdiri daripada minimum 200 kejadian perkataan Inggeris yang banyak digunakan.	pautan
NLP	teks	Jeopardy	Umum	Latihan Chatbot	Set data dengan lebih daripada 200,000 soalan yang dapat digunakan untuk melatih model pembelajaran mesin untuk bertindak balas secara pintar secara automatik	pautan
NLP	teks	Koleksi Spam SMS dalam Bahasa Inggeris	Telecom	Pengiktirafan Spam	Set data mesej spam yang terdiri daripada 5,574 SMS Inggeris	pautan
NLP	teks	Ulasan Yelp	Umum	Analisis Sentimen	Set data dengan tinjauan lebih dari 5 juta diterbitkan oleh Yelp	pautan
NLP	teks	Spambase UCI	Enterprise	Pengiktirafan Spam	Set data besar e-mel spam, berguna untuk penapisan spam.	pautan
CV	Video, Imej	Berkeley DeepDrive BDD100k	Automotif	Kenderaan Autonomi	Salah satu kumpulan data terbesar untuk AI memandu sendiri yang mengandungi 1,100 jam pengalaman memandu dalam lebih 100,000 video dari waktu yang berlainan dari kawasan New York dan San Francisco.	pautan
CV	video	Koma.ai	Automotif	Kenderaan Autonomi	Set data pemanduan lebuh raya selama 7 jam yang terdiri daripada maklumat mengenai kelajuan, pecutan, sudut stereng, dan koordinat GPS	pautan
CV	Video, Imej	Set data Cityscape	Automotif	Label Semantik untuk Kenderaan Autonomi	Set data anotasi tahap piksel 5,000 ditambah satu set 20,000 bingkai lemah yang diberi anotasi dalam urutan video stereo yang lebih besar, direkodkan dari 50 bandar yang berbeza	pautan
CV	Image	Dataset Tanda Lalu Lintas KUL Belgium	Automotif	Kenderaan Autonomi	Lebih dari 10000+ anotasi tanda lalu lintas dari wilayah Flanders berdasarkan tanda lalu lintas yang berbeza secara fizikal dari seluruh Belgium.	pautan
CV	Image	LISA: Makmal untuk Mobil Pintar & Selamat, Dataset UC San Diego	Automotif	Kenderaan Autonomi	Kumpulan data kaya yang mengandungi tanda lalu lintas, pengesanan kenderaan, lampu isyarat, dan corak lintasan.	pautan
CV	Image	CIFAR-10	Umum	Pengecaman Objek	Kumpulan data yang terdiri daripada 50,000 gambar dan 10,000 gambar ujian (iaitu 60,000 gambar 32 × 32 warna dalam 10 kelas) untuk pengecaman objek.	pautan
CV	Image	Fesyen MNIST	Fesyen		Set data gambar yang terdiri daripada 60,000 contoh dan satu set ujian 10,000 contoh dalam gambar skala abu-abu 28 × 28, yang dikaitkan dengan label dari 10 kelas.	pautan
CV	Image	Set Data IMDB-Wiki	hiburan	Pengecaman wajah	Kumpulan data wajah yang besar dengan label seperti jantina dan usia. Daripada keseluruhan 523,051 gambar wajah, 460,723 gambar diperoleh daripada 20,284 selebriti dari IMDB & 62,328 dari Wikipedia.	pautan
CV	video	Kinetik-700	Umum		Untuk setiap kelas tindakan, set data berkualiti tinggi terdiri daripada 650,000 klip video dan merangkumi 700 kelas aksi manusia dengan sekurang-kurangnya 600 klip video. Di sini, setiap klip berlangsung selama 10 saat atau lebih.	pautan
CV	Image	MS Coco	Umum	Pengesanan objek, Segmentasi	Set data tersebut mengandungi 328k gambar dan memiliki total 2.5 Mn instance dan 91 gambar objek untuk melatih pengesanan objek, segmentasi, dan model data yang berkaitan dengan caption data berskala besar.	pautan
CV	Image	Set Data Pose Manusia MPII	Umum		Kira-kira 25K gambar yang mengandungi lebih daripada 40K individu dengan sendi badan beranotasi dimasukkan ke dalam set data, yang digunakan untuk mengartikulasikan pose manusia. Secara keseluruhan dataset merangkumi 410 aktiviti manusia dan setiap gambar diberikan label aktiviti.	pautan
CV	Image	Buka Imej	Umum	Anotasi lokasi objek	Set data gambar dengan gambar sekitar 9 Mn diberi anotasi dengan label tahap gambar, kotak pengikat objek, segmentasi objek dll. Set data juga terdiri dari 16 Mn. kotak pengikat untuk 600 kelas objek pada gambar 1.9 Mn.	pautan
CV	video	Platform Terbuka Apollo, oleh Baidu Inc, China	Automotif	Kotak Sempadan, LiDAR	Set data pemanduan autonomus yang kaya, yang menyediakan data yang diperlukan kepada pemaju dalam pemanduan autonomi untuk mempercepat kecekapan lelaran inovatif.	pautan
CV	Video, Imej	Argo, oleh Argo, Amerika Syarikat	Automotif	Kotak Pengikat, Aliran Optik, Label Tingkah Laku, Label Semantik, Penandaan Lorong	Set data memandu sendiri yang terdiri daripada peta HD dengan metadata geometri & semantik iaitu garis tengah lorong, arah lorong, & kawasan yang boleh dipacu. Set data digunakan untuk melatih model ML, untuk membuat algoritma persepsi yang lebih tepat, yang akan membantu kenderaan memandu sendiri menavigasi dengan selamat.	pautan
CV	video	Lampu Lalu Lintas Kecil Bosch, oleh Bosch North America Research	Automotif	Kotak Berikat	Set data yang terdiri daripada 13427 gambar kamera dengan resolusi 1280 * 720 untuk membina sistem pengesanan lampu isyarat berasaskan penglihatan. Set data mempunyai lebih daripada 24000 lampu isyarat beranotasi.	pautan
CV	video	Brain4Cars, oleh Cornell Univ., Amerika Syarikat	Automotif	Label Tingkah Laku	Set data yang terdiri daripada pelbagai sensor kabin (kamera, sensor taktil, peranti pintar, dll.) Untuk mengekstrak statistik berguna mengenai kewaspadaan pemandu. Algoritma kami dapat mengesan pemandu yang mengantuk atau terganggu dan meningkatkan penggera yang diperlukan untuk meningkatkan perlindungan.	pautan
CV	Image	CULane, oleh Univ Cina. Hong Kong, Beijing, China	Automotif	Penandaan Lorong	Set data Visi Komputer mengenai pengesanan lorong lalu lintas, terdiri daripada 55 jam video yang mana 133,235 (set latihan 88880, set pengesahan 9675, dan set ujian 34680) diekstrak. Ia dikumpulkan oleh kamera yang dipasang pada enam kenderaan berbeza yang dipandu oleh pemandu yang berbeza di Beijing.	pautan
CV	video	DAVIS, oleh Univ. of Zurich, ETH ¨ Zurich, Jerman, Switzerland	Automotif		Set data latihan memandu kenderaan end-to-end yang menggunakan kamera + acara DAVIS. Data kereta seperti stereng, pendikit, GPS, dan lain-lain digunakan untuk menilai penyatuan data bingkai dan peristiwa untuk aplikasi automotif.	pautan
CV	video	DBNet, oleh Shanghai Jiao Tong Univ., Xiamen Univ., China	Automotif	Awan Titik, LiDAR	Data pemanduan 1000 KM dunia nyata, yang merangkumi video sejajar, cloud point, GPS dan tingkah laku pemandu untuk penyelidikan mendalam mengenai tingkah laku memandu.	pautan
CV	video	Dr (mata) ve, oleh Univ. Modena dan Reggio Emilia, Modena, Itali	Automotif	Label Tingkah Laku	Set data yang mengandungi 74 urutan video masing-masing 5 minit, yang dijelaskan dalam lebih dari 500,000 bingkai. Set data terdiri dari lokasi yang dirujuk di Geo, kelajuan pemanduan, kursus, dan juga melabelkan pemandu melihat pandangan dan integrasi temporal mereka yang menyediakan peta khusus tugas.	pautan
CV	video	ETH Pedestrian (2009), oleh ETH Zurich, Zurich, Switzerland	Umum	Kotak Berikat	Set data 74 urutan video masing-masing 5 minit, dijelaskan dalam lebih daripada 500,000 bingkai. Set data menyediakan kedudukan yang dirujuk secara geografis, kelajuan pemanduan, arah, dan juga label penetapan pandangan untuk pemandu dan integrasi temporal mereka, termasuk peta khusus tugas.	pautan
CV	video	Ford (2009), oleh Univ. dari Michigan, Michigan, AS	Automotif	Bounding Box,, LiDAR	Set data yang disusun oleh kenderaan darat automatik yang dilengkapi dengan pengimbas lidar 3D Velodyne, dua lidar Rieg yang berpandangan ke hadapan, unit Pengukuran Inersia (IMU) teknikal dan pengguna, dan sistem kamera omnidirectional Point Gray Ladybug3.	pautan
CV	video	HCI Challenging Stereo, Penyelidikan Bosch Corporation, Hildesheim, Jerman	Umum		Kumpulan data beberapa juta bingkai dari adegan video yang ditangkap yang merangkumi pelbagai keadaan cuaca, pelbagai lapisan gerakan dan kedalaman; keadaan di bandar dan luar bandar, dll.	pautan
CV	video	JAAD, oleh Universiti York, Ukraine, Kanada	Automotif	Bounding Box, Label Tingkah Laku	"JAAD adalah dataset untuk mengkaji perhatian bersama dalam konteks pemanduan autonomi. Tumpuannya adalah pada tingkah laku pejalan kaki dan pemandu pada titik persimpangan dan faktor-faktor yang mempengaruhinya. Untuk tujuan ini, set data JAAD menyediakan koleksi 346 video pendek yang diberi anotasi klip (panjang 5-10 saat) diekstrak dari lebih dari 240 jam rakaman pemanduan dari beberapa lokasi di Amerika Utara dan Eropah Timur. Kotak pengikat dengan tanda oklusi digunakan untuk semua pejalan kaki yang menjadikan set data ini sesuai untuk pengesanan pejalan kaki. Anotasi tingkah laku menentukan tingkah laku untuk pejalan kaki yang berinteraksi dengan atau memerlukan perhatian pemandu. Untuk setiap video terdapat beberapa label (cuaca, lokasi, dll.) dan label tingkah laku yang dilekatkan pada masa (mis. berhenti, berjalan, melihat, dll.). Di samping itu, senarai atribut demografi adalah disediakan untuk setiap pejalan kaki (misalnya usia, jantina, arah gerakan, dll.) serta senarai elemen pemandangan lalu lintas yang dapat dilihat (contohnya tanda berhenti, isyarat lalu lintas, dll.) di setiap bingkai. "	pautan
CV	video	KAIST Urban, oleh KAIST, Korea Selatan	Umum	LiDAR	Pengumpulan data merangkumi banyak sensor lokasi untuk data LiDAR dan gambar stereo yang menyasarkan kawasan bandar yang sangat kompleks (contohnya kawasan metropolis, bangunan kompleks dan kawasan perumahan).	pautan
CV	Image	Tanda Lalu Lintas LISA, oleh Univ. California, San Diego, Amerika Syarikat	Automotif	Kotak Berikat	Kumpulan set data yang mengandungi video dan bingkai beranotasi yang mengandungi tanda lalu lintas AS. Ia dilancarkan dalam dua peringkat, satu dengan hanya gambar dan satu dengan kedua gambar dan video.	pautan
CV	Image	Mapillary Vistas, oleh Mapillary AB, Global	Automotif	Label Semantik	Kumpulan data fotografi jalanan untuk menafsirkan pemandangan jalanan di seluruh dunia dengan anotasi manusia yang tepat dan tepat untuk piksel.	pautan
CV	Video, Imej	Semantik KITTI, oleh University of Bonn, Karlsruhe, Jerman	Automotif	Kotak Bounding, Label Semantik, Penandaan Lorong	Set data yang merangkumi anotasi semantik untuk semua urutan Penanda Aras Odometry. Set data memberi anotasi pelbagai jenis lalu lintas bergerak dan tidak bergerak: termasuk kereta, basikal, basikal, pejalan kaki, dan penunggang basikal, yang membolehkan objek di tempat kejadian dipelajari.	pautan
CV	video	Stanford Track, oleh Stanford Univ., Amerika Syarikat	Automotif	Pengesanan / Pengelasan Objek LiDAR, GPS, Kod	Set data yang merangkumi 14,000 trek objek berlabel seperti yang diperhatikan oleh Velodyne HDL-64E S2 LIDAR dalam pemandangan jalanan semula jadi, yang dapat digunakan untuk melatih model pembelajaran mesin untuk Pengenalan Objek 3D.	pautan
CV	Video, Imej	Dataset Boxy, oleh Bosch, Amerika Syarikat	Automotif	Bounding Box / Pengesanan Kenderaan	Satu set data pengesanan kenderaan yang mengandungi 2 juta kenderaan beranotasi untuk latihan dan menganalisis strategi pengenalan objek untuk kereta memandu sendiri di lebuh raya.	pautan
CV	video	Lebuhraya TME, oleh Czech Technical Univ., Itali Utara	Automotif	Kotak Berikat	Set data sebanyak 28 klip selama 27 minit dibahagikan kepada 30,000+ bingkai anotasi kenderaan. Anotasi dihasilkan secara automatik menggunakan data dari pengimbas laser. Pengumpulan data ini melibatkan senario lalu lintas yang berubah-ubah, jumlah lorong, kelengkungan jalan dan pencahayaan, yang merangkumi banyak syarat pemerolehan penuh.	pautan
CV	video	Llamas Tanpa Pengawasan, oleh Bosch, Amerika Syarikat	Automotif	Penandaan Lorong, LiDAR	Kumpulan data Llamas Tanpa Pengawasan diberi penjelasan dengan menghasilkan peta pemanduan automatik definisi tinggi, termasuk penanda lorong berdasarkan Lidar. Kenderaan autonomi dapat diselaraskan dengan peta ini dan tanda lorong diproyeksikan ke dalam bingkai kamera. Unjuran 3D dioptimumkan dengan meminimumkan perbezaan antara penanda gambar yang sudah diperhatikan dan diramalkan.	pautan
NLP	Audio	Facebook AI Multibahasa LibriSpeech (MLS)	Umum	Anotasi Audio / Pengiktirafan Ucapan	Facebook AI Multilingual LibriSpeech (MLS), adalah kumpulan data sumber terbuka berskala besar yang direka untuk membantu memajukan penyelidikan dalam pengecaman pertuturan automatik (ASR). MLS menyediakan lebih dari 50,000 jam audio dalam 8 bahasa: Inggeris, Jerman, Belanda, Perancis, Sepanyol, Itali, Portugis, dan Poland.	pautan

Buka Pangkalan Data

Dataset Sumber Terbuka Untuk Memulakan Anda dengan Model AI / ML

Perkhidmatan Data AI

Khas

industri

Produk

Syarikat

Sumber

Hubungi Kami