Peningkatan dalam penggunaan pengecaman aksara optik terutamanya boleh dikaitkan dengan peningkatan dalam pengeluaran sistem pengecaman automatik. Akibatnya, nilai pasaran global teknologi OCR, dipatok pada $ 8.93 bilion pada 2021, dijangka berkembang pada CAGR sebanyak 15.4% antara 2022 dan 2030.
Tetapi apakah sebenarnya teknologi OCR? Dan mengapa ia merupakan pengubah permainan untuk perniagaan yang membangunkan model AI yang cekap? Mari kita ketahui.
Apakah itu OCR (Pengecaman Aksara Optik)?
OCR ialah teknologi yang menukarkan pelbagai jenis dokumen, seperti dokumen kertas yang diimbas, PDF atau imej teks, kepada data yang boleh diedit dan dicari. Ia berfungsi dengan:
- Menganalisis struktur teks dalam imej
- Memecahkan teks kepada baris dan aksara
- Menukar aksara visual ini kepada teks yang boleh dibaca mesin
Kegunaan biasa termasuk:
- Menukar dokumen yang diimbas kepada fail teks boleh diedit
- Mendigitalkan buku bercetak
- Mengekstrak teks daripada foto
- Menukar preskripsi tulisan tangan kepada teks digital
- Pengiktirafan plat lesen
Faedah dan Cabaran Set Data Sumber Terbuka
Perniagaan perlu membandingkan manfaat dan cabaran antara satu sama lain untuk memahami sama ada mereka mesti memilih data percuma untuk digunakan untuk aplikasi ML mereka.
Faedah
- Data tersedia dengan mudah untuk diakses. Oleh kerana ketersediaan data, kos membangunkan aplikasi dikurangkan dengan ketara.
- Masa dan usaha yang dibelanjakan untuk mengumpul data untuk aplikasi dikurangkan dengan ketara kerana set data tersedia.
- Terdapat banyak forum komuniti atau kumpulan bantuan yang membantu mempelajari, menyesuaikan dan mengoptimumkan set data.
- Salah satu kelebihan utama dataset sumber terbuka ialah ia tidak meletakkan sebarang sekatan pada penyesuaian.
- Data Sumber Terbuka boleh diakses oleh sebahagian besar populasi, menjadikan analisis dan inovasi mungkin tanpa halangan kewangan.
Cabaran
- Data khusus untuk projek itu sukar diperoleh. Selain itu, terdapat kemungkinan kehilangan maklumat dan penggunaan data yang tersedia secara salah.
- Memperoleh data proprietari memerlukan masa, dan usaha serta memerlukan kos yang tinggi
- Walaupun mungkin lebih mudah untuk memperoleh data, pengetahuan dan kos analisis mungkin melebihi kelebihan awal.
- Pembangun lain juga menggunakan data yang sama untuk membangunkan aplikasi.
- Set data ini sangat terdedah kepada pelanggaran keselamatan, privasi dan persetujuan.
22 Set Data Tulisan Tangan & OCR Terbaik untuk Pembelajaran Mesin
Banyak set data sumber terbuka tersedia untuk pembangunan aplikasi pengecaman teks. Antara 22 yang terbaik ialah
Pangkalan Data NIST
NIST atau Institut Sains Negara menawarkan koleksi percuma untuk digunakan lebih daripada 3600 sampel tulisan tangan dengan lebih daripada 810,000 imej aksara
Pangkalan Data MNIST
Diperolehi daripada Pangkalan Data Khas 1 dan 3 NSIT, pangkalan data MNIST ialah koleksi terkumpul 60,000 nombor tulisan tangan untuk set latihan dan 10,000 contoh untuk set ujian. Pangkalan data sumber terbuka ini membantu melatih model untuk mengenali corak sambil menghabiskan lebih sedikit masa untuk pra-pemprosesan.
Pengesanan Teks
Pangkalan data sumber terbuka, set data Pengesanan Teks mengandungi kira-kira 500 imej dalaman dan luaran papan tanda, plat pintu, plat berhati-hati dan banyak lagi.
Stanford OCR
Diterbitkan oleh Stanford, set data percuma untuk digunakan ini ialah koleksi perkataan tulisan tangan oleh MIT Spoken Language Systems Group.
Teks Paparan Jalan
Dikumpul daripada imej Google Street View, set data ini mempunyai imej pengesanan teks terutamanya papan dan papan tanda peringkat jalan.
Pangkalan Data Dokumen
Pangkalan Data Dokumen ialah koleksi 941 dokumen tulisan tangan, termasuk jadual, formula, lukisan, rajah, senarai dan banyak lagi, daripada 189 penulis.
Ungkapan Matematik
Ungkapan Matematik ialah pangkalan data yang mengandungi 101 simbol matematik dan 10,000 ungkapan.
Nombor Rumah Street View
Dipetik daripada Google Street View, Nombor Rumah Street View ini ialah pangkalan data yang mengandungi 73257 digit nombor rumah jalan.
OCR Persekitaran Semulajadi
The Natural Environment OCR, ialah set data yang mengandungi hampir 660 imej di seluruh dunia dan 5238 anotasi teks.
Ungkapan Matematik
Lebih 10,000 ungkapan dengan 101+ simbol matematik.
Aksara Cina Tulisan Tangan
Set data sebanyak 909,818 imej aksara Cina tulisan tangan, bersamaan dengan kira-kira 10 artikel berita.
Teks Bercetak Arab
Leksikon 113,284 perkataan menggunakan 10 fon Arab.
Teks bahasa Inggeris tulisan tangan
Teks Bahasa Inggeris tulisan tangan pada papan putih dengan lebih 1700 penyertaan.
3000 persekitaran Imej
3000 imej daripada pelbagai persekitaran, termasuk pemandangan luar dan dalam di bawah pencahayaan yang berbeza.
Data Chars74K
74,000 imej digit bahasa Inggeris dan Kannada.
IAM (Tulisan Tangan IAM)
Pangkalan data IAM mempunyai 13,353 imej teks tulisan tangan oleh 657 penulis dari Lancaster-Oslo/Bergen Corpus Bahasa Inggeris British.
FUNSD (Pemahaman Bentuk dalam Dokumen Imbasan Bising)
FUNSD termasuk 199 borang beranotasi, diimbas dengan penampilan yang pelbagai dan bising, mencabar untuk pemahaman bentuk.
Teks OCR
TextOCR menanda aras pengecaman teks pada teks adegan berbentuk arbitrari dalam imej semula jadi.
Twitter 100k
Twitter100k ialah set data yang besar untuk mendapatkan semula media yang diselia dengan lemah.
SSIG-SegPlate – Pembahagian Aksara Plat Lesen (LPCS)
Set data ini menilai Segmentasi Aksara Plat Lesen (LPCS) dengan 101 imej kenderaan siang hari.
105,941 Imej Pemandangan Alam Data OCR 12 Bahasa
Data termasuk 12 bahasa (6 Asia, 6 Eropah) dan pelbagai pemandangan dan sudut semula jadi. Ia menampilkan kotak sempadan peringkat baris dan transkripsi teks. Ia berguna untuk tugas OCR berbilang bahasa.
Set Data Imej Papan Tanda India
Set data mempunyai imej tanda trafik India untuk pengelasan dan pengesanan, diambil dalam pelbagai keadaan cuaca pada waktu siang, petang dan malam.
Ini adalah beberapa set data sumber terbuka teratas untuk melatih model ML untuk aplikasi pengesanan teks. Memilih yang selaras dengan keperluan perniagaan dan aplikasi anda boleh mengambil masa dan usaha. Walau bagaimanapun, anda mesti mencuba set data ini sebelum memutuskan yang sesuai.
Untuk membantu anda maju ke arah aplikasi pengesanan teks yang boleh dipercayai dan cekap ialah Shaip – penyedia penyelesaian teknologi berpangkat tinggi. Kami memanfaatkan pengalaman teknologi kami untuk mencipta yang boleh disesuaikan, dioptimumkan dan set data latihan OCR yang cekap untuk pelbagai projek pelanggan. Untuk memahami sepenuhnya keupayaan kami, hubungi kami hari ini.