Set Data Tulisan Tangan

15 Set Data Tulisan Tangan Sumber Terbuka Terbaik untuk Melatih model ML anda

Dunia perniagaan sedang berubah pada kadar yang luar biasa, namun transformasi digital ini tidaklah begitu luas seperti yang kita inginkan. Orang ramai masih mengendalikan dokumen fizikal dalam operasi harian mereka, daripada syarikat besar kepada perniagaan berskala kecil. Walaupun kekerapan penggunaan telah berkurangan dengan ketara, ia masih belum dihapuskan sepenuhnya. Daripada proses mengimbas dokumen yang memakan masa untuk kegunaan digital, menggunakan yang terkini OCR adalah cekap masa dan berkesan.

Peningkatan dalam penggunaan pengecaman aksara optik terutamanya boleh dikaitkan dengan peningkatan dalam pengeluaran sistem pengecaman automatik. Akibatnya, nilai pasaran global teknologi OCR, dipatok pada $ 8.93 bilion pada 2021, dijangka berkembang pada CAGR sebanyak 15.4% antara 2022 dan 2030.

Tetapi apakah sebenarnya teknologi OCR? Dan mengapa ia merupakan pengubah permainan untuk perniagaan yang membangunkan model AI yang cekap? Mari kita ketahui.

Apakah OCR?

Sebagai alternatif dirujuk sebagai pengecaman teks, OCR atau Pengecaman Aksara Optik ialah program yang mengekstrak data bercetak atau bertulis daripada dokumen yang diimbas, PDF imej sahaja dan nota tulisan tangan ke dalam format yang boleh dibaca mesin. Perisian mengeluarkan setiap huruf daripada imej dan menggabungkannya ke dalam perkataan dan ayat, sekali gus memudahkan untuk mengakses dan mengedit dokumen secara digital.

Apakah set data sumber terbuka?

Terdapat beberapa tempat di mana teknologi OCR mempunyai potensi besar untuk dimanfaatkan. Beberapa tempat termasuk lapangan terbang, penerbitan e-buku, iklan, bank dan sistem rantaian bekalan. Walau bagaimanapun, untuk aplikasi memenuhi tujuan mereka, mereka perlu dilatih mengenai projek khusus Set data Pengecaman Aksara Optik.

Kecekapan aplikasi bergantung pada kualiti set data dan metodologi latihan yang terlibat. Walau bagaimanapun, mencari kualiti digital dan set data tulisan tangan adalah sukar untuk permohonan itu. Oleh itu, banyak syarikat menggunakan set data sumber terbuka atau percuma untuk digunakan dan bukannya yang proprietari.

Faedah dan Cabaran Set Data Sumber Terbuka

Perniagaan perlu membandingkan manfaat dan cabaran antara satu sama lain untuk memahami sama ada mereka mesti memilih data percuma untuk digunakan untuk aplikasi ML mereka.

Faedah-faedah

  • Data tersedia dengan mudah untuk diakses. Oleh kerana ketersediaan data, kos membangunkan aplikasi dikurangkan dengan ketara.
  • Masa dan usaha yang dibelanjakan untuk mengumpul data untuk aplikasi dikurangkan dengan ketara kerana set data tersedia.
  • Terdapat banyak forum komuniti atau kumpulan bantuan yang membantu mempelajari, menyesuaikan dan mengoptimumkan set data.
  • Salah satu kelebihan utama dataset sumber terbuka ialah ia tidak meletakkan sebarang sekatan pada penyesuaian.
  •   Data Sumber Terbuka boleh diakses oleh sebahagian besar populasi, menjadikan analisis dan inovasi mungkin tanpa halangan kewangan.

Cabaran

  • Data khusus untuk projek itu sukar diperoleh. Selain itu, terdapat kemungkinan kehilangan maklumat dan penggunaan data yang tersedia secara salah.
  • Memperoleh data proprietari memerlukan masa, dan usaha serta memerlukan kos yang tinggi
  • Walaupun mungkin lebih mudah untuk memperoleh data, pengetahuan dan kos analisis mungkin melebihi kelebihan awal.
  • Pembangun lain juga menggunakan data yang sama untuk membangunkan aplikasi.
  • Set data ini sangat terdedah kepada pelanggaran keselamatan, privasi dan persetujuan.

Mari bincangkan keperluan Data Latihan AI anda hari ini.

Senaraikan set data sumber terbuka yang berbeza untuk OCR

Set Data Ocr Sumber Terbuka

Banyak set data sumber terbuka tersedia untuk pembangunan aplikasi pengecaman teks. Antara 15 yang terbaik ialah

  1. Set Data ICDAR

    Persidangan Antarabangsa untuk Analisis dan Pengiktirafan Dokumen mempunyai repositori 229 latihan dan 233 imej ujian, bersama-sama dengan anotasi. Ia bertindak sebagai penanda aras untuk penilaian pengesanan teks.

  2. IIIT 5K-Word Dataset

    Diambil daripada carian imej Google, IIIT 5K-word ialah koleksi perkataan daripada papan tanda, papan iklan, plat nombor dan poster. Ia mengandungi 5K imej perkataan yang dipangkas menjadikannya salah satu koleksi set data pengecaman teks yang paling banyak tersedia.

  3. Pangkalan Data NIST

    NIST atau Institut Sains Negara menawarkan koleksi percuma untuk digunakan lebih daripada 3600 sampel tulisan tangan dengan lebih daripada 810,000 imej aksara

  4. Pangkalan Data MNIST

    Diperolehi daripada Pangkalan Data Khas 1 dan 3 NSIT, pangkalan data MNIST ialah koleksi terkumpul 60,000 nombor tulisan tangan untuk set latihan dan 10,000 contoh untuk set ujian. Pangkalan data sumber terbuka ini membantu melatih model untuk mengenali corak sambil menghabiskan lebih sedikit masa untuk pra-pemprosesan.

  5. Pengesanan Teks

    Pangkalan data sumber terbuka, set data Pengesanan Teks mengandungi kira-kira 500 imej dalaman dan luaran papan tanda, plat pintu, plat berhati-hati dan banyak lagi.

  6. Stanford OCR

    Diterbitkan oleh Stanford, set data percuma untuk digunakan ini ialah koleksi perkataan tulisan tangan oleh MIT Spoken Language Systems Group.

  7. DDI-100

    Jika tidak dipanggil Set Data Imej Dokumen Terherot, DDI-100 ialah koleksi lebih 6658 halaman dokumen dengan beberapa corak geometri dan herotan digunakan. Selain itu, DDI-100 mempunyai lebih daripada 99870 imej, topeng setem, topeng teks dan kotak sempadan.

  8. RoadTeks-1K

    Salah satu set data terbesar yang membantu melatih model untuk mengesan teks dalam video, RoadText-1K mengandungi 1000 klip video lengkap dengan anotasi teks kotak sempadan dan transkripsi teks dalam setiap bingkai video.

  9. MSRA-TD500

    Mengandungi 300 latihan dan 200 imej teks; MSRA-TD500 mengandungi aksara daripada bahasa Cina dan Inggeris dan dianotasi pada peringkat ayat.

  10. Set Data MJSynth

    Disediakan oleh Universiti Oxford, set data perkataan ini mempunyai hampir 9 juta imej yang dijana secara sintetik meliputi lebih daripada 90 ribu perkataan bahasa Inggeris.

  11. Teks Paparan Jalan

    Dikumpul daripada imej Google Street View, set data ini mempunyai imej pengesanan teks terutamanya papan dan papan tanda peringkat jalan.

  12. Pangkalan Data Dokumen

    Pangkalan Data Dokumen ialah koleksi 941 dokumen tulisan tangan, termasuk jadual, formula, lukisan, rajah, senarai dan banyak lagi, daripada 189 penulis.

  13. Ungkapan Matematik

    Ungkapan Matematik ialah pangkalan data yang mengandungi 101 simbol matematik dan 10,000 ungkapan.

  14. Nombor Rumah Street View

    Dipetik daripada Google Street View, Nombor Rumah Street View ini ialah pangkalan data yang mengandungi 73257 digit nombor rumah jalan.

  15. OCR Persekitaran Semulajadi

    The Natural Environment OCR, ialah set data yang mengandungi hampir 660 imej di seluruh dunia dan 5238 anotasi teks.

Ini adalah beberapa set data sumber terbuka teratas untuk melatih model ML untuk aplikasi pengesanan teks. Memilih yang selaras dengan keperluan perniagaan dan aplikasi anda boleh mengambil masa dan usaha. Walau bagaimanapun, anda mesti mencuba set data ini sebelum memutuskan yang sesuai.

Untuk membantu anda maju ke arah aplikasi pengesanan teks yang boleh dipercayai dan cekap ialah Shaip – ​​penyedia penyelesaian teknologi berpangkat tinggi. Kami memanfaatkan pengalaman teknologi kami untuk mencipta yang boleh disesuaikan, dioptimumkan dan set data latihan OCR yang cekap untuk pelbagai projek pelanggan. Untuk memahami sepenuhnya keupayaan kami, hubungi kami hari ini.

Kongsi sosial