Penglihatan AI

Vision AI: Cara Melatih untuk Hasil Berkualiti Tinggi di Dunia Nyata

Vision AI akan beralih daripada demo kepada pengeluaran. Ia digunakan untuk memeriksa produk, memantau persekitaran, menyokong aliran kerja keselamatan dan membantu sistem memahami apa yang berlaku dalam imej dan strim video. Apabila penggunaan berkembang, begitu juga kos latihan yang buruk. Model yang berfungsi dengan baik dalam set ujian yang bersih masih boleh rosak di dunia nyata apabila pencahayaan berubah, objek bertindih atau persekitaran berubah dari semasa ke semasa.

Itulah sebabnya program AI visi berprestasi tinggi biasanya kelihatan kurang seperti latihan model sekali sahaja dan lebih seperti disiplin operasi. Ia menggabungkan pengumpulan data yang kukuh, peraturan anotasi yang jelas, kepakaran domain, augmentasi sintetik di mana ia membantu dan pemantauan berterusan selepas pelancaran. Matlamatnya bukan sekadar ketepatan yang lebih tinggi di atas kertas. Ia adalah prestasi yang boleh dipercayai apabila pemandangan menjadi kucar-kacir.

Mengapa kualiti latihan lebih penting daripada kebaharuan model

Banyak pasukan bermula dengan memberi tumpuan kepada seni bina. Itu penting, tetapi untuk AI visi, kualiti data selalunya menentukan sama ada sesuatu projek mencapai pengeluaran. Jika imej anda dilabelkan secara tidak konsisten, kategori kecacatan anda samar-samar, atau kes pinggir anda hilang, model tersebut mempelajari versi realiti yang kabur.

Satu analogi mudah ialah mengajar seseorang untuk mengadili sukan hanya menggunakan klip sorotan. Mereka mungkin mengenali permainan yang jelas, tetapi mereka akan menghadapi masalah dengan sudut yang janggal, pandangan separa dan panggilan yang hampir tidak tepat. Vision AI bertindak dengan cara yang sama. Ia memerlukan lebih daripada sekadar contoh yang ideal. Ia juga memerlukan kes yang sukar.

Mulakan dengan data, bukan papan pemuka

Sebelum latihan bermula, tentukan apa yang sepatutnya dilihat oleh model dan apa yang dikira sebagai kejayaan. Ini bermakna memutuskan sama ada tugasan tersebut adalah pengesanan objek, pengelasan, segmentasi, penjejakan, pengesanan anomali atau pemahaman pemandangan. Ia juga bermakna bersetuju dengan definisi label lebih awal.

Contohnya, jika sesebuah sistem bertujuan untuk menandakan bahaya pada barisan pengeluaran, apakah sebenarnya yang layak sebagai bahaya? Adakah oklusi separa masih boleh dilabelkan? Adakah silau dikira sebagai contoh negatif atau kes khas? Butiran ini membentuk set data lama sebelum ia membentuk model.

Di sinilah perkhidmatan seperti pengumpulan data, anotasi data, dan sokongan data latihan penglihatan komputer menjadi penting secara strategik. Aliran kerja huluan yang kukuh membantu pasukan menyeragamkan format imej, mengumpul liputan yang lebih luas dan mengurangkan kekaburan sebelum ia merebak melalui saluran paip.

Mengapakah pelabelan generik jarang mencukupi

Pelabelan generikAnotator generik berguna untuk tugasan mudah, tetapi AI penglihatan bernilai tinggi selalunya bergantung pada konteks. Pakar pembuatan mungkin mengesan corak kecacatan halus yang kelihatan normal kepada pengulas umum. Pakar keselamatan mungkin membezakan antara gerakan biasa dan risiko yang bermakna. Pengulas perubatan mungkin mengenal pasti mengapa satu corak pengimejan penting manakala corak lain tidak.

Perbezaan itu paling jelas kelihatan dalam kes pinggir. Ralat paling sukar dalam AI penglihatan sering berlaku dalam senario yang samar-samar, luar biasa atau berisiko tinggi. Itulah sebabnya pelabelan sedar domain sangat penting apabila pasukan beralih daripada prototaip kepada pengeluaran.

Data sintetik membantu, tetapi hanya apabila ia digunakan dengan sengaja

Imej dan video sintetik boleh membantu apabila data dunia sebenar jarang ditemui, berbahaya, mahal atau lambat ditangkap. Ia amat berguna untuk kecacatan luar biasa, senario berisiko dan keadaan yang kurang diwakili. Tetapi data sintetik bukanlah magik. Jika terlalu bersih atau terlalu sempit, model boleh menjadi mahir dalam realiti simulasi dan lemah dalam realiti sebenar.

Penggunaan data sintetik yang terbaik biasanya merupakan augmentasi yang disasarkan. Ia mengisi jurang, meningkatkan variasi dan menyediakan model untuk peristiwa yang tidak kerap berlaku dalam rakaman sebenar.

Berlatih untuk konteks tempat kejadian, bukan sekadar kehadiran objek

Sistem AI visi yang matang tidak sekadar mengesan item dalam piksel. Ia mentafsir apa yang berlaku dalam konteks. Lorong yang sesak mungkin normal pada satu jam dan isyarat risiko pada jam yang lain. Kenderaan yang berhenti mungkin tidak berbahaya dalam satu tetapan dan kritikal dalam tetapan yang lain. Kecacatan mungkin hanya penting apabila digabungkan dengan lokasi, corak pergerakan atau keadaan operasi tertentu.

Itulah sebabnya sistem berkualiti tinggi semakin bergantung pada strategi pelabelan dan penilaian yang lebih kaya dan bukannya bergantung pada satu skor prestasi yang sempit.

Sebuah cerita mini: apabila model itu kelihatan tepat sehingga ia tiba di syif malam

Bayangkan seorang peruncit menggunakan visi AI untuk mengenal pasti risiko tumpahan dan lorong yang tersumbat. Semasa ujian rintis, hasilnya kelihatan kukuh. Rakaman waktu siang jelas, label kemas dan model tersebut dapat mengesan kebanyakan isu yang jelas.

Kemudian syif malam bermula. Pencahayaan menjadi lebih malap. Pantulan lantai berubah. Troli pembersih sebahagiannya menghalang pandangan kamera. Kakitangan bergerak secara berbeza. Tiba-tiba, sistem terlepas pandang bahaya sebenar dan menanda aktiviti yang tidak berbahaya.

Tiada apa yang salah dengan model asal, malah ia tidak lengkap. Data latihan mencerminkan satu versi persekitaran, bukan persekitaran penuh. Sebaik sahaja pasukan menambah rakaman waktu malam, anotasi kes tepi dan maklum balas pengulas daripada pengendali kedai, prestasi bertambah baik kerana model akhirnya belajar daripada keadaan yang sebenarnya akan dihadapinya.

Kerangka keputusan: bila hendak menambah lebih banyak data, lebih ramai pakar atau lebih banyak maklum balas

Satu cara praktikal untuk meningkatkan penglihatan AI adalah dengan menanyakan empat soalan:

  1. Apakah jenis kesilapan yang paling penting?
    Negatif palsu adalah berbeza kepentingannya dalam keselamatan, penjagaan kesihatan, peruncitan dan pembuatan.
  2. Keadaan manakah yang kurang diwakili?
    Cari variasi pencahayaan, kabur gerakan, oklusi, perubahan bermusim, perubahan sudut kamera dan peristiwa yang jarang berlaku.
  3. Di manakah penilaian manusia mengubah label?
    Di situlah pakar subjek mendapatkan tempat mereka.
  4. Apa yang akan anda pantau selepas pelancaran?
    Ketepatan sahaja tidak mencukupi. Pasukan harus memerhatikan kadar kesilapan, hanyutan, kependaman dan prestasi di bawah keadaan dunia sebenar yang berubah-ubah.

Bagaimana rupa operasi AI penglihatan yang baik

Penglihatan yang baikProgram latihan yang paling kuat biasanya berkongsi beberapa tabiat. Mereka menyeragamkan data sebelum melabel. Mereka membina garis panduan anotasi dengan contoh dan peraturan pengecualian. Mereka menambah semakan QA dan bukannya menganggap semua label sama-sama boleh dipercayai. Mereka menggunakan data sintetik untuk mengisi jurang yang bermakna, bukan untuk menggantikan realiti. Dan mereka mewujudkan gelung maklum balas pasca-pelaksanaan supaya pengendali boleh menandakan kesilapan dan memasukkan maklumat tersebut kembali ke dalam latihan semula.

Itulah juga sebabnya banyak pasukan menganggap projek visi sebagai operasi data berterusan dan bukannya eksperimen model terpencil. Infrastruktur yang kukuh untuk latihan data, semakan dan kitaran penyegaran menjadikannya lebih mudah untuk memastikan model berguna apabila dunia di sekelilingnya berubah.

Kesimpulan

Hasil berkualiti tinggi dalam AI visi bukan sahaja datang daripada skala. Ia datang daripada pertimbangan yang lebih baik tentang apa yang perlu dikumpulkan, cara melabelkannya, tempat menggunakan pakar, bila untuk mensimulasikan kes pinggir dan cara mengukur prestasi selepas penggunaan.

Dalam erti kata lain, melatih AI visi bukanlah seperti mengisi tangki. Ia lebih seperti melatih pasukan melalui keadaan permainan yang berubah-ubah. Sistem terbaik dilatih berdasarkan contoh yang realistik, dicabar dengan senario yang sukar dan diperbaiki secara berterusan sebaik sahaja mereka memasuki padang.

Vision AI ialah penggunaan model AI untuk mentafsir imej dan video, termasuk tugas seperti pengesanan, pengelasan, segmentasi, penjejakan dan pemahaman pemandangan.

Sebab-sebab biasa termasuk liputan pinggir-kes yang lemah, label yang tidak konsisten, ketidakpadanan domain, perubahan pencahayaan, oklusi dan kekurangan pemantauan pasca-pelaksanaan.

Ya, terutamanya untuk senario yang jarang berlaku atau berisiko, tetapi ia berfungsi paling baik sebagai augmentasi yang disasarkan dan bukannya pengganti penuh untuk data penilaian dunia sebenar.

Ia paling penting apabila label memerlukan pertimbangan domain, seperti kecacatan, risiko keselamatan, penemuan perubatan atau konteks halus yang mungkin terlepas pandang oleh pengulas umum.

Pasukan harus memantau kadar kesilapan, hanyutan, kependaman dan prestasi merentasi keadaan yang berubah-ubah seperti pencahayaan, kedudukan kamera dan corak trafik.

Tingkatkan saluran data: kumpulkan contoh dunia sebenar yang baharu, perhalusi peraturan anotasi, masukkan maklum balas pengulas dan latih semula terhadap mod kegagalan yang diperhatikan.

Menikmati artikel ini? Ikuti Shaip di LinkedIn untuk maklumat lanjut.

Kongsi sosial