Kesan Kepelbagaian ke atas data latihan

Data Latihan AI Pelbagai untuk Keterangkuman dan menghapuskan Bias

Kecerdasan Buatan dan Data Besar berpotensi untuk mencari penyelesaian kepada masalah global sambil mengutamakan isu tempatan dan mengubah dunia dalam banyak cara yang mendalam. AI membawa penyelesaian kepada semua – dan dalam semua tetapan, dari rumah ke tempat kerja. komputer AI, dengan mesin Pembelajaran latihan, boleh mensimulasikan tingkah laku dan perbualan pintar secara automatik lagi diperibadikan.

Namun, AI menghadapi masalah kemasukan dan selalunya berat sebelah. Nasib baik, fokus pada etika kecerdasan buatan boleh membawa kepada kemungkinan yang lebih baru dari segi kepelbagaian dan kemasukan dengan menghapuskan kecenderungan tidak sedar melalui data latihan yang pelbagai.

Kepentingan kepelbagaian dalam data latihan AI

Kepelbagaian Data Latihan Ai Kepelbagaian dan kualiti data latihan adalah berkaitan kerana satu mempengaruhi yang lain dan memberi kesan kepada hasil penyelesaian AI. Kejayaan penyelesaian AI bergantung kepada data yang pelbagai ia dilatih pada. Kepelbagaian data menghalang AI daripada dipasang secara berlebihan – bermakna model hanya melakukan atau belajar daripada data yang digunakan untuk melatih. Dengan overfitting, model AI tidak dapat memberikan hasil apabila diuji pada data yang tidak digunakan dalam latihan.

Keadaan semasa latihan AI data

Ketidaksamaan atau kekurangan kepelbagaian dalam data akan membawa kepada penyelesaian AI yang tidak adil, tidak beretika dan tidak inklusif yang boleh memperdalam diskriminasi. Tetapi bagaimana dan mengapa kepelbagaian dalam data berkaitan dengan penyelesaian AI?

Perwakilan yang tidak sama rata bagi semua kelas membawa kepada salah pengecaman muka – satu contoh penting ialah Google Photos yang mengklasifikasikan pasangan kulit hitam sebagai 'gorila.' Dan Meta menggesa pengguna menonton video lelaki kulit hitam sama ada pengguna ingin 'terus menonton video primata.'

Contohnya, pengelasan etnik atau kaum minoriti yang tidak tepat atau tidak betul, terutamanya dalam chatbots, boleh mengakibatkan prasangka dalam sistem latihan AI. Menurut laporan 2019 mengenai Sistem Diskriminasi – Jantina, Bangsa, Kuasa dalam AI, lebih daripada 80% guru AI adalah lelaki; penyelidik AI wanita di FB hanya terdiri daripada 15% dan 10% di Google.

Kesan Data Latihan Pelbagai terhadap Prestasi AI

Kesan Kepelbagaian Terhadap Data Latihan Meninggalkan kumpulan dan komuniti tertentu daripada perwakilan data boleh membawa kepada algoritma yang condong.

Kecondongan data selalunya dimasukkan secara tidak sengaja ke dalam sistem data – dengan kurang mengambil sampel kaum atau kumpulan tertentu. Apabila sistem pengecaman muka dilatih pada muka yang pelbagai, ia membantu model mengenal pasti ciri khusus, seperti kedudukan organ muka dan variasi warna.

Satu lagi hasil daripada mempunyai kekerapan label yang tidak seimbang ialah sistem mungkin menganggap minoriti sebagai anomali apabila ditekan untuk menghasilkan output dalam masa yang singkat.

Mari bincangkan keperluan Data Latihan AI anda hari ini.

Mencapai Kepelbagaian dalam Data Latihan AI

Sebaliknya, menjana set data yang pelbagai juga merupakan satu cabaran. Kekurangan data pada kelas tertentu boleh menyebabkan kurang perwakilan. Ia boleh dikurangkan dengan menjadikan pasukan pembangun AI lebih pelbagai berkenaan dengan kemahiran, etnik, bangsa, jantina, disiplin dan banyak lagi. Selain itu, Cara yang ideal untuk menangani masalah kepelbagaian data dalam AI adalah untuk menghadapinya dari perkataan pergi dan bukannya cuba membetulkan perkara yang telah dilakukan – menyemai kepelbagaian pada peringkat pengumpulan dan penyusunan data.

Tanpa mengira gembar-gembur sekitar AI, ia masih bergantung pada data yang dikumpul, dipilih dan dilatih oleh manusia. Kecondongan semula jadi pada manusia akan mencerminkan dalam data yang dikumpul oleh mereka, dan kecenderungan tidak sedarkan diri ini menjalar ke dalam model ML juga. 

Langkah-langkah untuk mengumpul dan menyusun data latihan yang pelbagai

Kemasukan Kepelbagaian Data Latihan

Kepelbagaian data boleh dicapai dengan:

  • Tambah lebih banyak data daripada kelas yang kurang diwakili dengan teliti dan dedahkan model anda kepada pelbagai titik data. 
  • Dengan mengumpul data daripada sumber data yang berbeza. 
  • Dengan penambahan data atau memanipulasi set data secara buatan untuk meningkatkan/menyertakan titik data baharu yang berbeza dengan titik data asal. 
  • Apabila mengupah pemohon untuk proses pembangunan AI, alih keluar semua maklumat pekerjaan yang tidak berkaitan daripada permohonan itu. 
  • Meningkatkan ketelusan dan akauntabiliti dengan menambah baik dokumentasi pembangunan dan penilaian model. 
  • Memperkenalkan peraturan untuk membina kepelbagaian dan keterangkuman dalam AI sistem dari peringkat akar umbi. Pelbagai kerajaan telah membangunkan garis panduan untuk memastikan kepelbagaian dan mengurangkan kecenderungan AI yang boleh memberikan hasil yang tidak adil. 

[ Baca Juga: Ketahui Lebih Lanjut Mengenai Proses Pengumpulan Data Latihan AI ]

Kesimpulan

Pada masa ini, hanya beberapa syarikat teknologi besar dan pusat pembelajaran yang terlibat secara eksklusif dalam membangunkan penyelesaian AI. Ruang elit ini penuh dengan pengecualian, diskriminasi dan berat sebelah. Walau bagaimanapun, ini adalah ruang di mana AI sedang dibangunkan, dan logik di sebalik sistem AI lanjutan ini penuh dengan berat sebelah, diskriminasi dan pengecualian yang sama yang ditanggung oleh kumpulan yang kurang diwakili. 

Semasa membincangkan kepelbagaian dan tanpa diskriminasi, adalah penting untuk mempersoalkan orang yang mendapat manfaat dan mereka yang membahayakannya. Kita juga harus melihat kepada siapa ia meletakkan pada kelemahan - dengan memaksa idea orang 'normal', AI berpotensi meletakkan 'orang lain' pada risiko. 

Membincangkan kepelbagaian dalam data AI tanpa mengiktiraf hubungan kuasa, ekuiti dan keadilan tidak akan menunjukkan gambaran yang lebih besar. Untuk memahami sepenuhnya skop kepelbagaian dalam data latihan AI dan bagaimana manusia dan AI boleh bersama-sama mengurangkan krisis ini, hubungi jurutera di Shaip. Kami mempunyai pelbagai jurutera AI yang boleh menyediakan data dinamik dan pelbagai untuk penyelesaian AI anda. 

Kongsi sosial