AI melihat foto AOC yang dipangkas. Ia autolengkap dia memakai bikini.

Cik Tech | Getty



Algoritma penjanaan bahasa diketahui membenamkan idea perkauman dan seksis. Mereka dilatih dalam bahasa internet, termasuk sudut gelap Reddit dan Twitter yang mungkin termasuk ucapan benci dan salah maklumat. Apa sahaja idea berbahaya yang terdapat dalam forum tersebut dinormalkan sebagai sebahagian daripada pembelajaran mereka.

Penyelidik kini telah menunjukkan yang sama boleh berlaku untuk algoritma penjanaan imej. Suapkan satu foto seorang lelaki yang dipotong betul-betul di bawah lehernya, dan 43% daripada masa itu, foto itu akan melengkapkan dia secara automatik memakai sut. Suapkan foto wanita yang dipangkas yang sama, malah wanita terkenal seperti Wakil AS Alexandria Ocasio-Cortez, dan 53% daripada masa itu, ia akan melengkapkan dia secara automatik memakai baju atasan atau bikini berpotongan rendah. Ini mempunyai implikasi bukan sahaja untuk penjanaan imej, tetapi untuk semua aplikasi penglihatan komputer, termasuk algoritma penilaian calon berasaskan video , pengecaman muka dan pengawasan.





Ryan Steed, pelajar PhD di Carnegie Mellon University, dan Aylin Caliskan, penolong profesor di George Washington University, melihat dua algoritma: iGPT OpenAI (versi GPT-2 yang dilatih pada piksel dan bukannya perkataan) dan SimCLR Google . Walaupun setiap algoritma mendekati pembelajaran imej secara berbeza, mereka berkongsi ciri penting—kedua-duanya menggunakan sepenuhnya pembelajaran tanpa pengawasan , bermakna mereka tidak memerlukan manusia untuk melabelkan imej tersebut.

Ini merupakan inovasi yang agak baharu pada 2020. Algoritma penglihatan komputer sebelum ini digunakan terutamanya diselia pembelajaran, yang melibatkan pemberian imej berlabel manual kepada mereka: foto kucing dengan tag kucing dan foto bayi dengan tag bayi. Tetapi pada 2019, penyelidik Kate Crawford dan artis Trevor Paglen mendapati bahawa label ciptaan manusia ini dalam ImageNet, set data imej paling asas untuk melatih model penglihatan komputer, kadangkala mengandungi bahasa yang mengganggu , seperti perempuan murahan untuk wanita dan penghinaan kaum untuk minoriti.

adakah makhluk asing hidup di bulan

Kertas kerja terkini menunjukkan sumber ketoksikan yang lebih mendalam. Walaupun tanpa label manusia ini, imej itu sendiri mengekod corak yang tidak diingini. Isu ini selari dengan apa yang telah ditemui oleh komuniti pemprosesan bahasa semula jadi (NLP). Set data besar yang disusun untuk memberi makan kepada algoritma yang haus data ini menangkap segala-galanya di internet. Dan internet mempunyai gambaran berlebihan tentang wanita berpakaian minim dan stereotaip lain yang sering berbahaya.



membina mesin pembelajaran mendalam

Untuk menjalankan kajian mereka, Steed dan Caliskan bijak menyesuaikan teknik yang sebelum ini digunakan oleh Caliskan untuk mengkaji berat sebelah dalam model NLP tanpa pengawasan. Model-model ini belajar untuk memanipulasi dan menjana bahasa menggunakan pembenaman perkataan, perwakilan matematik bahasa yang mengelompokkan perkataan yang biasa digunakan bersama dan memisahkan perkataan yang biasa ditemui. Didalam kertas kerja 2017 diterbitkan dalam Sains , Caliskan mengukur jarak antara pasangan perkataan berbeza yang digunakan oleh ahli psikologi untuk mengukur berat sebelah manusia dalam Ujian Persatuan Tersirat (IAT) . Dia mendapati bahawa jarak tersebut hampir sempurna mencipta semula keputusan IAT. Gandingan perkataan stereotaip seperti lelaki dan kerjaya atau wanita dan keluarga adalah rapat, manakala pasangan bertentangan seperti lelaki dan keluarga atau wanita dan kerjaya adalah berjauhan.

iGPT juga berdasarkan pembenaman: ia mengumpulkan atau memisahkan piksel berdasarkan kekerapan ia berlaku bersama dalam imej latihannya. Pembenaman piksel tersebut kemudiannya boleh digunakan untuk membandingkan jarak dekat atau jauh dua imej dalam ruang matematik.

Bahaya sebenar AI adalah lebih dekat daripada yang kita fikirkan

Lupakan AI superintelligent: algoritma sudah mencipta bahaya sebenar. Berita baik: perjuangan kembali telah bermula.

Dalam kajian mereka, Steed dan Caliskan sekali lagi mendapati bahawa jarak tersebut mencerminkan keputusan IAT. Foto lelaki dan tali leher dan sut kelihatan rapat, manakala foto wanita kelihatan lebih jauh. Para penyelidik mendapat hasil yang sama dengan SimCLR, walaupun ia menggunakan kaedah yang berbeza untuk memperoleh pembenaman daripada imej.



Keputusan ini mempunyai implikasi yang berkaitan dengan penjanaan imej. Algoritma penjanaan imej lain, seperti rangkaian musuh generatif , telah membawa kepada satu letupan pornografi palsu yang mendalam itu hampir secara eksklusif menyasarkan wanita . iGPT khususnya menambah satu lagi cara untuk orang ramai menjana foto seksual wanita.

Tetapi potensi kesan hiliran adalah lebih besar. Dalam bidang NLP, model tanpa pengawasan telah menjadi tulang belakang untuk semua jenis aplikasi. Penyelidik bermula dengan model sedia ada tanpa pengawasan seperti BERT atau GPT-2 dan menggunakan set data yang disesuaikan untuk memperhalusinya untuk tujuan tertentu. Pendekatan separa penyeliaan ini, gabungan kedua-dua pembelajaran tanpa seliaan dan seliaan, telah menjadi standard de facto.

Begitu juga, bidang penglihatan komputer mula melihat trend yang sama. Steed dan Caliskan bimbang tentang apa yang boleh dimaksudkan dengan berat sebelah yang dipanggang ini apabila algoritma digunakan untuk aplikasi sensitif seperti dalam kepolisan atau pengambilan pekerja, di mana model sedang menganalisis rakaman video calon untuk memutuskan sama ada ia sesuai untuk tugas itu. Ini adalah aplikasi yang sangat berbahaya yang membuat keputusan berbangkit, kata Caliskan.

Deborah Raji , rakan Mozilla yang mengarang bersama satu kajian yang berpengaruh mendedahkan berat sebelah dalam pengecaman muka, berkata kajian itu harus berfungsi sebagai panggilan bangun kepada bidang penglihatan komputer. Untuk masa yang lama, banyak kritikan terhadap berat sebelah adalah mengenai cara kami melabelkan imej kami, katanya. Sekarang kertas ini mengatakan komposisi sebenar set data menyebabkan bias ini. Kami memerlukan akauntabiliti tentang cara kami menyusun set data ini dan mengumpul maklumat ini.

Steed dan Caliskan menggesa ketelusan yang lebih tinggi daripada syarikat yang membangunkan model ini untuk membuka sumbernya dan membenarkan komuniti akademik meneruskan penyiasatan mereka. Mereka juga menggalakkan rakan penyelidik untuk melakukan lebih banyak ujian sebelum menggunakan model visi, seperti dengan menggunakan kaedah yang mereka bangunkan untuk kertas ini. Dan akhirnya, mereka berharap bidang ini akan membangunkan cara yang lebih bertanggungjawab untuk menyusun dan mendokumentasikan perkara yang disertakan dalam set data latihan.

apakah yang akan anda lakukan untuk memastikan soalan selamat amazon

Caliskan berkata matlamat akhirnya adalah untuk mendapatkan kesedaran dan kawalan yang lebih besar apabila menggunakan penglihatan komputer. Kita perlu berhati-hati tentang cara kita menggunakannya, katanya, tetapi pada masa yang sama, sekarang kita mempunyai kaedah ini, kita boleh cuba menggunakannya untuk kebaikan sosial.

bersembunyi

Teknologi Sebenar

Kategori

Tidak Dikategorikan

Teknologi

Bioteknologi

Dasar Teknologi

Perubahan Iklim

Manusia Dan Teknologi

Lembah Silikon

Pengkomputeran

Majalah Mit News

Kecerdasan Buatan

Angkasa Lepas

Angkasa

Bandar Pintar

Rantaian Sekat

Cerita Ciri

Profil Alumni

Sambungan Alumni

Ciri Mit News

1865

Pandangan Saya

77 Mass Ave

Bertemu Penulis

Profil Dalam Kemurahan Hati

Kelihatan Di Kampus

Surat Alumni

Berita

Pilihanraya 2020

Dengan Indeks

Di Bawah Kubah

Majalah Berita Mit

Hos Pemadam Api

Cerita Yang Tidak Terhingga

Projek Teknologi Pandemik

Daripada Presiden

Muka Depan Cerita

Galeri Gambar

Disyorkan