Serangan Adversarial: Mengapa Rangkaian Saraf Mudah Ditipu? - Pandangan Alternatif

Isi kandungan:

Serangan Adversarial: Mengapa Rangkaian Saraf Mudah Ditipu? - Pandangan Alternatif
Serangan Adversarial: Mengapa Rangkaian Saraf Mudah Ditipu? - Pandangan Alternatif

Video: Serangan Adversarial: Mengapa Rangkaian Saraf Mudah Ditipu? - Pandangan Alternatif

Video: Serangan Adversarial: Mengapa Rangkaian Saraf Mudah Ditipu? - Pandangan Alternatif
Video: Penipu Tokek ini Tertipu... 2024, Mungkin
Anonim

Dalam tahun-tahun kebelakangan ini, ketika sistem pembelajaran mendalam menjadi lebih lazim, para saintis telah menunjukkan bagaimana corak penentangan dapat mempengaruhi apa saja dari pengkelasan gambar sederhana hingga sistem diagnostik barah - dan bahkan membuat situasi yang mengancam nyawa. Walaupun ada bahaya, contoh-contoh penentangan tidak dapat difahami dengan baik. Dan para saintis bimbang: adakah masalah ini dapat diselesaikan?

Apa itu serangan musuh? Ini adalah cara untuk mengelabui rangkaian saraf sehingga menghasilkan hasil yang tidak betul. Mereka digunakan terutamanya dalam penyelidikan saintifik untuk menguji ketahanan model terhadap data yang tidak standard. Tetapi dalam kehidupan nyata, sebagai contoh, anda dapat mengubah beberapa piksel dalam gambar panda sehingga jaringan saraf akan memastikan ada gibbon pada gambar. Walaupun saintis hanya menambah "bunyi" pada gambar.

Serangan Adversarial: bagaimana menipu rangkaian saraf?

Karya baru dari Massachusetts Institute of Technology menunjukkan cara yang mungkin untuk mengatasi masalah ini. Dengan menyelesaikannya, kita dapat membuat model pembelajaran mendalam yang lebih dipercayai yang jauh lebih sukar untuk dimanipulasi dengan cara jahat. Tetapi mari kita lihat asas-asas corak permusuhan terlebih dahulu.

Seperti yang anda ketahui, kekuatan pembelajaran mendalam berasal dari kemampuan unggulnya untuk mengenali corak (corak, pola, gambar rajah, corak) dalam data. Beri makan rangkaian saraf puluhan ribu foto haiwan yang ditandai, dan ia mengetahui corak mana yang dikaitkan dengan panda dan yang terkait dengan monyet. Dia kemudian dapat menggunakan corak ini untuk mengenali gambar baru haiwan yang belum pernah dia lihat sebelumnya.

Tetapi model pembelajaran mendalam juga sangat rapuh. Oleh kerana sistem pengecaman gambar hanya bergantung pada corak piksel dan bukan pada pemahaman yang lebih konseptual tentang apa yang dilihatnya, mudah untuk memperdaya untuk melihat sesuatu yang sama sekali berbeza - hanya dengan memecahkan corak dengan cara tertentu. Contoh klasik: Tambahkan sedikit bunyi pada gambar panda dan sistem mengklasifikasikannya sebagai gibbon dengan kepastian hampir 100 peratus. Kebisingan ini akan menjadi serangan lawan.

Image
Image

Video promosi:

Selama beberapa tahun, para saintis mengamati fenomena ini, terutama dalam sistem penglihatan komputer, tanpa benar-benar mengetahui bagaimana untuk menghilangkan kerentanan tersebut. Sebenarnya, karya yang disajikan minggu lalu di sebuah persidangan besar mengenai penyelidikan kecerdasan buatan - ICLR - mempersoalkan tidak dapat dielakkan serangan musuh. Nampaknya tidak kira berapa banyak gambar panda yang anda berikan kepada pengeluar gambar, akan selalu ada kemarahan yang menyebabkan anda melanggar sistem.

Tetapi karya baru dari MIT menunjukkan bahawa kita salah berfikir tentang serangan musuh. Daripada mencari cara untuk mengumpulkan lebih banyak data berkualiti yang memberi makan sistem, kita perlu memikirkan kembali pendekatan kita untuk melatihnya.

Karya ini menunjukkan ini dengan mendedahkan sifat contoh lawan yang agak menarik yang membantu kita memahami mengapa ia berkesan. Apa muslihatnya: bunyi atau pelekat yang kelihatan rawak yang mengelirukan rangkaian saraf, sebenarnya, menggunakan corak halus yang sangat halus yang telah dipelajari oleh sistem visualisasi dengan kuat dengan objek tertentu. Dengan kata lain, mesin tidak mengalami kerosakan ketika kita melihat gibbon di mana kita melihat panda. Sebenarnya, dia melihat susunan piksel biasa, yang tidak dapat dilihat oleh manusia, yang lebih sering muncul dalam gambar dengan gibbon daripada gambar dengan panda semasa latihan.

Para saintis telah menunjukkan ini dengan eksperimen: mereka membuat kumpulan data gambar anjing, yang semuanya diubah sedemikian rupa sehingga pengklasifikasi gambar standard secara keliru mengenalinya sebagai kucing. Mereka kemudian menandai gambar ini dengan "kucing" dan menggunakannya untuk melatih rangkaian saraf baru dari awal. Setelah berlatih, mereka menunjukkan imej kucing yang nyata dari rangkaian saraf, dan dia dengan betul mengenalinya sebagai kucing.

Para penyelidik membuat hipotesis bahawa terdapat dua jenis korelasi dalam setiap kumpulan data: pola yang benar-benar berkorelasi dengan makna data, seperti misai pada gambar kucing atau pewarnaan bulu pada gambar panda, dan corak yang ada dalam data latihan tetapi tidak disebarkan. ke konteks lain. Ini korelasi "mengelirukan" terakhir, mari kita sebut itu, digunakan dalam serangan lawan. Sistem pengiktirafan, dilatih untuk mengenali corak "menyesatkan", menemukannya dan menganggapnya melihat monyet.

Ini memberitahu kita bahawa jika kita ingin menghilangkan risiko serangan lawan, kita perlu mengubah cara kita melatih model kita. Kami kini membenarkan rangkaian saraf untuk memilih korelasi yang ingin digunakannya untuk mengenal pasti objek dalam gambar. Hasilnya, kami tidak mempunyai kawalan terhadap korelasi yang dijumpainya, sama ada ia benar-benar atau mengelirukan. Sekiranya, sebaliknya, kita melatih model kita untuk mengingat hanya corak sebenar - yang terikat dengan piksel yang bermakna - secara teori, adalah mungkin untuk menghasilkan sistem pembelajaran mendalam yang tidak dapat dikelirukan.

Ketika para saintis menguji idea ini, dengan hanya menggunakan korelasi nyata untuk melatih model mereka, mereka benar-benar mengurangkan kerentanannya: hanya dimanipulasi 50% dari masa itu, sementara model yang dilatih mengenai korelasi nyata dan palsu dimanipulasi 95% masa.

Ringkasnya, anda boleh bertahan daripada serangan lawan. Tetapi kita memerlukan lebih banyak penyelidikan untuk menghapuskannya sepenuhnya.

Ilya Khel

Disyorkan: