Anda Langsung Tahu Bahawa Ini Adalah Lucah. Adakah Komputer Akan Faham? - Pandangan Alternatif

2024 Pengarang: Keith Bush | [email protected]. Diubah suai terakhir: 2023-12-16 14:33

Tumblr mengumumkan awal bulan lalu bahawa ia akan melarang pornografi. Ketika dasar kandungan baru berkuatkuasa, kira-kira dua minggu kemudian - pada 17 Disember - menjadi jelas bahawa akan ada masalah. Setelah menggunakan sistem kecerdasan buatan yang seharusnya melarang semua pornografi di laman web ini, ia secara keliru menandai catatan yang tidak bersalah di 455.4 juta blog di laman web ini di antara 168.2 bilion siaran: pasu, penyihir, ikan dan semua jazz.

Pornografi untuk kecerdasan buatan

Walaupun tidak jelas penapis automatik yang digunakan atau dibuat sendiri oleh Tumblr - syarikat itu tidak menjawab pertanyaan mengenai topik tersebut - jelas bahawa rangkaian sosial tersekat antara politik dan teknologinya sendiri. Sebagai contoh, sikap tidak konsisten laman web ini mengenai "wanita yang menunjukkan puting susu" dan ketelanjangan seni, misalnya, telah membawa kepada keputusan kontekstual yang menunjukkan bahawa bahkan Tumblr tidak tahu apa yang harus dilarang di platformnya. Bagaimana syarikat yang kerap dapat menentukan apa yang dianggapnya cabul?

Pertama, menyekat kandungan berisiko adalah sukar kerana sukar untuk menentukan kandungannya sejak awal. Definisi kekaburan adalah perangkap beruang yang berusia lebih dari seratus tahun, pada tahun 1896, Amerika Syarikat pertama kali meluluskan undang-undang yang mengatur kekaburan. Pada tahun 1964, di Jacobellis lwn Ohio, mengenai apakah Ohio boleh melarang penayangan filem Louis Malle, Mahkamah Agung mengeluarkan definisi pornografi tegar yang mungkin paling terkenal hari ini: "Saya tidak akan berusaha untuk mendefinisikan bahan semacam ini lebih jauh hari ini, yang, seperti yang saya faham akan dimasukkan dalam keterangan kata demi kata; dan saya mungkin tidak pernah dapat membuatnya dapat difahami,”kata Hakim Potter Stewart. "Tetapi saya tahu apa sebenarnya ketika saya melihatnya, dan filem yang berkaitan dengan kes ini tidak."

Algoritma pembelajaran mesin mempunyai masalah yang sama. Inilah masalah yang cuba diselesaikan oleh Brian Delorge, CEO Picnix, sebuah syarikat yang menjual teknologi kecerdasan buatan. Salah satu produk mereka, Iris, adalah aplikasi sisi pelanggan untuk mengesan pornografi untuk "menolong orang," seperti kata Delorge, "yang tidak menginginkan pornografi dalam hidup mereka." Dia menyatakan bahawa masalah tertentu dengan pornografi adalah bahawa ia boleh menjadi apa-apa, sekumpulan perkara yang berbeza - dan gambar yang bukan pornografi boleh mempunyai unsur yang serupa. Gambar pesta pantai mungkin disekat bukan kerana kulitnya lebih banyak daripada foto pejabat, tetapi kerana ia berada di tepi. "Inilah sebabnya mengapa sangat sukar untuk melatih algoritma pengenalan gambar untuk semuanya sekaligus," kata DeLorge."Apabila definisi menjadi sukar bagi manusia, komputer juga mengalami kesukaran." Sekiranya orang tidak dapat bersetuju dengan apa itu porno dan apa yang tidak, adakah komputer berharap dapat mengetahui perbezaannya?

Untuk mengajar AI untuk mengesan porno, perkara pertama yang perlu anda lakukan ialah memberi makan pornografi. Banyak pornografi. Di mana saya boleh mendapatkannya? Nah, perkara pertama yang dilakukan orang ialah memuat turun sekumpulan video dari Pornhub, XVideos, kata Dan Shapiro, pengasas bersama Lemay.ai, sebuah syarikat permulaan yang membuat penapis AI untuk pelanggannya. "Ini adalah salah satu kawasan kelabu yang bersifat undang-undang - sebagai contoh, jika anda belajar dari kandungan orang lain, apakah itu milik anda?"

Setelah pengaturcara memuat turun banyak pornografi, mereka memotong rakaman bukan pornografi dari video untuk memastikan rakaman yang mereka gunakan tidak menyekat lelaki penghantaran pizza. Platform membayar orang, kebanyakannya di luar AS, untuk menandai kandungan tersebut; pekerjaan itu bergaji rendah dan membosankan, seperti memasuki captcha. Mereka hanya duduk dan perhatikan: ini adalah lucah, ini ini. Anda mesti menapis sedikit, kerana semua porno keluar dengan label. Pembelajaran lebih baik jika anda menggunakan bukan hanya gambar, tetapi juga sampel data yang besar.

Video promosi:

"Sering kali, anda tidak hanya perlu menyaring pornografi, melainkan bahan yang menyertainya," kata Shapiro. "Seperti profil palsu dengan foto dan telefon gadis." Dia merujuk kepada pekerja seks yang mencari pelanggan, tetapi itu mungkin sesuatu yang tidak sepenuhnya sah. "Ini bukan porno, tetapi ini adalah jenis perkara yang tidak mahu anda tonton di platform anda, bukan?" Moderator automatik yang baik belajar dari berjuta-juta - jika tidak berpuluh juta - kandungan sampel, yang dapat menjimatkan banyak berjam-jam.

"Anda dapat membandingkannya dengan perbezaan antara anak dan orang dewasa," kata Matt Zeiler, Ketua Pegawai Eksekutif dan pengasas Clarifai, permulaan penglihatan komputer yang melakukan penapisan gambar semacam ini untuk pelanggan korporat. "Saya dapat memberitahu anda dengan pasti - beberapa bulan yang lalu kami mempunyai bayi. Mereka tidak tahu apa-apa tentang dunia, semuanya baru bagi mereka. " Anda harus menunjukkan kepada anak (algoritma) banyak perkara sehingga dia memahami sesuatu. Jutaan dan jutaan contoh. Tetapi sebagai orang dewasa - apabila kita telah membuat begitu banyak konteks mengenai dunia dan memahami cara kerjanya - kita dapat mempelajari sesuatu yang baru hanya dengan beberapa contoh. " (Ya, mengajar AI untuk menapis kandungan dewasa adalah seperti menunjukkan kanak-kanak banyak pornografi.) Syarikat seperti Clarifai berkembang pesat hari ini. Mereka mempunyai pangkalan data dunia yang baik, mereka dapat memberitahu anjing dari kucing, berpakaian dari telanjang. Syarikat Zeiler menggunakan modelnya untuk melatih algoritma baru untuk pelanggannya - kerana model asalnya memproses banyak data, versi yang diperibadikan hanya memerlukan set data baru untuk berfungsi.

Walau bagaimanapun, sukar bagi algoritma untuk mendapatkannya dengan betul. Ia sesuai dengan kandungan yang jelas berunsur pornografi; tetapi pengklasifikasi mungkin salah menandakan iklan seluar dalam sebagai had kerana gambar itu mempunyai lebih banyak kulit daripada, katakanlah, pejabat. (Dengan bikini dan seluar dalam, menurut Zeiler, sangat sukar). Ini bermaksud bahawa pemasar harus menumpukan perhatian pada kes-kes ini dalam pekerjaan mereka, mengutamakan model yang sukar diklasifikasikan.

Apa bahagian yang paling sukar?

"Anime porno," kata Zeiler. "Versi pertama pengesan ketelanjangan kami tidak menggunakan pornografi kartun untuk pendidikan." Berkali-kali AI salah kerana tidak mengenali hentai. "Setelah mengerjakan ini untuk klien, kami memasukkan banyak datanya ke dalam model dan meningkatkan ketepatan penapis kartun secara signifikan sambil mengekalkan ketepatan foto sebenar," kata Zeiler.

Teknologi yang telah diajar untuk mengendus porno boleh digunakan untuk perkara lain juga. Teknologi di sebalik sistem ini sangat fleksibel. Ini lebih daripada tetek anime. Jigsaw dari Alphabet, misalnya, digunakan secara meluas sebagai moderator komen automatik di sebuah akhbar. Perisian ini berfungsi dengan cara yang serupa dengan pengkelasan gambar, kecuali ia disusun berdasarkan ketoksikan dan bukannya kebogelan. (Ketoksikan dalam komen teks sukar ditentukan seperti pornografi dalam gambar.) Facebook menggunakan penapisan automatik seperti ini untuk mengesan mesej bunuh diri dan kandungan yang berkaitan dengan keganasan, dan telah berusaha menggunakan teknologi ini untuk mengesan berita palsu di platformnya yang besar.

Semua ini masih bergantung pada pengawasan manusia; kita lebih baik menangani konteks kesamaran dan kesamaran. Zeiler mengatakan bahawa dia tidak menyangka produknya telah mengambil pekerjaan orang lain. Ia menyelesaikan masalah penskalaan internet. Manusia masih akan melatih AI dengan menyusun dan melabelkan kandungan supaya AI dapat membezakannya.

Inilah masa depan penyederhanaan: penyelesaian turnkey yang disesuaikan untuk syarikat yang menjalankan keseluruhan perniagaan mereka dengan mengajar lebih banyak dan lebih maju pengklasifikasi lebih banyak data. Sama seperti Stripe dan Square yang menawarkan penyelesaian pembayaran di luar kotak untuk perniagaan yang tidak mahu memprosesnya sendiri, syarikat permulaan seperti Clarifai, Picnix, dan Lemay.ai akan melakukan penyederhanaan dalam talian.

Dan Shapiro dari Lemay.ai berharap. “Seperti teknologi apa pun, masih dalam proses penemuan. Jadi saya tidak fikir kita akan menyerah jika kita gagal. " Tetapi adakah AI akan dapat beroperasi secara autonomi tanpa pengawasan manusia? Tidak jelas. "Tidak ada lelaki kecil di kotak tembakau yang menyaring setiap tembakan," katanya. "Anda perlu mendapatkan data dari mana-mana untuk melatih algoritma di dalamnya."

Zeiler, sebaliknya, percaya bahawa suatu hari kecerdasan buatan akan menyederhanakan semuanya dengan sendirinya. Pada akhirnya, jumlah intervensi manusia akan dikurangkan menjadi usaha sifar atau sedikit. Secara beransur-ansur, usaha manusia akan berubah menjadi sesuatu yang tidak dapat dilakukan oleh AI sekarang, seperti pertimbangan peringkat tinggi, kesedaran diri - semua yang dimiliki oleh manusia.

Mengakui pornografi adalah sebahagian daripada itu. Pengenalpastian adalah tugas yang agak remeh bagi manusia, tetapi jauh lebih sukar untuk melatih algoritma untuk mengenali nuansa. Menentukan ambang apabila penapis menandakan gambar sebagai pornografi atau bukan pornografi juga merupakan tugas yang sukar, sebahagiannya adalah matematik.

Kecerdasan buatan adalah cermin yang tidak sempurna bagaimana kita melihat dunia, sama seperti pornografi adalah gambaran tentang apa yang berlaku antara orang ketika mereka bersendirian. Ada beberapa kebenaran di dalamnya, tetapi tidak ada gambaran lengkap.

Ilya Khel