Adakah Neuron Mengimpikan Biri-biri Elektrik? Pencipta Rangkaian Saraf Pertama Memberitahu Tentang Evolusi Dan Masa Depan Mereka - Pandangan Alternatif

2024 Pengarang: Keith Bush | [email protected]. Diubah suai terakhir: 2023-12-16 14:33

Jeffrey Hinton adalah pencipta bersama konsep pembelajaran mendalam, pemenang Anugerah Turing 2019 dan jurutera Google. Minggu lalu, semasa persidangan pembangun I / O, Wired menemu ramahnya dan membincangkan daya tariknya dengan otak dan kemampuannya memodelkan komputer berdasarkan struktur saraf otak. Untuk masa yang lama, idea-idea ini dianggap aneh. Perbualan yang menarik dan menghiburkan mengenai kesedaran, rancangan masa depan Hinton dan sama ada komputer dapat diajar untuk bermimpi.

Apa yang akan berlaku pada rangkaian saraf?

Mari kita mulakan dengan hari-hari ketika anda menulis artikel pertama dan sangat berpengaruh. Semua orang berkata, "Ini idea yang bijak, tetapi kami tidak dapat merancang komputer dengan cara ini." Terangkan mengapa anda bersikeras sendiri dan mengapa anda begitu yakin bahawa anda menemui sesuatu yang penting.

Nampaknya otak saya tidak dapat berfungsi dengan cara lain. Dia mesti berusaha dengan mengkaji kekuatan hubungan. Dan jika anda ingin membuat peranti melakukan sesuatu yang pintar, anda mempunyai dua pilihan: anda memprogramkannya atau ia belajar. Dan tidak ada yang memprogramkan orang, jadi kami terpaksa belajar. Kaedah ini mesti betul.

Terangkan apa itu rangkaian saraf. Terangkan konsep asal

Anda mengambil elemen pemprosesan yang agak mudah menyerupai neuron. Mereka mempunyai sambungan masuk, setiap sambungan mempunyai berat, dan berat ini dapat berubah semasa latihan. Apa yang dilakukan oleh neuron adalah mengambil tindakan pada sambungan yang dikalikan dengan bobot, menjumlahkannya, dan kemudian memutuskan sama ada untuk menghantar data. Sekiranya jumlahnya ditaip cukup besar, ia akan menghasilkan output. Sekiranya jumlahnya negatif, ia tidak akan menghantar apa-apa. Itu sahaja. Yang harus anda lakukan ialah menyambungkan awan neuron ini ke berat dan memikirkan cara mengubah bobot tersebut, dan kemudian mereka akan melakukan apa sahaja. Satu-satunya soalan adalah bagaimana anda akan mengubah berat badan.

Video promosi:

Bilakah anda menyedari bahawa ini adalah gambaran kasar bagaimana otak berfungsi?

Oh, ya, semuanya pada asalnya bertujuan. Direka untuk menyerupai otak di tempat kerja.

Oleh itu, pada suatu ketika dalam karier anda, anda mula memahami bagaimana otak berfungsi. Mungkin anda berumur dua belas tahun, mungkin dua puluh lima tahun. Bilakah anda memutuskan untuk mencuba model komputer seperti otak?

Ya dengan serta-merta. Itulah intinya. Keseluruhan idea ini adalah untuk membuat alat pembelajaran yang belajar seperti otak, menurut idea orang tentang bagaimana otak belajar, dengan mengubah kekuatan hubungan. Dan itu bukan idea saya, Turing mempunyai idea yang sama. Walaupun Turing mencipta banyak asas sains komputer standard, dia percaya bahawa otak adalah alat yang tidak teratur dengan bobot rawak dan menggunakan pembelajaran peneguhan untuk menukar sambungan, sehingga dia dapat mempelajari apa saja. Dan dia percaya bahawa ini adalah jalan terbaik untuk kecerdasan.

Dan anda mengikuti idea Turing bahawa kaedah terbaik untuk membina mesin adalah merancangnya seperti otak manusia. Ini adalah bagaimana otak manusia berfungsi, jadi mari kita buat mesin yang serupa

Ya, bukan hanya Turing yang berpendapat demikian. Ramai berpendapat begitu.

Bilakah zaman kegelapan itu datang? Bilakah kebetulan orang lain yang mengusahakannya dan mempercayai idea Turing itu betul mulai mundur, dan anda terus membengkokkan garis?

Selalu ada segelintir orang yang percaya tidak peduli apa pun, terutama dalam bidang psikologi. Tetapi di kalangan saintis komputer, saya kira pada tahun 90-an, kebetulan set data agak kecil, dan komputer tidak begitu pantas. Dan dengan set data kecil, kaedah lain seperti mesin vektor sokongan menunjukkan prestasi yang lebih baik. Mereka tidak begitu malu dengan suara itu. Oleh itu, semua ini menyedihkan kerana pada tahun 80-an kami mengembangkan kaedah penyebaran belakang, yang sangat penting untuk rangkaian saraf. Kami fikir dia akan menyelesaikan semuanya. Dan mereka bingung bahwa dia belum memutuskan apa-apa. Soalan itu benar-benar berskala, tetapi ketika itu kami tidak mengetahuinya.

Mengapa anda fikir ia tidak berfungsi?

Kami berpendapat bahawa ia tidak berfungsi kerana kami tidak mempunyai algoritma yang betul dan fungsi objektif yang tidak betul. Saya berfikir sejak lama bahawa ini kerana kami berusaha melakukan pembelajaran di bawah seliaan ketika anda melabelkan data, dan kami harus melakukan pembelajaran tanpa pengawasan ketika belajar dari data yang tidak ditandai. Ternyata soalan itu kebanyakannya berskala.

Ia menarik. Jadi masalahnya ialah anda tidak mempunyai cukup data. Anda fikir anda mempunyai jumlah data yang betul, tetapi anda menandainya dengan tidak betul. Jadi anda salah mendiagnosis masalahnya?

Saya fikir kesilapannya adalah sama ada kita menggunakan label. Sebilangan besar latihan anda berlaku tanpa menggunakan label, anda hanya mencuba untuk memodelkan struktur dalam data. Saya sebenarnya masih berfikir begitu. Saya berpendapat bahawa sejak komputer menjadi lebih cepat, jika komputer cukup cepat, maka untuk set data dengan ukuran tertentu, lebih baik berlatih tanpa pengawasan. Dan setelah anda menyelesaikan pembelajaran tanpa pengawasan, anda boleh belajar dengan lebih sedikit tag.

Jadi pada tahun 1990-an anda meneruskan penyelidikan, anda berada di akademik, anda masih menerbitkan, tetapi anda tidak menyelesaikan masalah besar. Adakah anda pernah mengalami saat ketika anda berkata, “Anda tahu apa, itu sudah cukup. Adakah saya akan berusaha melakukan perkara lain”? Atau adakah anda hanya mengatakan kepada diri sendiri bahawa anda akan terus melakukan pembelajaran mendalam [iaitu konsep pembelajaran mendalam, pembelajaran mendalam mengenai rangkaian saraf

Ya. Perkara seperti ini mesti berfungsi. Maksud saya, hubungan di otak belajar dengan cara tertentu, kita hanya perlu mencari tahu bagaimana. Dan mungkin ada banyak cara yang berbeza untuk mengukuhkan hubungan dalam proses pembelajaran; otak menggunakan salah satunya. Mungkin ada cara lain. Tetapi anda pasti memerlukan sesuatu yang dapat mengeratkan hubungan ini semasa belajar. Saya tidak pernah meragukannya.

Anda tidak pernah meragukannya. Bilakah ia kelihatan seperti berfungsi?

Salah satu kekecewaan terbesar pada tahun 80an adalah jika kita membuat rangkaian dengan banyak lapisan tersembunyi, kita tidak dapat melatihnya. Ini tidak sepenuhnya benar, kerana anda dapat melatih proses yang agak mudah seperti tulisan tangan. Tetapi kami tidak tahu bagaimana melatih rangkaian saraf yang paling dalam. Dan sekitar tahun 2005, saya membuat kaedah untuk melatih rangkaian dalam tanpa pengawasan. Anda memasukkan data, mengatakan piksel, dan melatih beberapa alat pengesan terperinci, yang hanya menjelaskan dengan jelas mengapa piksel itu seperti adanya. Kemudian anda memberi data pengesan bahagian ini dan melatih sekumpulan pengesan bahagian lain supaya kami dapat menjelaskan mengapa pengesan bahagian tertentu mempunyai korelasi khusus. Anda terus melatih lapisan demi lapisan. Tetapi perkara yang paling menarik adalahyang dapat diuraikan secara matematik dan membuktikan bahawa setiap kali anda melatih lapisan baru, anda tidak semestinya akan memperbaiki model data, tetapi anda akan berhadapan dengan seberapa baik model anda. Dan julat itu menjadi lebih baik dengan setiap lapisan ditambahkan.

Apa maksud anda dengan seberapa baik model anda?

Setelah mendapat model, anda mungkin mengajukan pertanyaan, "Seberapa tidak biasa model ini menemui data ini?" Anda menunjukkan kepadanya data dan mengajukan pertanyaan: "Adakah anda mendapati semua ini seperti yang diharapkan, atau tidak biasa?" Dan ini dapat diukur. Dan saya ingin mendapatkan model, model yang bagus yang melihat data dan berkata, "Ya, ya. Saya mengetahuinya. Ini tidak menghairankan ". Selalunya sangat sukar untuk mengira seberapa tidak biasa model akan menemui data. Tetapi anda boleh mengira julat ini. Kita boleh mengatakan bahawa model ini akan mendapati data ini kurang biasa daripada ini. Dan dapat ditunjukkan bahawa ketika lapisan baru ditambahkan ke detektor perincian, model dibentuk, dan dengan setiap lapisan ditambahkan ketika ia menemukan data, jangkauan pemahaman tentang betapa tidak biasa ia mendapati data menjadi lebih baik.

Oleh itu, sekitar tahun 2005, anda berjaya mencapai kejayaan matematik ini. Bilakah anda mula mendapat jawapan yang tepat? Data apa yang anda gunakan? Terobosan pertama anda adalah dengan data ucapan, bukan?

Mereka hanyalah nombor tulisan tangan. Sangat ringkas. Dan sekitar masa yang sama, pembangunan GPU (Unit Pemprosesan Grafik) bermula. Dan orang yang melakukan rangkaian neural mula menggunakan GPU pada tahun 2007. Saya mempunyai pelajar yang sangat baik yang mula menggunakan GPU untuk mencari jalan dalam gambar udara. Dia menulis kod itu, yang kemudian diadopsi oleh pelajar lain menggunakan GPU untuk mengenali fonem dalam pertuturan. Mereka menggunakan idea pra-latihan ini. Dan ketika pra-latihan selesai, mereka hanya menggantungkan tanda di atas dan menggunakan penyebaran belakang. Ternyata adalah mungkin untuk membuat rangkaian yang sangat dalam yang sebelumnya dilatih dengan cara ini. Dan kemudian penyebaran semula dapat digunakan dan ia benar-benar berjaya. Dalam pengecaman pertuturan, ia berjaya. Pada mulanya, bagaimanapun,ia tidak jauh lebih baik.

Adakah lebih baik daripada pengenalan ucapan yang tersedia secara komersial? Dilangkau oleh makalah ilmiah terbaik mengenai pengecaman pertuturan?

Pada set data yang agak kecil yang disebut TIMIT, ia sedikit lebih baik daripada karya akademik terbaik. IBM juga telah melakukan banyak kerja.

Orang-orang dengan cepat menyedari bahawa semua ini - kerana melewati model standard yang telah dibangunkan selama 30 tahun - akan berfungsi dengan baik jika dikembangkan sedikit. Graduan saya pergi ke Microsoft, IBM dan Google, dan Google dengan cepat membuat pengecam pertuturan yang berfungsi. Pada tahun 2012, karya ini, yang telah dilakukan pada tahun 2009, telah melanda Android. Android tiba-tiba jauh lebih baik pada pengecaman pertuturan.

Ceritakan tentang masa ketika anda, yang telah menyimpan idea-idea ini selama 40 tahun, telah menerbitkan topik ini selama 20 tahun, tiba-tiba memintas rakan sekerja anda. Seperti apa perasaan ini?

Nah, pada masa itu saya hanya menyimpan idea-idea ini selama 30 tahun!

Betul betul

Terdapat perasaan gembira bahawa semua ini akhirnya berubah menjadi masalah yang sebenarnya.

Adakah anda ingat ketika anda pertama kali mendapat data yang menunjukkan ini?

Tidak.

Baik. Oleh itu, anda mendapat idea bahawa ini berfungsi dengan pengecaman pertuturan. Bilakah anda mula menggunakan rangkaian saraf untuk masalah lain?

Pada mulanya, kami mula menerapkannya pada pelbagai masalah lain. George Dahl, yang pada awalnya bekerja dengan pengecaman pertuturan, menggunakannya untuk meramalkan sama ada molekul dapat mengikat sesuatu dan menjadi ubat yang baik. Dan ada pertandingan. Dia hanya menggunakan teknologi standard kami, yang dibina untuk pengecaman pertuturan, untuk meramalkan aktiviti dadah dan memenangi pertandingan. Itu adalah petanda bahawa kita melakukan sesuatu yang sangat serba boleh. Kemudian seorang pelajar muncul yang berkata, "Anda tahu, Jeff, perkara ini akan berfungsi dengan pengecaman gambar, dan Fei-Fei Li membuat set data yang sesuai untuk itu. Ada pertandingan awam, mari buat sesuatu."

Kami mendapat hasil yang jauh melebihi visi komputer standard. Ia adalah tahun 2012.

Maksudnya, dalam tiga bidang ini, Anda telah berjaya: memodelkan bahan kimia, ucapan, suara. Di mana anda gagal?

Adakah anda faham bahawa kemunduran itu sementara?

Nah, apa yang memisahkan kawasan di mana semuanya berfungsi paling cepat dan kawasan yang paling lama? Sepertinya pemprosesan visual, pengecaman pertuturan, dan sesuatu seperti perkara asas manusia yang kita lakukan dengan persepsi deria dianggap sebagai penghalang pertama untuk diatasi, bukan?

Ya dan tidak, kerana ada perkara lain yang kita lakukan dengan baik - kemahiran motor yang sama. Kami sangat pandai mengawal motor. Otak kita pasti dilengkapi untuk ini. Dan hanya sekarang rangkaian saraf mula bersaing dengan teknologi lain yang terbaik untuk ini. Mereka akan menang pada akhirnya, tetapi sekarang mereka baru mula menang.

Saya fikir berfikir, pemikiran abstrak adalah perkara terakhir yang kita pelajari. Saya rasa mereka akan menjadi antara perkara terakhir yang dapat dilakukan oleh rangkaian saraf ini.

Oleh itu, anda terus mengatakan bahawa rangkaian saraf akhirnya akan berlaku di mana-mana sahaja

Kita rangkaian neural. Semua yang kita boleh, mereka dapat.

Benar, tetapi otak manusia jauh dari mesin pengkomputeran paling cekap yang pernah dibina

Sudah tentu tidak.

Pasti bukan otak manusia saya! Adakah cara untuk membuat model mesin yang jauh lebih cekap daripada otak manusia?

Secara falsafah, saya tidak keberatan dengan idea bahawa mungkin ada cara yang sama sekali berbeza untuk melakukan semua ini. Mungkin jika anda memulakan dengan logik, cuba mengautomasikan logik, mengemukakan beberapa peribahasa teorema, alasan, dan kemudian memutuskan bahawa melalui pertimbangan bahawa anda sampai pada persepsi visual, mungkin pendekatan ini akan menang. Tapi belum lagi. Saya tidak mempunyai keberatan falsafah untuk kemenangan seperti itu. Kita baru tahu bahawa otak mampu melakukannya.

Tetapi ada juga perkara yang tidak dapat dilakukan oleh otak kita dengan baik. Adakah ini bermaksud bahawa rangkaian saraf juga tidak dapat melakukannya dengan baik?

Mungkin, ya.

Dan ada masalah tersendiri, iaitu kita tidak sepenuhnya memahami bagaimana rangkaian saraf berfungsi, bukan?

Ya, kami tidak begitu faham bagaimana ia berfungsi.

Kami tidak faham bagaimana rangkaian saraf atas-bawah berfungsi. Ini adalah elemen asas bagaimana rangkaian saraf berfungsi yang tidak kita fahami. Jelaskan ini, dan kemudian izinkan saya mengajukan soalan seterusnya: jika kita tahu bagaimana semuanya berfungsi, bagaimana semuanya berfungsi?

Apabila anda melihat sistem penglihatan komputer moden, kebanyakannya berpandangan ke hadapan; mereka tidak menggunakan sambungan maklum balas. Dan kemudian ada sesuatu yang lain dalam sistem penglihatan komputer moden yang sangat terdedah kepada kesalahan musuh. Anda boleh mengubah sedikit piksel, dan apa yang dulu menjadi gambar panda dan masih kelihatan seperti panda kepada anda secara tiba-tiba akan menjadi burung unta dalam pemahaman anda tentang rangkaian saraf. Jelas sekali, kaedah penggantian piksel difikirkan sedemikian rupa untuk mengelabui jaringan saraf untuk memikirkan seekor burung unta. Tetapi intinya adalah, ia masih menjadi panda bagi anda.

Pada mulanya, kami fikir semuanya berfungsi dengan baik. Tetapi kemudian, berhadapan dengan kenyataan bahawa mereka melihat seekor panda dan yakin itu burung unta, kami bimbang. Dan saya rasa sebahagian daripada masalahnya ialah mereka tidak berusaha membina semula dari pandangan tahap tinggi. Mereka cuba belajar secara terpisah, di mana hanya lapisan detektor terperinci yang belajar, dan keseluruhan tujuannya adalah untuk mengubah bobot untuk menjadi lebih baik dalam mencari jawapan yang tepat. Kami baru-baru ini mendapati, atau Nick Frost mendapati, di Toronto, bahawa menambah pembinaan semula meningkatkan daya tahan lawan. Saya berpendapat bahawa dalam penglihatan manusia, pembinaan semula digunakan untuk belajar. Dan kerana kita belajar banyak semasa melakukan pembinaan semula, kita lebih tahan terhadap serangan lawan.

Anda percaya bahawa komunikasi hiliran dalam rangkaian saraf membolehkan anda menguji bagaimana sesuatu sedang dibina semula. Anda periksa dan pastikan bahawa ia adalah panda, bukan burung unta

Saya rasa ini penting, ya.

Tetapi saintis otak tidak begitu setuju dengan ini?

Saintis otak tidak berpendapat bahawa jika anda mempunyai dua kawasan korteks di jalan persepsi, akan selalu ada hubungan terbalik. Mereka berdebat dengan apa itu. Mungkin diperlukan untuk perhatian, pembelajaran, atau rekonstruksi. Atau untuk ketiga-tiganya.

Oleh itu, kami tidak tahu apa maklum balas itu. Adakah anda membina rangkaian saraf baru anda, bermula dari anggapan bahawa … tidak, tidak - anda membina maklum balas, kerana ia diperlukan untuk pembinaan semula dalam rangkaian saraf anda, walaupun anda tidak begitu memahami bagaimana otak berfungsi?

Ya.

Bukankah ini gimik? Nah, itu adalah, jika anda ingin melakukan sesuatu seperti otak, tetapi anda tidak pasti adakah otak melakukannya?

Tidak juga. Saya tidak berada dalam bidang sains saraf. Saya tidak cuba membuat model bagaimana otak berfungsi. Saya melihat otak dan berkata, "Ia berfungsi, dan jika kita ingin melakukan sesuatu yang lain, kita harus menonton dan mendapat inspirasi dari itu." Kami diilhamkan oleh neuron, bukan membina model saraf. Oleh itu, keseluruhan model neuron yang kita gunakan diilhamkan oleh fakta bahawa neuron mempunyai banyak hubungan dan bahawa mereka mengubah berat.

Ia menarik. Sekiranya saya seorang saintis komputer yang bekerja di rangkaian saraf dan ingin memintas Jeff Hinton, satu pilihan adalah membina komunikasi ke bawah dan mendasarkannya pada model sains otak yang lain. Berdasarkan latihan, bukan pembinaan semula

Sekiranya ada model yang lebih baik, anda pasti akan menang. Ya.

Ia sangat, sangat menarik. Mari kita menyentuh topik yang lebih umum. Jadi, rangkaian saraf dapat menyelesaikan semua masalah yang mungkin berlaku. Adakah terdapat teka-teki di otak manusia yang tidak dapat atau tidak akan ditutupi oleh jaringan saraf? Contohnya, emosi

Tidak.

Jadi cinta dapat dibina kembali dengan rangkaian saraf? Kesedaran dapat dibina semula?

Tentunya. Setelah anda mengetahui apa maksud perkara ini. Kami rangkaian saraf, bukan? Kesedaran adalah topik yang sangat menarik bagi saya. Tetapi … orang tidak benar-benar tahu apa yang mereka maksudkan dengan perkataan ini. Terdapat banyak definisi yang berbeza. Dan saya fikir itu istilah saintifik yang cukup. Oleh itu, jika 100 tahun yang lalu anda bertanya kepada orang: apa itu kehidupan? Mereka akan menjawab, "Baiklah, makhluk hidup memiliki kekuatan hidup, dan ketika mereka mati, kekuatan hidup meninggalkannya. Ini adalah perbezaan antara yang hidup dan yang mati, sama ada anda mempunyai daya hidup atau tidak. " Sekarang kita tidak mempunyai kekuatan hidup, kita berpendapat bahawa konsep ini muncul sebelum sains. Dan setelah anda mula memahami sedikit mengenai biokimia dan biologi molekul, anda tidak lagi memerlukan kekuatan hidup, anda akan memahami bagaimana semuanya benar-benar berfungsi. Dan perkara yang sama, saya fikir, akan berlaku dengan sedar. Saya fikir,kesedaran itu adalah usaha untuk menjelaskan fenomena mental menggunakan entiti. Dan intipati ini, ia tidak diperlukan. Sebaik sahaja anda dapat menerangkannya, anda dapat menjelaskan bagaimana kita melakukan semua perkara yang membuat manusia sedar makhluk, menerangkan makna kesedaran yang berbeza tanpa melibatkan entiti khas.

Ternyata tidak ada emosi yang tidak dapat diciptakan? Tidak ada pemikiran yang tidak dapat diciptakan? Tidak ada yang mampu dilakukan oleh akal manusia yang secara teorinya tidak dapat diciptakan kembali oleh jaringan saraf yang berfungsi sepenuhnya setelah kita benar-benar memahami bagaimana otak berfungsi?

John Lennon menyanyikan sesuatu yang serupa dalam salah satu lagunya.

Adakah anda 100% pasti mengenai perkara ini?

Tidak, saya Bayesian, jadi saya yakin 99.9%.

Baiklah, berapakah 0,01%?

Kita boleh, sebagai contoh, semuanya menjadi sebahagian daripada simulasi yang lebih besar.

Cukup adil. Oleh itu, apa yang kita pelajari mengenai otak dari kerja kita di komputer?

Baiklah, saya rasa dari apa yang telah kita pelajari selama 10 tahun yang lalu, sangat menarik bahawa jika anda menggunakan sistem dengan berbilion-bilion parameter dan fungsi objektif - sebagai contoh, untuk mengisi jurang dalam sebilangan kata - ia berfungsi lebih baik daripada yang sepatutnya. Ia akan berfungsi lebih baik daripada yang anda jangkakan. Anda mungkin berfikir, dan banyak orang dalam penyelidikan AI tradisional berpendapat bahawa anda dapat menggunakan sistem dengan satu bilion parameter, menjalankannya pada nilai rawak, mengukur kecerunan fungsi objektif, dan kemudian mengubahnya untuk meningkatkan fungsi objektif. Anda mungkin berfikir bahawa algoritma tanpa harapan pasti akan tersekat. Tetapi tidak, ternyata ini adalah algoritma yang sangat baik. Dan semakin besar skala, semakin baik ia berfungsi. Dan penemuan ini pada asasnya bersifat empirikal. Terdapat beberapa teori di sebalik semua itu, tentu saja, tetapi penemuan itu bersifat empirikal. Dan sekarang,kerana kami menjumpai ini, nampaknya otak mengira kecerunan beberapa fungsi objektif dan mengemas kini berat dan kekuatan sambungan sinaptik untuk mengikuti kecerunan ini. Kita hanya perlu mengetahui apa fungsi sasaran ini dan bagaimana ia menjadi semakin teruk.

Tetapi kita tidak memahami ini dengan contoh otak? Tidak faham kemas kini baki?

Itu adalah teori. Dahulu orang menganggap itu mungkin. Tetapi di latar belakang selalu ada beberapa saintis komputer yang mengatakan: "Ya, tetapi idea bahawa semuanya secara rawak dan pembelajaran adalah kerana kecerunan tidak akan berfungsi dengan satu miliar parameter, anda harus menghubungkan banyak pengetahuan." Kita sekarang tahu bahawa ini tidak berlaku. Anda hanya boleh memasukkan parameter rawak dan mempelajari semuanya.

Mari selami sedikit lebih dalam. Semasa kita belajar lebih banyak, kita mungkin akan terus belajar lebih banyak tentang bagaimana otak manusia berfungsi semasa kita melakukan ujian besar-besaran model berdasarkan pemahaman kita tentang fungsi otak. Setelah kita memahami semua ini dengan lebih baik, apakah akan ada titik di mana kita pada dasarnya menyusun semula otak kita untuk menjadi mesin yang lebih cekap?

Sekiranya kita benar-benar memahami apa yang berlaku, kita dapat memperbaiki beberapa perkara seperti pendidikan. Dan saya fikir kita akan bertambah baik. Adalah sangat aneh apabila akhirnya memahami apa yang berlaku di otak anda, bagaimana ia belajar, dan tidak menyesuaikan diri agar dapat belajar dengan lebih baik.

Bagaimana anda berfikir, dalam beberapa tahun, kita akan menggunakan apa yang telah kita pelajari mengenai otak dan bagaimana pembelajaran mendalam berfungsi untuk mengubah pendidikan? Bagaimana anda menukar kelas?

Saya tidak pasti kita akan belajar banyak dalam beberapa tahun. Saya fikir akan mengambil masa lebih lama untuk mengubah pendidikan. Namun begitu, pembantu [digital] semakin pintar. Dan apabila pembantu dapat memahami perbualan, mereka boleh bercakap dan mendidik anak-anak.

Dan secara teori, jika kita memahami otak dengan lebih baik, kita dapat memprogram pembantu untuk berkomunikasi dengan anak dengan lebih baik, berdasarkan apa yang telah mereka pelajari

Ya, tetapi saya tidak terlalu memikirkannya. Saya buat perkara lain. Tetapi semua ini nampaknya serupa dengan kebenaran.

Bolehkah kita memahami bagaimana impian berfungsi?

Ya, saya sangat berminat dengan mimpi. Saya sangat berminat bahawa saya mempunyai sekurang-kurangnya empat teori impian yang berbeza.

Beritahu kami tentang mereka - mengenai yang pertama, kedua, ketiga, keempat

Dulu, ada perkara seperti ini yang disebut rangkaian Hopfield, dan mereka mempelajari kenangan sebagai penarik tempatan. Hopfield mendapati bahawa jika anda cuba meletakkan terlalu banyak kenangan, mereka akan hancur. Mereka akan mengambil dua penarik tempatan dan menggabungkannya menjadi satu penarik di suatu tempat di antara mereka.

Kemudian Francis Crick dan Graham Mitchison datang dan mengatakan bahawa kita dapat menyingkirkan kelemahan palsu ini dengan belajar (iaitu melupakan apa yang telah kita pelajari). Kami mematikan input data, meletakkan rangkaian saraf dalam keadaan rawak, membiarkannya tenang, mengatakan bahawa ia tidak baik, mengubah sambungan supaya tidak jatuh ke keadaan ini, dan dengan itu kami dapat memaksa rangkaian untuk menyimpan lebih banyak kenangan.

Kemudian Terry Seinowski dan saya masuk dan berkata, "Lihat, jika kita bukan sahaja neuron yang menyimpan ingatan, tetapi sekumpulan neuron lain, dapatkah kita mencari algoritma yang menggunakan semua neuron lain untuk membantu mengingat kembali kenangan?" … Hasilnya, kami membuat algoritma pembelajaran mesin Boltzmann. Dan algoritma pembelajaran mesin Boltzmann mempunyai sifat yang sangat menarik: Saya menunjukkan data, dan ia melalui seluruh unit sehingga ia berada dalam keadaan yang sangat gembira, dan selepas itu ia meningkatkan kekuatan semua sambungan, berdasarkan fakta bahawa dua unit aktif pada masa yang sama.

Anda juga harus mempunyai fasa di mana anda mematikan input, membiarkan algoritma "bergemuruh" dan meletakkannya dalam keadaan di mana dia senang, sehingga dia berkhayal, dan begitu dia mempunyai fantasi, anda berkata: "Ambil semua pasang neuron yang aktif dan mengurangkan kekuatan sambungan."

Saya menerangkan algoritma kepada anda sebagai prosedur. Tetapi pada hakikatnya, algoritma ini adalah produk matematik dan persoalannya: "Bagaimana anda perlu mengubah rantai sambungan ini supaya rangkaian saraf ini dengan semua unit data tersembunyi ini nampaknya tidak mengejutkan?" Dan juga harus ada fasa lain, yang kita sebut fasa negatif, ketika rangkaian berfungsi tanpa input data dan tidak dipelajari, tidak kira apa keadaan yang Anda masukkan.

Kami bermimpi berjam-jam setiap malam. Dan jika anda tiba-tiba bangun, anda boleh mengatakan bahawa anda hanya bermimpi, kerana mimpi itu disimpan dalam ingatan jangka pendek. Kita tahu bahawa kita melihat mimpi selama berjam-jam, tetapi pada waktu pagi, setelah bangun tidur, kita hanya dapat mengingat mimpi terakhir, dan kita tidak mengingati yang lain, yang sangat berjaya, kerana seseorang dapat menyangka mereka menjadi kenyataan. Jadi mengapa kita tidak mengingati impian kita sama sekali? Menurut Crick, ini adalah makna mimpi: untuk melepaskan perkara-perkara ini. Anda jenis belajar sebaliknya.

Terry Seinovski dan saya telah menunjukkan bahawa ini sebenarnya merupakan prosedur pembelajaran kemungkinan maksimum untuk mesin Boltzmann. Ini adalah teori pertama mengenai impian.

Saya ingin beralih kepada teori anda yang lain. Tetapi soalan saya ialah: Adakah anda dapat melatih algoritma pembelajaran mendalam anda untuk benar-benar bermimpi?

Beberapa algoritma pertama yang dapat belajar bekerja dengan unit tersembunyi adalah mesin Boltzmann. Mereka sangat tidak berkesan. Tetapi kemudian saya menemui cara untuk bekerja dengan perkiraan, yang ternyata berkesan. Dan itu sebenarnya menjadi dorongan untuk menyambung semula kerja dengan pembelajaran mendalam. Ini adalah perkara yang melatih satu lapisan pengesan ciri pada satu masa. Dan itu adalah bentuk berkesan mesin penyekat Boltzmann. Oleh itu, dia melakukan pembelajaran terbalik seperti ini. Tetapi bukannya tertidur, dia hanya dapat berkhayal sedikit demi sedikit setelah setiap tanda data.

Baiklah, jadi android sebenarnya bermimpi tentang domba elektrik. Mari beralih ke teori dua, tiga dan empat

Teori dua dipanggil Algoritma Tidur Tidur. Anda perlu melatih model generatif. Dan anda mempunyai idea untuk membuat model yang dapat menghasilkan data, mempunyai lapisan pengesan ciri, dan mengaktifkan lapisan yang lebih tinggi dan lebih rendah, dan seterusnya, hingga pengaktifan piksel - membuat gambar, pada dasarnya. Tetapi anda ingin mengajarnya sesuatu yang lain. Anda mahu mengenali data.

Oleh itu, anda mesti membuat algoritma dengan dua fasa. Pada fasa kebangkitan, data masuk, dia berusaha mengenalinya, dan bukannya mempelajari hubungan yang dia gunakan untuk pengiktirafan, dia mempelajari sambungan generatif. Data masuk, saya mengaktifkan unit tersembunyi. Dan kemudian saya cuba mengajar unit tersembunyi ini untuk memulihkan data ini. Dia belajar membina semula di setiap lapisan. Tetapi persoalannya, bagaimana mempelajari hubungan langsung? Oleh itu, idenya adalah bahawa jika anda mengetahui sambungan langsung, anda dapat mempelajari sambungan terbalik, kerana anda dapat belajar membuat rekayasa terbalik.

Sekarang juga ternyata bahawa jika anda menggunakan gabungan terbalik, anda juga dapat belajar bergabung langsung, kerana anda hanya boleh bermula dari atas dan menghasilkan beberapa data. Oleh kerana anda menjana data, anda mengetahui keadaan semua lapisan tersembunyi dan dapat mengkaji sambungan langsung untuk memulihkan keadaan tersebut. Dan inilah yang berlaku: jika anda memulakan dengan sambungan rawak dan cuba menggunakan kedua-dua fasa itu secara bergantian, anda akan berjaya. Agar ia berfungsi dengan baik, anda harus mencuba pelbagai pilihan, tetapi ia akan berjaya.

Baiklah, jadi bagaimana dengan dua teori yang lain? Kami hanya tinggal lapan minit lagi, saya rasa saya tidak akan mempunyai masa untuk bertanya mengenai semuanya

Beri saya satu jam lagi dan saya akan memberitahu anda mengenai dua yang lain.

Mari kita bincangkan apa yang akan datang. Di manakah tajuk kajian anda? Masalah apa yang anda cuba selesaikan sekarang?

Pada akhirnya, anda harus mengusahakan sesuatu yang belum selesai. Saya rasa saya mungkin sedang mengerjakan sesuatu yang tidak akan pernah saya selesaikan - disebut kapsul, teori tentang bagaimana persepsi visual dilakukan menggunakan pembinaan semula dan bagaimana maklumat diarahkan ke tempat yang betul. Dua faktor pendorong utama adalah bahawa dalam rangkaian neural standard, maklumat, aktiviti di lapisan hanya secara automatik dihantar ke suatu tempat, dan anda tidak membuat keputusan mengenai tempat untuk menghantarnya. Idea di sebalik kapsul adalah membuat keputusan mengenai tempat menghantar maklumat.

Sekarang saya mula menggunakan kapsul, orang yang sangat pintar di Google telah mencipta transformer yang melakukan perkara yang sama. Mereka memutuskan di mana untuk menghantar maklumat, dan itu adalah kemenangan besar.

Kami akan kembali tahun depan untuk membincangkan teori impian nombor tiga dan nombor empat.

Ilya Khel