Para Saintis Telah Mencipta AI Pembelajaran Kendiri Yang Mampu Memainkan Semua Permainan - Pandangan Alternatif

Isi kandungan:

Para Saintis Telah Mencipta AI Pembelajaran Kendiri Yang Mampu Memainkan Semua Permainan - Pandangan Alternatif
Para Saintis Telah Mencipta AI Pembelajaran Kendiri Yang Mampu Memainkan Semua Permainan - Pandangan Alternatif

Video: Para Saintis Telah Mencipta AI Pembelajaran Kendiri Yang Mampu Memainkan Semua Permainan - Pandangan Alternatif

Video: Para Saintis Telah Mencipta AI Pembelajaran Kendiri Yang Mampu Memainkan Semua Permainan - Pandangan Alternatif
Video: #2. KECERDASAN BUATAN : MASALAH, RUANG KEADAAN DAN PENCARIAN (PART 1) 2024, April
Anonim

Pembangun sistem kecerdasan buatan pembelajaran revolusioner AlphaGo Zero telah mengumumkan penciptaan versi baru mesin ini, yang secara bebas dapat belajar bermain permainan papan dan mengalahkan seseorang. Huraiannya dikemukakan dalam jurnal Science.

Kedalaman Fikiran

Sistem AI AlphaGo dikembangkan oleh David Silver dan rakan-rakannya pada akhir tahun 2014, dan kerjanya "diuji" pada juara Eropah, Fan Hui, yang kalah dalam lima perlawanan. Pada bulan Mac 2016, AlphaGo menewaskan Go World Champion Lee Sedol dalam siri lima perlawanan, hanya satu yang berakhir dengan kemenangan manusia.

Silver dan rakan-rakannya dapat mencapai kejayaan ini dengan membina AI mereka berdasarkan bukan satu, tetapi dua rangkaian saraf sekaligus - algoritma khas yang meniru kerja rantai neuron di otak manusia. Salah satunya bertanggungjawab untuk menilai kedudukan semasa di papan, dan yang kedua menggunakan hasil analisis yang disediakan oleh rangkaian pertama untuk memilih langkah selanjutnya.

Langkah logik seterusnya dalam pengembangan AlphaGo adalah penghapusan kelemahan utama semua rangkaian saraf yang ada dan sistem kecerdasan buatan - keperluan untuk mengajar mereka apa yang harus mereka lakukan menggunakan arkib data besar yang diproses secara manual oleh seseorang, atau dengan penyertaan langsung seseorang, seperti yang berlaku pada peringkat pertama pengembangan AlphaGo.

Silver dan pasukannya menyelesaikan masalah ini dengan membuat rangkaian saraf baru yang asasnya berdasarkan algoritma pembelajaran peneguhan. Rangkaian neural ini, tidak seperti pendahulunya yang luar biasa, yang pada awalnya dilatih dalam permainan dengan sukarelawan dan mempunyai beberapa strategi permainan primitif terbina dalam, memulakan kerjanya sebagai pemula mutlak dengan asas pengetahuan sifar.

Dengan kata lain, dia hanya mengetahui peraturan permainan Go, syarat awal dan syarat kemenangan, dan kemudian komputer secara bebas belajar memainkan strategi Cina kuno ini, bermain dengan dirinya sendiri dan bertindak dengan percubaan dan kesalahan. Satu-satunya batasan dalam kerjanya adalah masa maksimum untuk memikirkan langkah itu - masa kira-kira 0.4 saat.

Video promosi:

Setelah setiap permainan seperti itu, sistem AI menganalisis semua gerakannya dan mengingat yang membawa salah satu "bahagiannya" lebih dekat ke kemenangan, dan memasuki semacam "senarai hitam" langkah-langkah yang terus-menerus kalah. Dengan menggunakan data ini, rangkaian neural dibina semula, secara beransur-ansur mencapai tahap yang dicapai versi pertama AlphaGo sebelum siri permainan dengan Lee Sedol.

Peralihan ke algoritma pembelajaran kendiri bukan sahaja memungkinkan AlphaGo Zero mengatasi pendahulunya dan mengalahkannya 100-0, tetapi juga meningkatkan banyak aspek lain dari kerjanya. Khususnya, proses latihannya hanya memakan waktu tiga hari dan sekitar lima juta permainan, yang merupakan urutan besarnya kurang daripada permintaan AI versi pertama.

Jalan menuju kecemerlangan

Penyelesaian eksperimen yang berjaya dengan AlphaGo Zero membawa Silver dan pasukannya untuk mempertimbangkan sama ada rangkaian saraf serupa dapat digunakan untuk memenangi mahkota juara dalam jenis strategi dan permainan papan lain.

Untuk melakukan ini, para saintis membina elemen baru yang lain ke dalam algoritma AlphaGo Zero - heuristik untuk mencari penyelesaian secara rawak, dan juga kod yang mempertimbangkan keberadaan keputusan dalam beberapa permainan. Di samping itu, versi baru alpha terus meningkatkan strukturnya, daripada diperbaharui secara berperingkat seperti pendahulunya.

Perubahan yang agak sederhana ini, seperti yang ditunjukkan oleh eksperimen selanjutnya, secara signifikan meningkatkan kecepatan pembelajaran kendiri sistem kecerdasan buatan ini dan mengubahnya menjadi mesin universal yang mampu memainkan semua jenis strategi meja.

Para saintis telah menguji kerjanya pada tiga jenis permainan - go, catur biasa dan jenis Jepun mereka, shogi. Dalam ketiga-tiga kes tersebut, anak otak baru Silver mencapai tahap grandmaster dalam kurang dari satu juta permainan, mencapai hampir selektif manusia dalam memilih kemungkinan gerakan hanya dalam 9-12 jam latihan untuk catur, dan 13 hari untuk pergi.

Sebelumnya, dia mengalahkan program komputer paling canggih yang memainkan permainan ini - algoritma Stockfish menyerah pada jam keempat latihan AlphaZero, sementara Elmo, juara semasa di shogi, hanya bertahan selama dua jam. Akhirnya, versi pertama AlphaGo mulai menyerlah kepada "cucunya" sekitar 30 jam latihannya.

"Mangsa" AlphaZero seterusnya, seperti yang dicatat oleh saintis, mungkin permainan komputer "nyata", seperti Starcraft II dan Dota 2. Mengambil kejuaraan dalam disiplin esports seperti ini, pada pendapat mereka, akan membuka jalan bagi pembelajaran AI secara automatik untuk memasuki bidang sains dan budaya yang kurang formal dan teknologi.

Disyorkan: