Rangkaian Saraf Diajar Untuk "menghidupkan" Potret Berdasarkan Hanya Satu Gambar Statik - Pandangan Alternatif

Rangkaian Saraf Diajar Untuk "menghidupkan" Potret Berdasarkan Hanya Satu Gambar Statik - Pandangan Alternatif
Rangkaian Saraf Diajar Untuk "menghidupkan" Potret Berdasarkan Hanya Satu Gambar Statik - Pandangan Alternatif

Video: Rangkaian Saraf Diajar Untuk "menghidupkan" Potret Berdasarkan Hanya Satu Gambar Statik - Pandangan Alternatif

Video: Rangkaian Saraf Diajar Untuk
Video: 5 причин стать 2D аниматором игр | Как создать анимацию для игры? 2024, Mungkin
Anonim

Pakar Rusia dari Samsung AI Center-Moscow Center for Artificial Intelligence, bekerjasama dengan jurutera dari Institut Sains dan Teknologi Skolkovo, telah mengembangkan sistem yang mampu membuat gambar animasi wajah manusia yang realistik berdasarkan hanya beberapa kerangka manusia statik. Biasanya, dalam hal ini, penggunaan gambar pangkalan data yang besar diperlukan, namun, dalam contoh yang dikemukakan oleh para pembangun, sistem ini dilatih untuk membuat gambar animasi wajah manusia dari hanya lapan bingkai statis, dan dalam beberapa kes satu itu cukup. Untuk maklumat lebih lanjut mengenai pembangunan, lihat artikel yang diterbitkan di repositori dalam talian ArXiv.org.

Image
Image

Sebagai peraturan, agak sukar untuk menghasilkan semula modul fotorealistik yang diperibadikan wajah manusia kerana kerumitan fotometrik, geometri dan kinematik yang tinggi dalam menghasilkan semula kepala manusia. Ini dijelaskan bukan hanya dengan kerumitan pemodelan wajah secara keseluruhan (untuk ini terdapat sebilangan besar pendekatan pemodelan), tetapi juga oleh kerumitan pemodelan ciri-ciri tertentu: rongga mulut, rambut, dan sebagainya. Faktor yang merumitkan kedua adalah kecenderungan kita untuk menangkap kekurangan kecil dalam model kepala manusia yang sudah siap. Toleransi yang rendah terhadap kesalahan pemodelan ini menjelaskan kelaziman avatar non-fotorealistik semasa yang digunakan dalam telekonferensi.

Menurut pengarang, sistem yang disebut Fewshot learning ini mampu mencipta model yang sangat realistik mengenai kepala orang yang bercakap dan bahkan lukisan potret. Algoritma mensintesis gambar kepala orang yang sama dengan garis rujukan wajah yang diambil dari serpihan video yang lain, atau menggunakan titik rujukan wajah orang lain. Sebagai sumber bahan untuk melatih sistem, para pembangun menggunakan pangkalan data yang luas untuk gambar video selebriti. Untuk mendapatkan kepala bercakap yang paling tepat, sistem perlu menggunakan lebih daripada 32 gambar.

Untuk membuat gambar wajah animasi yang lebih realistik, para pembangun menggunakan perkembangan sebelumnya dalam pemodelan lawan generatif (GAN, di mana rangkaian saraf memikirkan perincian gambar, sebenarnya, menjadi artis), serta pendekatan meta-pembelajaran mesin, di mana setiap elemen sistem dilatih dan dirancang untuk menyelesaikan beberapa tugas tertentu.

Skema meta-pembelajaran
Skema meta-pembelajaran

Skema meta-pembelajaran.

Image
Image
Image
Image

Video promosi:

Tiga rangkaian saraf digunakan untuk memproses gambar statik kepala orang dan mengubahnya menjadi animasi: Embedder (network implementasi), Generator (generasi generasi) dan Discriminator (diskriminator network). Yang pertama membahagikan gambar kepala (dengan tanda tempat wajah hampir) ke vektor penyisipan, yang mengandungi maklumat yang tidak bergantung pada pose, rangkaian kedua menggunakan tanda muka wajah yang diperoleh oleh rangkaian penyisipan dan menghasilkan data baru berdasarkannya melalui sekumpulan lapisan konvolusional yang memberikan ketahanan terhadap perubahan skala, perpindahan, selekoh, perubahan sudut dan penyelewengan lain dari gambar wajah asal. Diskriminasi rangkaian digunakan untuk menilai kualiti dan keaslian dua rangkaian lain. Hasilnya, sistem ini mengubah mercu tanda wajah seseorang menjadi foto peribadi yang kelihatan realistik.

Image
Image
Image
Image

Pembangun menekankan bahawa sistem mereka dapat menginisialisasi parameter rangkaian penjana dan rangkaian diskriminasi secara individu untuk setiap orang dalam gambar, sehingga proses pembelajaran dapat didasarkan pada hanya beberapa gambar, yang meningkatkan kelajuannya, walaupun perlu memilih puluhan juta parameter.

Nikolay Khizhnyak

Disyorkan: