Rangkaian Saraf Mendengar Suara Orang Dan Menarik Potret Mereka - Pandangan Alternatif

Isi kandungan:

Rangkaian Saraf Mendengar Suara Orang Dan Menarik Potret Mereka - Pandangan Alternatif
Rangkaian Saraf Mendengar Suara Orang Dan Menarik Potret Mereka - Pandangan Alternatif

Video: Rangkaian Saraf Mendengar Suara Orang Dan Menarik Potret Mereka - Pandangan Alternatif

Video: Rangkaian Saraf Mendengar Suara Orang Dan Menarik Potret Mereka - Pandangan Alternatif
Video: Motivasi Hidup Sukses - CARA MENGGUNAKAN KEKUATAN DAN KEAJAIBAN SUARA HATI 2024, Mungkin
Anonim

Baru-baru ini, rangkaian saraf mengejutkan dengan kemahiran mereka - bolehkah anda percaya sepuluh tahun yang lalu bahawa komputer dapat "menghidupkan" potret Dostoevsky dan Marilyn Monroe? Bersiaplah untuk kagum lebih jauh, kerana para penyelidik di MIT telah membuat rangkaian saraf Speech2Face yang mampu menarik potret orang hanya dengan mendengar suara mereka. Teknologi ini jauh dari ideal, tetapi kemampuannya untuk menentukan jantina, kewarganegaraan dan usia seseorang sangat mengagumkan.

Untuk melatih rangkaian saraf, kit AVSpeech digunakan dengan sejuta video pendek dengan ribuan orang yang bercakap. Trek video dan audio dipisahkan, sehingga sistem dapat mempelajari setiap jenis bahan dengan seberapa detail yang mungkin. Pada peringkat pertama kerja, algoritma VGG-Face mengkaji fragmen video dan membuat potret orang-orang di dalamnya dengan ekspresi wajah penuh dan neutral. Bahagian lain dari algoritma mengkaji spektrogram suara dan menerapkan perubahan tambahan pada potret yang dihasilkan - hasilnya, diperoleh gambaran potret setiap orang yang bercakap.

Rangkaian neural untuk membuat potret berasaskan suara sudah menjadi kenyataan

Sekiranya anda membandingkan wajah seseorang dengan video dan pilihan yang dicadangkan oleh algoritma, anda boleh menemui banyak perbezaan. Walau bagaimanapun, para penyelidik memberi jaminan bahawa mereka pada awalnya tidak mahu membuat potret yang paling serupa dengan seseorang - banyak faktor mempengaruhi nada dan intonasi suara manusia, sehingga mereka tidak akan mendapat hasil yang ideal. Tetapi rangkaian saraf melakukan tugas yang sangat baik bagi apa yang penting bagi penyelidik, iaitu, penentuan jantina, kewarganegaraan dan usia yang tepat.

Image
Image

Penulis karya menyatakan bahawa pada masa ini algoritma lemah dalam menentukan usia, tetapi mereka dapat meningkatkan ketepatan. Juga didapati bahawa algoritma membuat wajah Eropah dan Asia dengan lebih baik, tetapi ini hanya disebabkan oleh fakta bahawa video latihan mempunyai jumlah wajah yang berbeza bangsa.

Video promosi:

Mengapa anda memerlukan rangkaian saraf?

Bagaimana teknologi ini berguna pada masa hadapan? Sebagai alternatif, dengan bantuannya, suatu hari perkhidmatan mungkin dibuat di mana avatar maya pengguna dibuat secara automatik, berdasarkan suaranya. Kajian baru ini juga mempunyai faedah saintifik yang besar - dengan mengkaji data, saintis dapat mengetahui hubungan antara penampilan seseorang dan suaranya. Anda boleh mendengar suara dan melihat potret yang dibuat berdasarkan laman web projek.

Ramis Ganiev

Disyorkan: