Rangkaian Saraf Diajar Untuk Menyalin Suara Manusia Dengan Hampir Sempurna - Pandangan Alternatif

Isi kandungan:

Rangkaian Saraf Diajar Untuk Menyalin Suara Manusia Dengan Hampir Sempurna - Pandangan Alternatif
Rangkaian Saraf Diajar Untuk Menyalin Suara Manusia Dengan Hampir Sempurna - Pandangan Alternatif

Video: Rangkaian Saraf Diajar Untuk Menyalin Suara Manusia Dengan Hampir Sempurna - Pandangan Alternatif

Video: Rangkaian Saraf Diajar Untuk Menyalin Suara Manusia Dengan Hampir Sempurna - Pandangan Alternatif
Video: Cara Merubah Teks Tulisan Ke Suara Manusia | Lembut Seperti Asli 2024, Mac
Anonim

Tahun lalu, syarikat teknologi kecerdasan buatan DeepMind berkongsi maklumat mengenai projek barunya WaveNet, sebuah rangkaian saraf pembelajaran mendalam yang digunakan untuk mensintesis ucapan manusia yang realistik. Baru-baru ini, versi teknologi ini yang lebih baik dilancarkan, yang akan digunakan sebagai asas pembantu Google pembantu mudah alih digital.

Sistem sintesis suara (juga dikenali sebagai fungsi teks-ke-ucapan, TTS) biasanya dibina berdasarkan salah satu daripada dua kaedah asas. Kaedah gabungan (atau penyusunan) melibatkan pembinaan frasa dengan mengumpulkan kepingan individu perkataan yang dirakam dan bahagian yang sebelumnya direkodkan dengan penglibatan pelakon suara. Kelemahan utama kaedah ini adalah keperluan untuk sentiasa mengganti perpustakaan suara setiap kali kemas kini atau perubahan dilakukan.

Kaedah lain disebut parametrik TTS, dan ciri-cirinya adalah penggunaan set parameter yang mana komputer menghasilkan frasa yang diinginkan. Kelemahan kaedah ini adalah bahawa selalunya hasilnya menampakkan dirinya dalam bentuk suara robotik yang tidak realistik atau disebut.

WaveNet, sebaliknya, menghasilkan gelombang bunyi dari awal menggunakan sistem rangkaian saraf konvolusional di mana bunyi dihasilkan dalam beberapa lapisan. Pertama, untuk melatih platform untuk mensintesis pertuturan "langsung", ia "diberi makan" sejumlah besar sampel, sambil memperhatikan isyarat suara yang kedengaran realistik dan mana yang tidak. Ini memberikan kemampuan synthesizer suara untuk menghasilkan semula intonasi naturalistik dan juga perincian seperti memukul bibir. Bergantung pada sampel ucapan yang dijalankan melalui sistem, ini memungkinkan untuk mengembangkan "aksen" yang unik, yang dalam jangka panjang dapat digunakan untuk membuat banyak suara yang berbeza.

Tajam pada lidah

Mungkin batasan terbesar sistem WaveNet adalah bahawa ia memerlukan sejumlah besar kuasa pengkomputeran untuk dijalankan, dan walaupun keadaan ini dipenuhi, ia tidak berbeza dalam hal kelajuan. Sebagai contoh, memerlukan sekitar 1 saat untuk menghasilkan 0,02 saat suara.

Setelah setahun bekerja, jurutera DeepMind masih menemui cara untuk memperbaiki dan mengoptimumkan sistem sehingga kini mampu menghasilkan bunyi mentah satu saat hanya dalam 50 milisaat, yang 1000 kali lebih cepat daripada kemampuan asalnya. Lebih-lebih lagi, pakar berjaya meningkatkan kadar pensampelan audio dari 8-bit menjadi 16-bit, yang memberi kesan positif pada ujian yang melibatkan pendengar. Kejayaan ini telah membuka jalan bagi WaveNet untuk berintegrasi ke dalam produk pengguna seperti Google Assistant.

Video promosi:

Pada masa ini WaveNet dapat digunakan untuk menghasilkan suara Inggeris dan Jepun melalui Google Assistant dan semua platform yang menggunakan pembantu digital ini. Oleh kerana sistem dapat membuat jenis suara khas, bergantung pada kumpulan sampel apa yang diberikan kepadanya untuk latihan, dalam masa terdekat Google kemungkinan besar akan melaksanakan sokongan untuk mensintesis ucapan yang realistik di WaveNet dalam bahasa lain, termasuk mempertimbangkannya dialek tempatan.

Antaramuka pertuturan menjadi semakin biasa di pelbagai platform, tetapi sifat suaranya yang tidak wajar menonjolkan banyak pengguna berpotensi. Usaha DeepMind untuk meningkatkan teknologi ini tentunya akan menyumbang kepada penerapan sistem suara seperti itu secara lebih luas, serta meningkatkan pengalaman pengguna dari penggunaannya.

Contoh ucapan Inggeris dan Jepun yang disintesis menggunakan rangkaian saraf WaveNet boleh didapati dengan mengikuti pautan ini.

Nikolay Khizhnyak

Disyorkan: