Bilakah Kecerdasan Buatan Akan Mula Menyuarakan Siri Ini - Pandangan Alternatif

Isi kandungan:

Bilakah Kecerdasan Buatan Akan Mula Menyuarakan Siri Ini - Pandangan Alternatif
Bilakah Kecerdasan Buatan Akan Mula Menyuarakan Siri Ini - Pandangan Alternatif
Anonim

Penerbit Rusia sudah bereksperimen dengan rakaman mesin buku audio; pada masa akan datang, kecerdasan buatan dapat dipertanggungjawabkan untuk menerjemahkan siri dan menjuluki mereka dengan suara pelakon kegemaran mereka. Mengenai ciri teknologi tersebut dan berapa lama masa yang diperlukan untuk membuatnya.

Ucapan lisan menjadi bertulis

Di YouTube, sari kata automatik untuk video dibuat dengan perisian pengecaman suara dan terjemahan ucapan-ke-teks. Ia berdasarkan rangkaian neural pembelajaran kendiri. Pilihan ini berumur lebih dari sepuluh tahun, tetapi hasilnya masih jauh dari ideal. Lebih kerap daripada tidak, anda hanya dapat mengetahui makna umum dari apa yang diperkatakan. Apakah kesukaran itu?

Katakanlah, menjelaskan Andrey Filchenkov, ketua makmal Pembelajaran Mesin di Universiti ITMO, bahawa kami sedang membina algoritma untuk pengecaman pertuturan. Ini memerlukan latihan rangkaian saraf pada susunan data yang besar.

Ia memerlukan ratusan, ribuan jam rakaman ucapan dan perbandingannya yang betul dengan teks, termasuk menandakan permulaan dan akhir frasa, percakapan yang berubah-ubah, dan sebagainya. Ini dipanggil kandang. Semakin besar, semakin baik latihan rangkaian saraf. Korporat yang sangat besar telah dibuat untuk bahasa Inggeris, jadi pengiktirafan jauh lebih baik. Tetapi untuk bahasa Rusia atau, katakanlah, bahasa Sepanyol, terdapat lebih sedikit data, dan untuk banyak bahasa lain tidak ada data sama sekali.

"Dan hasilnya sesuai," saintis menyimpulkan.

“Selain itu, kami menilai makna kata, frasa dalam filem yang bukan hanya dengan suara, intonasi pelakon dan ekspresi wajahnya juga penting. Bagaimana anda mentafsirkan ini? - tambah Sergey Aksenov, profesor bersekutu di Jabatan Teknologi Maklumat Universiti Politeknik Tomsk.

Video promosi:

"Bagaimana menangani ciri-ciri pertuturan yang lancar? Artikulasi kabur, sketsa, gangguan, jeda? Bagaimanapun, bergantung pada ini, maknanya berubah, seperti dalam "Anda tidak dapat dimaafkan". Bagaimana mengajar mesin untuk menentukan di mana pembesar suara mempunyai koma? Dan dalam puisi? " - menyenaraikan Marina Bolsunovskaya, ketua makmal "Sistem pemprosesan data penstriman industri" NTI SPbPU Center.

Projek yang paling berjaya, menurut pakar, berada di kawasan yang sempit. Sebagai contoh, sistem untuk mengenali ucapan profesional doktor menggunakan istilah perubatan, yang dikembangkan oleh kumpulan syarikat RTC, membantu doktor menyimpan sejarah perubatan.

“Di sini anda dapat menggariskan bidang subjek dengan jelas dan menonjolkan kata kunci dalam ucapan. Doktor secara khusus menekankan bahagian-bahagian tertentu dengan intonasi: aduan pesakit, diagnosis,”jelas Bolsunovskaya.

Masalah lain ditunjukkan oleh Mikhail Burtsev, ketua makmal sistem saraf dan pembelajaran mendalam di MIPT. Faktanya ialah sejauh ini mesin lebih berjaya mengenali teks ketika seseorang bercakap daripada beberapa, seperti dalam filem.

Terjemahan dengan konteks

Mari ambil video berbahasa Inggeris, sebagai contoh, potongan dari siri TV "Game of Thrones", dan hidupkan sari kata Rusia automatik. Apa yang kita lihat mungkin akan membuat kita ketawa.

Masih dari * Game of Thrones *
Masih dari * Game of Thrones *

Masih dari * Game of Thrones *.

Walau bagaimanapun, dalam terjemahan mesin, teknologi telah mencapai kejayaan yang luar biasa. Oleh itu, Terjemahan Google menerjemahkan teks dalam bahasa umum dengan cukup bertoleransi, selalunya hanya penyuntingan minimum yang diperlukan.

Kenyataannya adalah bahawa penterjemah rangkaian saraf juga dilatih menggunakan sebilangan besar data awal yang dilabel dengan betul - korpus selari, yang menunjukkan bagaimana setiap frasa dalam bahasa asal harus kelihatan seperti dalam bahasa Rusia.

Membangun bangunan seperti itu sangat sukar, mahal dan memakan masa, memerlukan bulan dan bertahun-tahun. Untuk melatih rangkaian saraf, kita memerlukan teks berukuran Perpustakaan Alexandria. Modelnya universal, tetapi banyak bergantung pada bahasa. Sekiranya anda memberikan banyak data, misalnya, di Avar, dan terjemahannya berkualiti tinggi, tetapi untuk Avar tidak ada jumlah data seperti itu,”kata Andrey Filchenkov.

"Terjemahan adalah produk yang berasingan yang berkaitan dengan yang asli, tetapi tidak sama dengannya," kata Ilya Mirin, pengarah Pusat Pengajian Ekonomi Digital di Far Federal Federal University. - Contoh biasa ialah terjemahan filem asing dari Dmitry Puchkov (Goblin) pada tahun 90-an. Hanya setelah kerjanya menjadi jelas apa yang berlaku di sana. Kami tidak dapat mengetahui apa-apa yang mencukupi dari versi VHS. Sebagai alternatif, cuba terjemahkan ke dalam bahasa yang anda tahu dengan baik, sesuatu dari The Master dan Margarita. Contohnya, "berjubah hitam dengan lapisan berdarah". Mesin tidak dapat melakukannya."

Rangkaian saraf belajar dengan baik dari banyak contoh biasa, tetapi filem penuh dengan makna dan konotasi yang kompleks, lelucon yang tidak dapat diakses oleh mesin - ia tidak dapat membezakannya.

Dalam setiap episod siri animasi Futurama ada referensi untuk pawagam klasik Amerika - Casablanca, Roman Holiday dan sebagainya. Pada saat-saat seperti itu, untuk menangkap dan mengemas kembali makna bagi mereka yang belum menonton filem-filem ini, penterjemah perlu menghasilkan analog yang dekat dari konteks Rusia. Terjemahan mesin yang salah boleh sangat tidak menggalakkan bagi penonton,”sambung Mirin.

Pada pendapatnya, kualiti terjemahan mesin hampir 80 peratus, selebihnya adalah kekhususan yang mesti ditambahkan secara manual, melibatkan pakar. "Dan jika 20-30 persen frasa memerlukan pembetulan manual, maka apa gunanya terjemahan mesin?" - kata penyelidik.

"Terjemahan adalah tahap yang paling bermasalah," kata Sergey Aksenov. - Semuanya bergantung pada semantik dan konteks. Alat yang ada boleh digunakan untuk terjemahan dan lakonan suara mesin, misalnya, kartun kanak-kanak dengan perbendaharaan kata yang ringkas. Tetapi dengan penafsiran unit-unit frasaologi, nama yang tepat, kata-kata yang merujuk penonton kepada beberapa realiti budaya, kesulitan timbul."

Dalam filem dan video, konteksnya selalu visual dan sering disertai dengan muzik dan suara. Kami membuat spekulasi dari gambar apa yang dibincangkan oleh pahlawan. Ucapan yang berubah menjadi teks tidak mengandungi maklumat ini, jadi terjemahannya sukar. Ini adalah keadaan bagi penterjemah yang bekerja dengan sari kata teks tanpa melihat filemnya. Mereka sering salah. Terjemahan mesin adalah cerita yang sama.

AI bersuara bersuara

Untuk menjuluki siri yang diterjemahkan ke dalam bahasa Rusia, anda memerlukan algoritma untuk menghasilkan pertuturan semula jadi dari teks - synthesizer. Mereka dibuat oleh banyak syarikat IT, termasuk Microsoft, Amazon, Yandex, dan mereka melakukannya dengan baik.

Menurut Andrey Filchenkov, beberapa tahun yang lalu satu minit menjuluki synthesizer ucapan memerlukan beberapa jam, sekarang kelajuan pemprosesan telah meningkat. Tugas sintesis pertuturan untuk beberapa bidang di mana dialog neutral diperlukan diselesaikan dengan baik.

Banyak yang sudah tentu menganggap perbualan dengan robot di telefon, pelaksanaan perintah dari navigator kereta, dialog dengan Alice dalam sebuah kereta Yandex. Drive. Tetapi untuk menjuluki siri TV, teknologi ini belum mencukupi.

Masalahnya ialah emosi dan bertindak. Kami telah belajar untuk menjadikan mesin itu suara manusia, tetapi sehingga kedengarannya sesuai dengan konteksnya dan menginspirasi kepercayaan masih jauh. Lakonan suara yang lemah dapat dengan mudah membunuh persepsi filem,”kata Filchenkov.

Menurut Mikhail Burtsev, sintesis pertuturan cukup nyata. Walau bagaimanapun, ini adalah intensif secara komputasi dan tidak dapat dilakukan dalam masa nyata dengan harga yang berpatutan.

Ada algoritma yang mensintesis ucapan yang serupa dengan pelakon tertentu. Ini adalah timbre, dan cara bercakap, dan banyak lagi. Jadi mana-mana pelakon asing sebenarnya akan berbahasa Rusia,”meramalkan Burtsev. Dia mengharapkan kemajuan yang ketara dalam beberapa tahun mendatang.

Sergei Aksenov memberi masa lima hingga sepuluh tahun untuk mengembangkan alat untuk menterjemahkan dan menjuluki karya kompleks dari bahasa yang paling biasa seperti bahasa Inggeris. Saintis memetik contoh Skype, yang beberapa tahun lalu menunjukkan kemungkinan mengadakan pelajaran dalam talian untuk pelajar sekolah yang bertutur dalam pelbagai bahasa. Tetapi walaupun begitu, sistem ini tidak akan ideal, ia harus terus belajar: memperoleh perbendaharaan kata, mengambil kira konteks budaya.

Disyorkan: