Kenalin nih VALL-E | AI Text To Speech Yang 'Manusiawi'

Beranda
Komunitas
News
Sains & Teknologi
Kenalin nih VALL-E | AI Text To Speech Yang 'Manusiawi'

bang.toyip

13-01-2023 06:12

Kenalin nih VALL-E | AI Text To Speech Yang 'Manusiawi'

Microsoft baru-baru ini merilis VALL-E, pendekatan model bahasa baru untuk model Text-To-Speech (TTS) yang menggunakan kode codec audio sebagai representasi perantara. VALL-E menunjukkan kemampuan pembelajaran dalam konteks skenario zero-shot setelah dilatih sebelumnya pada 60.000 jam data lisan bahasa Inggris. Singkatnya, VALL-E adalah DALL-E dalam bidang pembuatan (sintesis) suara digital, yang 'sangat manusiawi'.

Hanya dengan rekaman selama tiga detik dari input prompt akustik, VALL-E dapat membuat ucapan pribadi berkualitas tinggi. Ini mendukung pembelajaran kontekstual dan teknik TTS zero-shot berbasis prompt tanpa rekayasa struktural tambahan, fitur akustik pra-desain, dan fine-tuning. VALL-E dapat menghasilkan berbagai keluaran dengan teks masukan yang sama dengan tetap mempertahankan emosi pembicara dan prompt akustik. VALL-E dapat mensintesis ucapan natural dengan akurasi tinggi.

Menarik untuk dicatat bahwa orang yang kehilangan suaranya dapat 'berbicara' lagi melalui metode text-to-speech ini jika sebelumnya mereka memiliki rekaman suara sendiri. Dua tahun lalu, seorang Profesor Universitas Stanford, Maneesh Agarwala, juga mengatakan bahwa mereka sedang mengerjakan sesuatu yang serupa, di mana mereka telah merencanakan untuk merekam suara pasien sebelum operasi dan kemudian menggunakan rekaman pra-operasi itu untuk mengubah suara elektrolaring mereka kembali menjadi suara pra-operasi mereka.

Skema metode VALL-E

Adapun beberapa fitur yang dimiliki VALL-E :

1. Sintesis Yang Dapat Dipersonalisasi:Keluaran VALL-E bervariasi untuk teks masukan yang sama karena menghasilkan token diskrit menggunakan metode berbasis pengambilan sampel. Jadi, dengan menggunakan berbagai seed acak, ia dapat mensintesis berbagai sampel ucapan yang dipersonalisasi.

2. Lingkungan Akustik Yang Terjaga: Sambil mempertahankan lingkungan akustik prompt speaker, VALL-E dapat menghasilkan ucapan yang dipersonalisasi. VALL-E dilatih pada kumpulan data berskala besar dengan lebih banyak variabel akustik daripada data yang digunakan oleh baseline. Sampel dari dataset Fisher digunakan untuk membuat audio dan transkripsi.

3. Konsistensi emosi pembicara: Berdasarkan Basis Data Suara Emosional untuk contoh perintah audio, VALL-E dapat membuat ucapan yang dipersonalisasi sambil mempertahankan nada emosional perintah pembicara. Pidato berkorelasi dengan transkripsi dan label emosi dalam kumpulan data TTS emosional yang diawasi, begitulah cara pendekatan tradisional melatih model. Dalam pengaturan zero-shot, VALL-E dapat mempertahankan emosi dalam prompt.

Kode untuk VALL-E saat ini tidak (belum) tersedia untuk umum dan hanya beberapa file audio sampel telah dipublikasikan yang diproduksi menggunakan alat tersebut. Juga belum ada konfirmasi kapan atau apakah Microsoft berencana membuat VALL-E tersedia sebagai akses publik atau alat komersial.

Joshua Kaiser, CEO perusahaan AI Tovie.ai, mengatakan bahwa model tersebut telah dirancang sedemikian rupa sehingga memungkinkan pengguna melakukan lebih banyak hal dengan lebih sedikit data, yang sangat penting bagi organisasi yang mencoba membuat sintesis ucapan. yang tidak memiliki cukup data untuk kinerja yang lebih baik. “Kami pikir ini akan menguntungkan banyak industri – mulai dari retail hingga fintech hingga game – yang sudah menggunakan antarmuka suara, dengan membuat seluruh proses lebih mudah diakses,” katanya.

Manfaat terbesar dari VALL-E adalah potensi skalabilitasnya, kata Arun Chandrasekaran, analis VP terkemuka di Gartner. Ini bisa efektif dalam skenario "zero-shot" atau "few-shot" di mana sedikit data pelatihan khusus domain tersedia. “Selain itu, jika model ini dapat dihadirkan sebagai layanan cloud, mereka dapat mengurangi waktu/upaya yang diperlukan untuk mengaktifkan dan menjalankan model, berbeda dengan pendekatan klasik,” kata Chandrasekaran.

Ada beberapa kasus penggunaan dunia nyata untuk teknologi ini, Chandrasekaran menjelaskan, termasuk “pengeditan ucapan (di mana kata atau kalimat tertentu dapat diperbaiki), mengontekstualisasikan suara untuk berbagai skenario, pembelajaran virtual interaktif, dan otomatisasi layanan pelanggan.”

Hal tersebut memang memiliki risiko, termasuk memalsukan identifikasi suara atau meniru identitas pembicara dan selebriti tertentu, yang dapat menyebabkan penyebaran informasi yang salah dengan lebih cepat. Aspek ini mungkin menjadi alasan mengapa Microsoft lambat dalam menerbitkan kode di balik teknologi atau merilis API, seperti yang dilakukan OpenAI dan lainnya dengan alat penghasil teks dan gambar seperti GPT-3 dan DALL-E 2. Ini akan membuatnya lebih mudah untuk dibawa serangan phishing menggunakan suara asli, atau menyebarkan berita palsu secara online, mungkin melalui video YouTube atau podcast.

Risiko dari penyalahgunaan VALL-E

Kejahatan seperti spoofing memungkinkan penjahat dunia maya untuk mendapatkan akses ke bank atau sistem aman yang menggunakan pengenal suara sebagai kata sandi, meskipun banyak dari sistem ini memiliki mekanisme untuk mendeteksi apakah itu suara langsung atau rekaman. Itu juga dapat digunakan dalam penipuan phishing untuk mengambil sampel singkat suara dari panggilan telepon, kemudian menggunakan sampel itu untuk membuat model suara baru yang dapat mempermudah meyakinkan seseorang untuk berpisah dengan kata sandi, mungkin dengan memalsukan kata sandi. manajer keuangan di sebuah perusahaan.

Muhammad Yahya Patel, insinyur keamanan di Check Point Software mengatakan kemajuan teknologi baru seperti VALL-E tidak perlu ditakuti, tetapi kita tetap harus mendekati sistem seperti ini dengan hati-hati. “Meskipun memiliki kelebihan, model text-to-speech VALL-E yang baru dapat memiliki beberapa implikasi yang mengkhawatirkan untuk keamanan siber karena menjadi lebih matang dan terintegrasi ke dalam kehidupan kita sehari-hari.

“Jika kita telah mempelajari sesuatu dari tahun lalu, penjahat dunia maya akan mengeksploitasi rute apa pun untuk mengelabui korban yang tidak curiga agar menyerahkan kata sandi atau detail bank mereka misalnya. Vishing [panggilan telepon scam] adalah metode populer yang digunakan oleh pelaku ancaman, dan untuk alasan yang baik mengingat tingkat keberhasilan hal tersebut.”

Dia mengatakan teknologi baru ini dapat memberikan kesempatan bagi penjahat dunia maya untuk meningkatkan permainan mereka dan masuk ke dalam elemen pribadi, termasuk memungkinkan mereka meniru suara orang yang dicintai. “Ini akan mempersulit siapa pun untuk membedakan antara permintaan seseorang yang mereka percayai dan permintaan dari penjahat dunia maya yang jahat."

“Sama halnya, saat kita bergerak menuju masa di mana banyak bank sekarang menggunakan autentikasi suara untuk mengesahkan transaksi, mudah untuk melihat bagaimana pelaku ancaman dapat menargetkan individu dan mendapatkan akses ke akun dengan usaha yang sangat minim. Penting agar peluang bagi peretas untuk memanfaatkan teknologi baru ini dipahami dan dengan demikian, tindakan pencegahan yang diperlukan diambil sebelum terlambat.”

Akhir Kata

Perkembangan teknologi AI memang berkembang sangat pesat akhir-akhir ini (dalam beberapa bulan terakhir). Kita (manusia) seperti dikejutkan dengan munculnya produk-produk IT baru yang berbasiskan AI. Pada satu sisi memang teknologi tersebut akan dapat sangat membantu, namun selayaknya sebuat 'tools', tentu pemanfaatannya akan bergantung pada intensi penggunanya. Resiko terhadap tindak kejahatan juga akan lebih besar, bila dipergunakan secara tidak bertanggung jawab. Di sisi lain, dengan semakin banyaknya layanan AI yang bermunculan, lagi-lagi (pekerjaan) manusia akan terancam, dalam kasus ini adalah pekerjaan yang berhubungan dengan suara, seperti customer service, telesales/telemarketing, dan sebagainya.

Bila 'robot' sudah semakin manusiawi, akankah mereka juga akan mengambil sisi-sisi buruk dari manusia? Sudah siapkah kita bersaing dengan kecerdasan buatan ini?

Sumber 1
Sumber 2
Sumber 3