Nari Labs, laboratorium riset dari Korea Selatan, menarik perhatian setelah meluncurkan model kecerdasan buatan (AI) Dia-1 6B yang mampu menghasilkan suara dengan ekspresi emosional mirip manusia, meskipun hanya menggunakan 1,6 miliar parameter.
Model ini dikatakan mampu menirukan suara seperti tertawa, batuk, hingga berteriak ketakutan secara sangat meyakinkan hanya dari perintah teks. Menariknya, model ini dapat dijalankan secara real-time dengan hanya satu GPU berdaya rendah dan bersifat open-source.
“Kami awalnya hanya ingin menciptakan TTS (text-to-speech) yang keren seperti ElevenLabs dan NotebookLM. Tapi kami berhasil lebih dari yang diperkirakan,” ujar Founder Nari Labs, Toby Kim, di akun X pribadinya pada Selasa (22/04).
Baca Juga : China Bidik Kemandirian AI untuk Saingi Dominasi Teknologi AS
Pencapaian ini merupakan gebrakan besar bagi model AI terbaru, terutama karena, menurut CEO RiseAngle Kaveh Vahdat, AI biasanya kesulitan menirukan ekspresi emosional karena data latihannya tidak mendalam dalam menampilkan ekspresi yang kompleks.
“Ekspresi emosional bukan hanya soal nada atau kekuatan suara, tetapi juga ritme, ketegangan, dan keraguan. Mesin sering kesulitan memahami hal ini karena data yang digunakan tidak memberikan label yang cukup jelas,” kata Vahdat.
Sumber Gambar: Decrypt