Model terjemahan Qwen3.5-LiveTranslate-Flash Alibaba tercapai 60 bahasa input dengan latensi hanya 2.8 detik.
Kamu pernah dengar soal terjemahan real-time? Nah, ini salah satu tantangan terberat di dunia AI. Kamu minta model menerjemahkan ucapan sebelum pembicara selesai kalimatnya. Setiap detik tambahan delay akan pecahkan ilusi komunikasi real-time.
Tim Qwen dari Alibaba terus mengembangkan solusinya ini. Model terbaru mereka, Qwen3.5-LiveTranslate-Flash, berhasil turunkan latensi menjadi 2.8 detik dan perluas cakupan bahasa input menjadi 60 bahasa.
Versi sebelumnya, Qwen3-LiveTranslate-Flash, hanya bisa handle 18 bahasa input dengan latensi sekitar 3 detik. Versi baru ini punya perbaangan signifikan - lebih dari 3x ekspansi dalam cakupan bahasa.
Advertisement
Slot in-article yang tampil setelah paragraf ketiga.
Untuk developer yang bangun produk multibahasa, ini mengurangi kebutuhan switch model per bahasa di sebagian besar skenario enterprise global. Latensi yang lebih rendah ini datang dari teknik pemrosesan yang mereka sebut 'reading units'.
Model ini tidak menunggu kalimat utuh tiba sebelum menghasilkan output. Model memutuskan kapan cukup makna yang terkumpul di satu segmen untuk komitmen terjemahan. Outputnya terus mengalir sambil pembicara masih bicara.
Yang menarik, sistem terjemahan biasanya hanya memperlakukan audio sebagai sinyal input. Ini cukup baik di kondisi studio yang bersih. Tapi pecah di ruang konferensi ramai, lantai pameran bising, atau di mana saja dengan suara tumpang tindih dan akustik buruk.
Qwen3.5-LiveTranslate-Flash pendekatan berbeda. Model menganalisis informasi visual paralel dengan audio - teks di layar, objek yang ditunjukkan, gerakan bibir, dan isyarat tangan.
Ketika kata ambigu secara fonetik atau kualitas audio buruk, konteks visual mengisi celah dan memperjelas keputusan terjemahan. Ini bukan fitur kecil. Di dunia nyata, kualitas audio jarang dijamin.
Punya channel visual berarti model menangani kenyataan berantai interpretasi live dengan lebih baik daripada sistem audio-only. Ini bagian yang paling menonjol di rilis Qwen3.5.
Sistem terjemahan standar mengganti suara pembicara dengan suara sintesis generik. Qwen3.5-LiveTranslate-Flash malah mengkloning karakteristik suara asli pembicara selama proses terjemahan.
Satu kalimat ucapan saja cukup untuk model melakukan adaptasi akustik ini. Untuk pendengar di ujung lain, output terjemahan terdengar seperti orang yang sama berbicara dalam bahasa target, bukan pengganti robotik.
Dalam konferensi interpretasi live, livestream multibahasa, atau panggilan pelanggan internasional, ini penting. Pengalaman terasa jauh lebih manusiawi daripada sistem saat ini.
Ada masalah persisten untuk model terjemahan di pengaturan profesional: kata benda khusus dan kosakata spesialisasi. Model menerjemakan sesi medis mungkin secara konsisten salah menerjemahkan nama obat.
Qwen3.5-LiveTranslate-Flash menangani ini dengan konfigurasi kata kunci dinamis di runtime. Developer bisa injeksi glosarium nama merek, istilah medis, terminologi hukum, atau kosakata teknis.
Model menangani istilah-istilah ini dengan jauh lebih andal. Ini tidak tersedia di sebagian besar API terjemahan tujuan umum dan menutup celah nyata untuk penerapan enterprise spesifik domain.
Pada benchmark FLEURS dan CoVoST2 - dua benchmark terkemuka untuk terjemahan ucapan multibahasa - Qwen3.5-LiveTranslate-Flash unggul atas alternatif komersial utama.
FLEURS menguji kualitas terjemahan berbagai pasangan bahasa dalam kondisi akustik nyata. CoVoST2 mencakup 21 arah terjemahan dari ucapan, menjadikannya proksi praktis untuk kinerja pipeline multibahasa.
Praktisnya, model ini bisa jadi game-changer untuk komunikasi global. Bayangkan bisa berkomunikasi dengan orang dari 60 negara berbeda tanpa hambatan bahasa, dengan latensi hanya 2.8 detik.
Untuk developer, ini berarti lebih sedikit kode untuk menulis, lebih sedikit bug untuk diperbaiki, dan pengalaman pengguna yang lebih baik. Untuk bisnis, ini berarti peluang pasar yang lebih luas.
Yang pasti, dengan kemampuan mengenali konteks visual dan suara asli, teknologi terjemahan AI semakin mendekati kemampuan manusia sejati. Siapa tahu di masa depan, kita bisa berbicara dengan siapa saja tanpa batas bahasa.
AI Updates lagi bergerak cepat, jadi jangan cuma lihat headline.
MarkTechPost
Catatan redaksi
Kalau lo cuma ambil satu hal dari artikel ini
AI Updates update dari MarkTechPost.
Sumber asli
Artikel ini merupakan rewrite editorial dari laporan MarkTechPost.
Baca artikel asli di MarkTechPost→


