Qwen-RobotSuite: Tiga Model AI Embodied Buat Manipulasi, Video World, dan Navigasi

Qwen-RobotSuite hadir dengan tiga model AI embodied: RobotManip, RobotWorld, dan RobotNav. Simak cara kerja, keunggulan, dan contoh aplikasi praktisnya.

Tim Qwen baru aja ngeluarin paket tiga model AI embodied yang mereka sebut Qwen-RobotSuite. Ada RobotManip buat manipulasi robot, RobotWorld yang ngelakuin video world modeling, dan RobotNav buat navigasi. Semua model pakai backbone vision-language Qwen, jadi mereka bisa “ngobrol” sama robot lewat bahasa.

RobotManip adalah model Vision-Language-Action (VLA) yang dibangun di atas Qwen3.5-4B. Ia nerima input gambar dari kamera dan perintah teks, terus ngeluarin aksi robot secara kontinu. Tantangannya, data manipulasi itu heterogen—setiap robot punya format aksi yang beda. Qwen ngatasin ini dengan “Unified Alignment Framework” yang bikin semua robot pakai vektor aksi 80‑dimensi yang sama.

Framework itu punya tiga trik: pertama, vektor aksi kanonik 80‑dimensi yang tiap dimensi bisa di‑mask kalau robot nggak pakai. Kedua, aksi diekspresiin sebagai delta pose di frame kamera, jadi gerakan yang mirip secara visual bakal mirip secara numerik walau robotnya beda. Ketiga, ada mekanisme adaptasi kebijakan “in‑context” yang baca riwayat eksekusi buat menyesuaikan diri tanpa retraining.

Data yang dipake buat RobotManip juga gede banget—kira‑kira 38.100 jam manipulasi. Mereka ngumpulin data cuma dari sumber terbuka dan video manusia, terus pakai pipeline “human‑to‑robot” buat konversi gerakan tangan jadi trajektori robot. Hasilnya, model ini ngalahin benchmark OOD di RoboChallenge Table30‑v1 dengan peningkatan 20% dibanding yang sebelumnya.

RobotWorld beda lagi. Ini model video world yang dikondisikan bahasa, pakai arsitektur 60‑layer double‑stream MMDiT. Inputnya video saat ini plus perintah teks, outputnya video prediksi masa depan. Karena aksi diwakilin lewat bahasa, model ini bisa dipake di robot apa aja—dari lengan tunggal sampai humanoid—tanpa harus ubah format kontrol.

RobotWorld dilatih dengan dataset Embodied World Knowledge (EWK) yang nyediain 8,6 juta pasangan video‑teks. Di benchmark, ia juara di EWMBench dan DreamGen Bench, bahkan di WorldModelBench ia dapat skor sempurna di kategori fisika. Jadi, kalau kamu butuh data sintetik atau simulasi visual buat melatih robot, RobotWorld bisa jadi “generator video” yang powerful.

Terakhir, RobotNav fokus pada navigasi mobile. Dibangun di atas Qwen3‑VL, model ini memprediksi 8 waypoint (posisi + arah) untuk berbagai tugas—dari point‑goal sampai tracking objek. Ia punya antarmuka token‑budget yang bisa di‑tuning secara dinamis, jadi kamu bisa kontrol seberapa banyak visual history yang dipake. Di tes VLN‑CE RxR, ia capai success rate 76,5%, plus performa tinggi di navigation‑driving benchmark.

AI Updates lagi bergerak cepat, jadi jangan cuma lihat headline.
MarkTechPost

Catatan redaksi

Kalau lo cuma ambil satu hal dari artikel ini

AI Updates update dari MarkTechPost.

Sumber asli

Artikel ini merupakan rewrite editorial dari laporan MarkTechPost.

Baca artikel asli di MarkTechPost→

#AIUpdates#MarkTechPost#rss

Qwen-RobotSuite: Tiga Model AI Embodied Buat Manipulasi, Video World, dan Navigasi

MarkTechPost

AI Updates update dari MarkTechPost.

Advertisement

Kalau lo cuma ambil satu hal dari artikel ini

Ditulis oleh Captivela AI

Bacaan selanjutnya

Kenapa Share Button Kamu Selalu Sepi? Ini Faktanya!

UK Incar Verifikasi Wajah Buat Akun Sosmed, Gak Cuma Cuma Lagi!

Apple Rilis Titik Anti-Mual, Bikin Mobil Jadi Gak Goyang!