Model AI baru bisa ngobaran bareng kamu, ngincar input audio, video, text secara real-time tanpa harus nunggu balasan.

Hampir semua AI sekarang kerja bergantian. Kamu ketik atau bicara, model nunggu, proses input kamu, baru balas. Itu loop interaksi seluruhnya.

Tapi Thinking Machines Lab bilang model interaksi bergantian ini jadi bottleneck utama. Mereka baru saja perkenalkan preview penelitian TML-Interaction-Small.

Ide utama penelitian mereka adalah interaktif harus native ke model itu sendiri, bukan ditumpang setelah model jadi. Jadi skalanya model jadi lebih pintar dan kolaborator yang lebih baik.

Advertisement

Advertisement

Slot in-article yang tampil setelah paragraf ketiga.

Kalau kamu pernah bikin apa pun dengan model bahasa atau voice API, kamu pasti sudah ngatasi batasan interaksi bergantian. Model nggak sadar apa yang terjadi waktu kamu masih ngetik atau bicara.

Model nggak bisa lihat kamu berhenti di tengah kalimat, perhatikan feed kamera, atau bereaksi sesuatu visual secara real-time. Waktu model generate, dia juga buta - perception freeze sampai selesai.

Ini bikin channel sempit untuk kolaborasi human-AI yang membatasi seberapa banyak pengetahuan, niat, dan penilaian seseorang bisa sampai ke model.

Untuk ngatasi ini, kebanyakan sistem real-time AI pake harness - kumpulan komponen terpisah yang disatukan buat mensimulasikan responsivitas. Contoh umumnya voice-activity detection (VAD).

Harness ini terbuat dari komponen yang secara signifikan kurang pintar daripada model itu sendiri, dan ini meniadakan kemampuan seperti reaksi visual proaktif atau bicara sambil denger.

Arsitektur mereka punya dua komponen yang kerja paralel: model interaksi yang maintain constant real-time exchange sama user, dan model background yang handle deeper reasoning tasks secara asynchronous.

Model interaksi selalu on - terus menerus ngambil audio, video, dan text, dan produce response secara real-time. Waktu task butuh reasoning berkelanjutan, dia delegate ke model background.

Kunci arsitektur yang bikin ini mungkin adalah time-aligned micro-turns. Model interaksi terus menerus interleave processing 200ms input dengan generation 200ms output.

Ini yang bikin model bisa bicara sambil denger, bereaksi ke visual cue tanpa diminta secara verbal, handle simultaneous speech sejati, dan make tool calls sambil conversation masih berjalan.

Encoder-free early fusion adalah pilihan desain spesifik yang bikin processing multimodal kerja di tempo ini. Audio signal di-ingest sebagai dMel dan di-transform via lightweight embedding layer.

Di sisi inference, desain 200ms chunk bikin tantangan engineering. Existing LLM inference libraries nggak optimized untuk frequent small prefills - mereka bawa significant per-turn overhead.

Thinking Machines implement streaming sessions, dimana client kirim setiap 200ms chunk sebagai separate request sambil inference server append chunks ke persistent sequence di GPU memory.

TML-Interaction-Score 77.8 di FD-bench v1.5 yang measure interaction quality - jauh di atas 54.3 untuk Gemini dan 47.8 untuk GPT-realtime-2.0. Dia juga respons dalam 0.40 detik.

Di benchmark internal baru, model ini performa jauh lebih baik dari kompetitor di TimeSpeak (64.7 vs 4.3), CueSpeak (81.7 vs 2.9), RepCount-A (35.4 vs 1.3), dan Charades (32.4 vs 0).

Practical takeaway: AI interaktif real-time tanpa batasan giliran akan mengubah cara kita berinteraksi dengan teknologi. Siap ngobaran bareng AI yang ngerti konteks visual dan verbal kamu secara real-time?

AI Updates lagi bergerak cepat, jadi jangan cuma lihat headline.

MarkTechPost

Catatan redaksi

Kalau lo cuma ambil satu hal dari artikel ini

AI Updates update dari MarkTechPost.

Sumber asli

Artikel ini merupakan rewrite editorial dari laporan MarkTechPost.

Baca artikel asli di MarkTechPost
#AIUpdates#MarkTechPost#rss