Dalam 24 jam terakhir, dua arus besar menguat: ByteDance mendorong AI video ke level “kapabilitas sistem” (sinkron audio-video native + kontrol narasi multi-shot), sementara Zhipu mengambil jalur “besar tapi efisien” lewat MoE—lalu mempercepat adopsi dengan membuka bobot model di bawah lisensi MIT.

Komentar:
Seedance 2.0 dikenal karena sinkron audio-video, narasi multi-shot, dan replika suara manusia yang meyakinkan—banyak yang menyebutnya lompatan besar AI video. Generasi A/V yang native mengatasi masalah “suara dan gambar tidak nyambung”, sementara kemampuan mengisi dinamika gerak di antara frame membuatnya cocok untuk skenario yang butuh kontrol ketat (iklan, transisi adegan, story stitching). Dampaknya biasanya terlihat pada realisme fisika, kesinambungan gerak, dan konsistensi lintas shot.
Setelah Seedance 2.0 viral, ByteDance menjadwalkan Doubao 2.0. Doubao disebut punya DAU 100 juta+ di China, artinya ini bukan sekadar model—ini kanal distribusi produk berskala besar dengan feedback loop nyata. Jika Doubao 2.0 benar-benar naik kelas pada kemampuan agent enterprise dan dukungan input multimodal, ia bisa bergeser dari “chat” menjadi “workflow productivity” yang bisa ditagihkan.
Komentar:
GLM-5 memakai arsitektur Mixture-of-Experts (MoE): kapasitas total besar, tapi saat inferensi hanya ~40–44B yang aktif. Ini jalur “besar namun efisien”—biaya komputasi lebih masuk akal untuk deployment dan concurrency.
Keunggulan ditekankan pada coding dan agent task, yang menuntut orkestrasi tool, reliabilitas, dan stabilitas konteks panjang. Untuk percakapan umum dan pemahaman multimodal luas, ia mungkin masih tertinggal dari GPT-5 atau Claude Opus 4.6.
Poin besar ada di lisensi: MIT membuat adopsi riset maupun komersial jauh lebih mudah, sehingga peluang difusi ekosistem lebih cepat.