Nas últimas 24 horas, duas frentes avançaram juntas: a ByteDance elevou o patamar de vídeo generativo com sincronização nativa de áudio e narrativa multi-shot, e a Zhipu apostou em escala com eficiência via MoE — acelerando adoção ao liberar pesos com licença MIT.

Comentário:
O Seedance 2.0 chamou atenção por sincronização áudio-vídeo, narrativa com múltiplas câmeras e replicação de voz humana. Geração nativa de A/V ataca diretamente o problema de “som e imagem desalinhados”, e a capacidade de inferir dinâmica intermediária ajuda em cenários de alto controle (anúncios, transições, continuidade). O resultado tende a ser superior em plausibilidade física, coerência de movimento e consistência entre tomadas.
Com o Seedance 2.0 em evidência, a ByteDance marcou o lançamento do Doubao 2.0. O Doubao já teria mais de 100 milhões de usuários diários na China, o que o coloca como um canal de distribuição com feedback real. Se o Doubao 2.0 avançar forte em agentes para empresas e entrada multimodal, ele pode migrar rapidamente de “chat” para produtividade entregue como workflow.
Comentário:
O GLM-5 usa Mixture-of-Experts (MoE): enorme capacidade total, mas apenas ~40–44B ativados na inferência. É a estratégia “grande e eficiente”, com custo prático mais viável para deploy e alta concorrência.
O foco está em coding e tarefas de agente, onde orquestração de ferramentas e confiabilidade são decisivas. Em conversação geral e compreensão multimodal ampla, pode haver distância para GPT-5 ou Claude Opus 4.6.
O destaque é a licença: MIT reduz atrito para pesquisa e uso comercial, facilitando adoção e expansão de ecossistema.