直接结论
DeepSeek V4 Preview 在三个地方有实质性改变:长上下文处理(最高 1M token)、基于 MoE 架构的低成本推理、以及 Agent 任务表现提升。它没有在所有场景下替代闭源前沿模型。如果你的工作涉及大型代码库、多文档研究、或 API 规模的部署,V4 值得认真对待。如果你是普通用户,这次升级基本感知不到。

V4 真正改变了什么
DeepSeek V4 Preview 不是小幅迭代,结构上有三个变化。
架构:MoE(混合专家)意味着每次请求只激活部分参数——Pro 激活 49B,Flash 激活 13B——这也是为什么两个版本的速度和成本都比参数量看起来要划算。
上下文窗口:1M token 是上限,不是默认值。大多数 API 调用根本用不到这个量级。
模型线:DeepSeek 将于 2026 年 7 月 24 日下线旧版模型。V4 是唯一的延续路径,没有观望空间,这是硬截止日期。
V4 能做什么
长文档处理 —— 1M 上下文让以前需要拆分处理的任务变得可行:完整仓库分析、500 页法律文件、多文件代码库整体输入。
复杂推理与 Agent 任务 —— V4-Pro 在多步规划、工具链调用、研究类工作流上的表现,在结构化任务评测中已接近闭源模型水平。
规模化 API 调用的成本控制 —— V4-Flash 以接近 Pro 的质量跑在更低的成本上。对高频推理团队来说,这是 V4 最有实际价值的变化。
开放权重部署 —— 权重已在 Hugging Face 开放,自托管是真实选项,不是概念。
V4 做不到什么
1M 上下文对大多数任务并不实用。 Token 成本线性增长。如果你的问题只需要 10K token 就能回答,却输入了 500K token,结果是贵且慢。上下文大小是能力上限,不是推荐用法。
V4-Flash 不等于 Pro。 在结构化推理 benchmark 上,Pro 明显优于 Flash。短查询和创意类任务差距缩小,复杂编程和 Agent 链路上差距不消失。
它不能在所有场景替代闭源前沿模型。 V4-Pro 在部分 benchmark 上与 GPT-4o、Claude 3.7 持平。在另一些上没有。发布时的"SOTA"声明需要用你自己的任务分布实测后再做判断。
高上下文场景下的生产稳定性仍在建立中。 早期开发者反馈显示,500K token 以上的输入存在延迟不稳定的情况。能力是真实的,生产可靠性还在验证阶段。
灰色地带:大多数人在哪里判断错
"1M 上下文意味着可以把所有东西都塞进去。" 技术上可以,实际上:成本和延迟随上下文长度线性增长。50K–200K token 是 V4 表现好且成本合理的区间。超过这个范围,你在为能力上限付钱,不是为性能付钱。
"Flash 够用了。" Flash 能处理 80% 的生产场景。剩下 20% 的边界在:深度推理链、复杂多工具 Agent、需要长输出连贯性的任务。在 Flash 上撞到这些墙,才是换 Pro 的信号——不是提前换。
"开源等于免费。" 开放权重意味着可审计、可自托管,不等于零成本。自托管 V4-Pro 需要大多数团队不具备的硬件。API 定价该收的还是会收。
能力边界速查表
| 能力 | V4-Pro | V4-Flash | 备注 |
|---|---|---|---|
| 1M token 上下文 | ✓ | ✓ | 成本与延迟随用量线性增长 |
| 复杂推理 / 编程 | 强 | 中等 | Pro 在 benchmark 上明显领先 |
| Agent 任务链 | 强 | 有限 | Flash 在长链路上容易断 |
| 高频 API 调用 | 可用 | 最优 | Flash 是默认首选 |
| 自托管部署 | 可行 | 可行 | 需要较高硬件配置 |
| 全面替代 GPT-4o | 部分 | 否 | 取决于具体任务类型 |
| 500K+ 上下文生产稳定性 | 早期 | 早期 | 延迟不稳定问题有报告 |
谁最先碰到边界
API 开发者和自动化构建者 —— 如果你在用 Flash,在复杂任务上遇到质量问题,那是该用你实际 pipeline 对比测试 Pro 的信号。
研究员和分析师 —— 1M 上下文对文档密集型工作确实有用。大多数人最先碰到的限制是预算,不是能力。
从旧版 DeepSeek 迁移的团队 —— 2026 年 7 月 24 日是硬截止。大多数情况下迁移只需要换模型名称,但在截止前用真实 prompt 测一遍是不能省的步骤。
普通用户 —— V4 对日常使用几乎没有感知变化。这次改进在基础设施和 API 层面。
常见问题
Pro 和 Flash 该默认用哪个? 从 Flash 开始。如果你的具体场景在推理或长输出上出现质量下滑,再做 Pro 的并行 benchmark。不要在没测试的情况下提前付 Pro 的价格。
1M 上下文现在能正常用吗? 能力是存在的。开发者反馈显示 500K token 以上的生产稳定性仍处于早期阶段。200K 以内目前稳定性较好。
旧版 DeepSeek 模型什么时候必须迁移? 下线日期是 2026 年 7 月 24 日。现在还没开始测 V4 的团队该动了。
V4 真的是 SOTA 吗? 在开放权重模型里,是第一梯队。对比闭源前沿模型:部分 benchmark 有竞争力,不是全面领先。用你自己的任务类型跑一遍再下结论。
开源意味着可以免费用吗? 不。开放权重意味着可以查看和自托管模型。V4-Pro 规模的自托管需要相当的计算资源。云端 API 访问有正常定价。
最终判断
DeepSeek V4 是第一个在长上下文处理、Agent 性能、推理成本三个维度上同时达到竞争水平的开放权重模型。这是真实的结构性变化,不是营销说法。
需要避免的错误:把 1M 上下文当默认配置而不是能力上限,以及在没验证 Flash 是否真的不够用之前就选 Pro。大多数生产工作负载属于 Flash。大多数上下文输入不需要超过 200K。清楚自己的工作流落在哪个区间,才能判断 V4 对你来说是重大升级还是微小改进。