等了 15 个月,DeepSeek 终于出手了。2026 年 4 月 24 日,DeepSeek 正式发布 V4 预览版并同步开源,全系标配 100 万 token 超长上下文,重新定义开源大模型竞争标准。
双版本齐发:Pro 与 Flash 各有所长
DeepSeek-V4 分为两个版本,分别对应旗舰推理与高速部署两条产品线:
| 规格 | V4-Pro | V4-Flash |
|---|---|---|
| 总参数 | 1.6T | 284B |
| 激活参数(MoE) | 49B active | 13B active |
| 预训练 Tokens | >32T tokens | >32T tokens |
| 上下文窗口 | 1M tokens | 1M tokens |
| 最大输出 | 384K tokens | 384K tokens |
| 精度 | FP4 + FP8 混合 | FP4 + FP8 混合 |
| 开源协议 | MIT | MIT |
即日起登录官网 chat.deepseek.com 或官方 App,即可与最新的 DeepSeek-V4 对话,探索 1M 超长上下文记忆的全新体验。
架构三大创新:突破长上下文瓶颈
DeepSeek-V4 开创了一种全新的注意力机制,在 token 维度进行压缩,结合 DSA 稀疏注意力(DeepSeek Sparse Attention),实现了全球领先的长上下文能力。
创新 1:混合注意力(CSA + HCA)
在 1M 上下文下,单 token 推理 FLOPs 降至 27%,KV Cache 占用降至 10%。CSA(压缩序列注意力)与 HCA(重度压缩注意力)两种机制协同降低超长上下文的计算与显存开销。
创新 2:流形约束超连接(mHC)
在深层 Transformer 中引入流形约束,抑制深层梯度弥散,显著提升深层信号稳定性。对超长训练序列和大规模 MoE 路由尤为关键,防止专家激活分布随深度坍缩。
创新 3:Muon 优化器
替代 AdamW,基于矩阵正交化的动量更新机制,在等计算量下收敛更快、最终损失更低。DeepSeek 团队验证在超过 32T tokens 预训练规模下效果稳定。
Benchmark 成绩:开源模型最高水平
V4-Pro 在多项评测中展现卓越性能:
- Codeforces Rating: 3206(开源模型最高)
- LiveCodeBench: 93.5%(代码生成)
- GPQA Diamond: 90.1(研究生级科学)
- MMLU: 90.1(多学科综合)
- C-Eval: 93.1(中文综合评测)
- SWE Verified: 80.6%(官方自测)
- MRCR 1M: 83.5(长上下文召回)
在 Agentic Coding 评测中,V4-Pro 已达到当前开源模型最佳水平,据评测反馈使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式。
API 定价:1/4 到 1/7 的闭源价格
DeepSeek V4 API 提供缓存命中折扣,对大批量任务具有极强吸引力:
| 模型 | 输入(缓存命中) | 输入(未命中) | 输出(/1M tokens) |
|---|---|---|---|
| V4-Flash | ¥0.2 / $0.028 | ¥1 / $0.14 | ¥2 / $0.28 |
| V4-Pro | ¥1 / $0.145 | ¥12 / $1.74 | ¥24 / $3.48 |
对标闭源旗舰:V4-Pro 输出 $3.48 vs GPT-5.4 $15 vs Claude Opus 4.6 $25(约 1/4 到 1/7)。旧 API(deepseek-chat / deepseek-reasoner)将于 2026 年 7 月 24 日停用,需迁移到 v4-flash / v4-pro。
华为昇腾首发:地缘战略信号
DeepSeek V4 最重要的意义在于:前沿大模型首发即适配华为昇腾(据 WSJ 报道同时兼容 NVIDIA GPU)。这是一个地缘战略信号——在出口管制持续收紧的背景下,它证明前沿 AI 的算力路径正在多元化。
- 硬件:昇腾 950PR(prefill/recommendation)+ 950DT(decode/training)路线图
- 代码从 CUDA 迁移到华为 CANN(统一异构计算架构)
- 2026 年 4 月 24 日 19:00,华为昇腾 CANN 官方 B 站账号独家首发直播
黄仁勋对此评论:”DeepSeek running on Huawei chips is a bad result for the United States.”
Anthropic API 兼容:Claude Code 用户无缝切换
V4 提供原生 Anthropic API 格式兼容层,Claude Code 用户两行环境变量即可切换:
export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
export ANTHROPIC_API_KEY=your_deepseek_api_key支持功能:max_tokens / stream / system、tool use / thinking(工具调用 + 推理链)。不支持:anthropic-beta header、image / document 块、cache_control、parallel tool calls。
融资转折:从实验室到商业实体
DeepSeek 长期以”不缺钱,缺高端芯片”拒绝外部融资,此次转变标志着公司走向商业化新阶段:
- 2026 年 4 月:首次启动对外融资洽谈
- 目标估值 200 亿美元(此前外界估计约 100 亿美元)
- 腾讯、阿里均参与谈判,腾讯提议认购最多 20% 股权(谈判中)
- 融资方向:算力采购与基础设施扩张,非运营资金
开源地址
- HuggingFace: https://huggingface.co/collections/deepseek-ai/deepseek-v4
- ModelScope: https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4
- 技术报告: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
编辑观点
1.6T 开源 + MIT 协议 + 1/4 到 1/7 的定价 + 夜间半价的组合,对企业部署决策的影响是实质性的。过去”开源 vs 闭源”的争议更多是能力层面,而现在开源旗舰的能力已经足够接近,成本差距才是决策核心。
融资转折是另一个值得关注的拐点。DeepSeek 从”幻方内部实验室”向”独立商业实体”的转变,以及腾讯阿里的参与,意味着中国 AI 生态的资本站队正在加速。
需要保持谨慎的地方:SWE Verified 80.6% 是官方自测,与 Claude Opus 4.7 独立验证的 87.6% 差距显著,建议等待第三方复现;Pro 的吞吐限制在下半年昇腾 950 量产前是真实的部署障碍,不适合当前高并发生产场景。
百万上下文普惠时代,已来。