DeepSeek-V4 预览版震撼上线：1.6T 参数 MoE 全开源-PVE虚拟机

等了 15 个月，DeepSeek 终于出手了。2026 年 4 月 24 日，DeepSeek 正式发布 V4 预览版并同步开源，全系标配 100 万 token 超长上下文，重新定义开源大模型竞争标准。

双版本齐发：Pro 与 Flash 各有所长

DeepSeek-V4 分为两个版本，分别对应旗舰推理与高速部署两条产品线：

规格	V4-Pro	V4-Flash
总参数	1.6T	284B
激活参数（MoE）	49B active	13B active
预训练 Tokens	>32T tokens	>32T tokens
上下文窗口	1M tokens	1M tokens
最大输出	384K tokens	384K tokens
精度	FP4 + FP8 混合	FP4 + FP8 混合
开源协议	MIT	MIT

即日起登录官网 chat.deepseek.com 或官方 App，即可与最新的 DeepSeek-V4 对话，探索 1M 超长上下文记忆的全新体验。

架构三大创新：突破长上下文瓶颈

DeepSeek-V4 开创了一种全新的注意力机制，在 token 维度进行压缩，结合 DSA 稀疏注意力（DeepSeek Sparse Attention），实现了全球领先的长上下文能力。

创新 1：混合注意力（CSA + HCA）

在 1M 上下文下，单 token 推理 FLOPs 降至 27%，KV Cache 占用降至 10%。CSA（压缩序列注意力）与 HCA（重度压缩注意力）两种机制协同降低超长上下文的计算与显存开销。

创新 2：流形约束超连接（mHC）

在深层 Transformer 中引入流形约束，抑制深层梯度弥散，显著提升深层信号稳定性。对超长训练序列和大规模 MoE 路由尤为关键，防止专家激活分布随深度坍缩。

创新 3：Muon 优化器

替代 AdamW，基于矩阵正交化的动量更新机制，在等计算量下收敛更快、最终损失更低。DeepSeek 团队验证在超过 32T tokens 预训练规模下效果稳定。

Benchmark 成绩：开源模型最高水平

V4-Pro 在多项评测中展现卓越性能：

Codeforces Rating: 3206（开源模型最高）
LiveCodeBench: 93.5%（代码生成）
GPQA Diamond: 90.1（研究生级科学）
MMLU: 90.1（多学科综合）
C-Eval: 93.1（中文综合评测）
SWE Verified: 80.6%（官方自测）
MRCR 1M: 83.5（长上下文召回）

在 Agentic Coding 评测中，V4-Pro 已达到当前开源模型最佳水平，据评测反馈使用体验优于 Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式。

API 定价：1/4 到 1/7 的闭源价格

DeepSeek V4 API 提供缓存命中折扣，对大批量任务具有极强吸引力：

模型	输入（缓存命中）	输入（未命中）	输出（/1M tokens）
V4-Flash	¥0.2 / $0.028	¥1 / $0.14	¥2 / $0.28
V4-Pro	¥1 / $0.145	¥12 / $1.74	¥24 / $3.48

对标闭源旗舰：V4-Pro 输出 $3.48 vs GPT-5.4 $15 vs Claude Opus 4.6 $25（约 1/4 到 1/7）。旧 API（deepseek-chat / deepseek-reasoner）将于 2026 年 7 月 24 日停用，需迁移到 v4-flash / v4-pro。

华为昇腾首发：地缘战略信号

DeepSeek V4 最重要的意义在于：前沿大模型首发即适配华为昇腾（据 WSJ 报道同时兼容 NVIDIA GPU）。这是一个地缘战略信号——在出口管制持续收紧的背景下，它证明前沿 AI 的算力路径正在多元化。

硬件：昇腾 950PR（prefill/recommendation）+ 950DT（decode/training）路线图
代码从 CUDA 迁移到华为 CANN（统一异构计算架构）
2026 年 4 月 24 日 19:00，华为昇腾 CANN 官方 B 站账号独家首发直播

黄仁勋对此评论：”DeepSeek running on Huawei chips is a bad result for the United States.”

Anthropic API 兼容：Claude Code 用户无缝切换

V4 提供原生 Anthropic API 格式兼容层，Claude Code 用户两行环境变量即可切换：

export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
export ANTHROPIC_API_KEY=your_deepseek_api_key

支持功能：max_tokens / stream / system、tool use / thinking（工具调用 + 推理链）。不支持：anthropic-beta header、image / document 块、cache_control、parallel tool calls。

融资转折：从实验室到商业实体

DeepSeek 长期以”不缺钱，缺高端芯片”拒绝外部融资，此次转变标志着公司走向商业化新阶段：

2026 年 4 月：首次启动对外融资洽谈
目标估值 200 亿美元（此前外界估计约 100 亿美元）
腾讯、阿里均参与谈判，腾讯提议认购最多 20% 股权（谈判中）
融资方向：算力采购与基础设施扩张，非运营资金

开源地址

HuggingFace: https://huggingface.co/collections/deepseek-ai/deepseek-v4
ModelScope: https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4
技术报告: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

编辑观点

1.6T 开源 + MIT 协议 + 1/4 到 1/7 的定价 + 夜间半价的组合，对企业部署决策的影响是实质性的。过去”开源 vs 闭源”的争议更多是能力层面，而现在开源旗舰的能力已经足够接近，成本差距才是决策核心。

融资转折是另一个值得关注的拐点。DeepSeek 从”幻方内部实验室”向”独立商业实体”的转变，以及腾讯阿里的参与，意味着中国 AI 生态的资本站队正在加速。

需要保持谨慎的地方：SWE Verified 80.6% 是官方自测，与 Claude Opus 4.7 独立验证的 87.6% 差距显著，建议等待第三方复现；Pro 的吞吐限制在下半年昇腾 950 量产前是真实的部署障碍，不适合当前高并发生产场景。

百万上下文普惠时代，已来。

打赏赞

DeepSeek-V4 预览版震撼上线：1.6T 参数 MoE 全开源