最新消息:本站原qzkyl域名已转让,后期该域名所有言论与本站无关,同时本站已改名ipve虚拟机,交换友链请发送邮件zc#ipve.cn(#换@)

DeepSeek-V4 预览版震撼上线:1.6T 参数 MoE 全开源,华为昇腾首发

AI应用 ipve 17浏览 0评论

等了 15 个月,DeepSeek 终于出手了。2026 年 4 月 24 日,DeepSeek 正式发布 V4 预览版并同步开源,全系标配 100 万 token 超长上下文,重新定义开源大模型竞争标准。

双版本齐发:Pro 与 Flash 各有所长

DeepSeek-V4 分为两个版本,分别对应旗舰推理与高速部署两条产品线:

规格V4-ProV4-Flash
总参数1.6T284B
激活参数(MoE)49B active13B active
预训练 Tokens>32T tokens>32T tokens
上下文窗口1M tokens1M tokens
最大输出384K tokens384K tokens
精度FP4 + FP8 混合FP4 + FP8 混合
开源协议MITMIT

即日起登录官网 chat.deepseek.com 或官方 App,即可与最新的 DeepSeek-V4 对话,探索 1M 超长上下文记忆的全新体验。

架构三大创新:突破长上下文瓶颈

DeepSeek-V4 开创了一种全新的注意力机制,在 token 维度进行压缩,结合 DSA 稀疏注意力(DeepSeek Sparse Attention),实现了全球领先的长上下文能力。

创新 1:混合注意力(CSA + HCA)

在 1M 上下文下,单 token 推理 FLOPs 降至 27%,KV Cache 占用降至 10%。CSA(压缩序列注意力)与 HCA(重度压缩注意力)两种机制协同降低超长上下文的计算与显存开销。

创新 2:流形约束超连接(mHC)

在深层 Transformer 中引入流形约束,抑制深层梯度弥散,显著提升深层信号稳定性。对超长训练序列和大规模 MoE 路由尤为关键,防止专家激活分布随深度坍缩。

创新 3:Muon 优化器

替代 AdamW,基于矩阵正交化的动量更新机制,在等计算量下收敛更快、最终损失更低。DeepSeek 团队验证在超过 32T tokens 预训练规模下效果稳定。

Benchmark 成绩:开源模型最高水平

V4-Pro 在多项评测中展现卓越性能:

  • Codeforces Rating: 3206(开源模型最高)
  • LiveCodeBench: 93.5%(代码生成)
  • GPQA Diamond: 90.1(研究生级科学)
  • MMLU: 90.1(多学科综合)
  • C-Eval: 93.1(中文综合评测)
  • SWE Verified: 80.6%(官方自测)
  • MRCR 1M: 83.5(长上下文召回)

在 Agentic Coding 评测中,V4-Pro 已达到当前开源模型最佳水平,据评测反馈使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式。

API 定价:1/4 到 1/7 的闭源价格

DeepSeek V4 API 提供缓存命中折扣,对大批量任务具有极强吸引力:

模型输入(缓存命中)输入(未命中)输出(/1M tokens)
V4-Flash¥0.2 / $0.028¥1 / $0.14¥2 / $0.28
V4-Pro¥1 / $0.145¥12 / $1.74¥24 / $3.48

对标闭源旗舰:V4-Pro 输出 $3.48 vs GPT-5.4 $15 vs Claude Opus 4.6 $25(约 1/4 到 1/7)。旧 API(deepseek-chat / deepseek-reasoner)将于 2026 年 7 月 24 日停用,需迁移到 v4-flash / v4-pro。

华为昇腾首发:地缘战略信号

DeepSeek V4 最重要的意义在于:前沿大模型首发即适配华为昇腾(据 WSJ 报道同时兼容 NVIDIA GPU)。这是一个地缘战略信号——在出口管制持续收紧的背景下,它证明前沿 AI 的算力路径正在多元化。

  • 硬件:昇腾 950PR(prefill/recommendation)+ 950DT(decode/training)路线图
  • 代码从 CUDA 迁移到华为 CANN(统一异构计算架构)
  • 2026 年 4 月 24 日 19:00,华为昇腾 CANN 官方 B 站账号独家首发直播

黄仁勋对此评论:”DeepSeek running on Huawei chips is a bad result for the United States.”

Anthropic API 兼容:Claude Code 用户无缝切换

V4 提供原生 Anthropic API 格式兼容层,Claude Code 用户两行环境变量即可切换:

export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
export ANTHROPIC_API_KEY=your_deepseek_api_key

支持功能:max_tokens / stream / system、tool use / thinking(工具调用 + 推理链)。不支持:anthropic-beta header、image / document 块、cache_control、parallel tool calls。

融资转折:从实验室到商业实体

DeepSeek 长期以”不缺钱,缺高端芯片”拒绝外部融资,此次转变标志着公司走向商业化新阶段:

  • 2026 年 4 月:首次启动对外融资洽谈
  • 目标估值 200 亿美元(此前外界估计约 100 亿美元)
  • 腾讯、阿里均参与谈判,腾讯提议认购最多 20% 股权(谈判中)
  • 融资方向:算力采购与基础设施扩张,非运营资金

开源地址

编辑观点

1.6T 开源 + MIT 协议 + 1/4 到 1/7 的定价 + 夜间半价的组合,对企业部署决策的影响是实质性的。过去”开源 vs 闭源”的争议更多是能力层面,而现在开源旗舰的能力已经足够接近,成本差距才是决策核心。

融资转折是另一个值得关注的拐点。DeepSeek 从”幻方内部实验室”向”独立商业实体”的转变,以及腾讯阿里的参与,意味着中国 AI 生态的资本站队正在加速。

需要保持谨慎的地方:SWE Verified 80.6% 是官方自测,与 Claude Opus 4.7 独立验证的 87.6% 差距显著,建议等待第三方复现;Pro 的吞吐限制在下半年昇腾 950 量产前是真实的部署障碍,不适合当前高并发生产场景。

百万上下文普惠时代,已来。

发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址