DeepSeek新版本节前突袭发布

就在刚刚,DeepSeek 发布了新版本模型 DeepSeek-V3.2-Exp 。

顾名思义,这是一个实验性(Experimental)版本,主要用于探索下一代大模型架构的可能性。

DeepSeek新版本节前突袭发布-2

模型参数量为 685B, Hugging Face开源地址:

https://huggingface.co/deepseek-ai/Deep Seek-V3.2-Exp

此外,这次发布还同步公开了论文,里面详细介绍了 全新的稀疏注意力机制 : DeepSeek Sparse Attention(DSA) 的设计思路和实现方法。

DeepSeek新版本节前突袭发布-3

论文地址:

https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

核心升级:引入新的稀疏注意力机制

这次的升级,最大的亮点是引入了 DeepSeek Sparse Attention(DSA) 。它是一种稀疏注意力机制,目标是在处理长文本时能够减少计算量、提升效率。

简单来说:

模型不再逐字逐句死磕,而是能更快抓住重点;

在处理超长文本时,推理成本显著下降;

性能基本保持稳定,在编程、数学、推理等方面损耗很小。

01 模型不再逐字逐句死磕,而是能更快抓住重点

DSA 机制通过 闪电索引器(lightning indexer) 和 细粒度 token 选择机制 ,使模型能够高效地筛选关键信息,而不是对所有 token 进行全局注意力计算。

DeepSeek新版本节前突袭发布-4

02 在处理超长文本时,推理成本显著下降

DSA 将原本 Transformer 的 O ( L) 注意力计算复杂度降低至 O ( L k ) ,其中 k 《 L ( 例如,在训练中仅选择 2048 个关键 token)。尽管索引器本身仍为 O ( L) ,但由于其计算量远小于 MLA(Multi-Latent Attention),整体推理成本大幅降低。

论文中的实验数据显示,在 H800 GPU 集群上,DeepSeek-V3.2-Exp 的推理成本明显低于 V3.1-Terminus,尤其是在长序列(128K token)场景下:

DeepSeek新版本节前突袭发布-5

03 性能基本保持稳定,在编程、数学、推理等方面损耗很小

尽管采用了稀疏注意力机制,DeepSeek-V3.2-Exp 在多项能力评估(包括编程、数学、逻辑推理等)中与 V3.1-Terminus 相比 未出现显著性能下降 。

在 BrowseComp (编程评估)和 SWE Verified (软件工程验证)等任务上,两者的强化学习训练曲线高度一致,表明 DSA 并未影响模型的学习稳定性。

虽然在 GPQA、HLE、HMMT 2025 等任务上有轻微性能差距,但论文指出这主要是由于 V3.2-Exp 生成推理 token 更少,若使用中间检查点使 token 数量相当,该差距会消失。

DeepSeek新版本节前突袭发布-6

通过这样一个 DSA 机制,能让模型学会“ 抓大放小 ”的思维模式,用极高的效率在长文本中锁定关键信息。这也使得模型在 推理速度上获得巨大提升 ,同时 核心能力基本保持无损 (性能稳定)。

价格离谱 :表现与上代接近,价格竟下降一半

讲完了核心升级的机制,来看模型的表现。

在各个领域的公开基准测试中, DeepSeek-V3.2-Exp 与之前的 V3.1-Terminus 总体表现差不多,个别测试有小幅差异。

DeepSeek新版本节前突袭发布-7

但在保证效果的同时,API 调用价格有了明显下降,整体便宜了超过 50%。 基本都等于白送了,百万输出仅3元,堪称“价格屠夫”!

DeepSeek新版本节前突袭发布-8

DeepSeek新版本节前突袭发布-9

写在最后

总结一下,DeepSeek-V3.2-Exp 并不是一个「分数更高」的版本,算是一种面向未来的探索。

现在, DeepSeek-V3.2-Exp 已经在 官方App / 网页端 / 小程序 / API 全面同步更新,大家可以体验起来!

此外,我们还发现智谱的GLM-4.6也即将发布,在Z.ai官网可以看到,GLM-4.5也已经标识为上一代旗舰 模型。

祝各位“源神” 们 国庆快乐。

THE END
分享
二维码
< <上一篇
下一篇>>