DeepSeek新版本节前突袭发布
就在刚刚,DeepSeek 发布了新版本模型 DeepSeek-V3.2-Exp 。
顾名思义,这是一个实验性(Experimental)版本,主要用于探索下一代大模型架构的可能性。

模型参数量为 685B, Hugging Face开源地址:
https://huggingface.co/deepseek-ai/Deep Seek-V3.2-Exp
此外,这次发布还同步公开了论文,里面详细介绍了 全新的稀疏注意力机制 : DeepSeek Sparse Attention(DSA) 的设计思路和实现方法。

论文地址:
https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
核心升级:引入新的稀疏注意力机制
这次的升级,最大的亮点是引入了 DeepSeek Sparse Attention(DSA) 。它是一种稀疏注意力机制,目标是在处理长文本时能够减少计算量、提升效率。
简单来说:
模型不再逐字逐句死磕,而是能更快抓住重点;
在处理超长文本时,推理成本显著下降;
性能基本保持稳定,在编程、数学、推理等方面损耗很小。
01 模型不再逐字逐句死磕,而是能更快抓住重点
DSA 机制通过 闪电索引器(lightning indexer) 和 细粒度 token 选择机制 ,使模型能够高效地筛选关键信息,而不是对所有 token 进行全局注意力计算。
02 在处理超长文本时,推理成本显著下降
DSA 将原本 Transformer 的 O ( L) 注意力计算复杂度降低至 O ( L k ) ,其中 k 《 L ( 例如,在训练中仅选择 2048 个关键 token)。尽管索引器本身仍为 O ( L) ,但由于其计算量远小于 MLA(Multi-Latent Attention),整体推理成本大幅降低。
论文中的实验数据显示,在 H800 GPU 集群上,DeepSeek-V3.2-Exp 的推理成本明显低于 V3.1-Terminus,尤其是在长序列(128K token)场景下:
03 性能基本保持稳定,在编程、数学、推理等方面损耗很小
尽管采用了稀疏注意力机制,DeepSeek-V3.2-Exp 在多项能力评估(包括编程、数学、逻辑推理等)中与 V3.1-Terminus 相比 未出现显著性能下降 。
在 BrowseComp (编程评估)和 SWE Verified (软件工程验证)等任务上,两者的强化学习训练曲线高度一致,表明 DSA 并未影响模型的学习稳定性。
虽然在 GPQA、HLE、HMMT 2025 等任务上有轻微性能差距,但论文指出这主要是由于 V3.2-Exp 生成推理 token 更少,若使用中间检查点使 token 数量相当,该差距会消失。
通过这样一个 DSA 机制,能让模型学会“ 抓大放小 ”的思维模式,用极高的效率在长文本中锁定关键信息。这也使得模型在 推理速度上获得巨大提升 ,同时 核心能力基本保持无损 (性能稳定)。
价格离谱 :表现与上代接近,价格竟下降一半
讲完了核心升级的机制,来看模型的表现。
在各个领域的公开基准测试中, DeepSeek-V3.2-Exp 与之前的 V3.1-Terminus 总体表现差不多,个别测试有小幅差异。
但在保证效果的同时,API 调用价格有了明显下降,整体便宜了超过 50%。 基本都等于白送了,百万输出仅3元,堪称“价格屠夫”!

写在最后
总结一下,DeepSeek-V3.2-Exp 并不是一个「分数更高」的版本,算是一种面向未来的探索。
现在, DeepSeek-V3.2-Exp 已经在 官方App / 网页端 / 小程序 / API 全面同步更新,大家可以体验起来!
此外,我们还发现智谱的GLM-4.6也即将发布,在Z.ai官网可以看到,GLM-4.5也已经标识为上一代旗舰 模型。
祝各位“源神” 们 国庆快乐。


共有 0 条评论