DeepSeek 用户曾抱怨服务器不稳定,但这种情况有望改变。近期,梁文锋参与撰写的一篇题为《DSpark:基于置信度调度的推测解码与半自回归生成》的论文,为 DeepSeek 带来了技术革新。
这是梁文锋自2024年发表《DeepSeek LLM》论文后,署名的第12篇学术成果。值得注意的是,DSpark 的部分内容与梁文锋2010年的硕士毕业论文存在相似之处。
DSpark 的引入,相当于为 DeepSeek 提供了加速引擎,显著提升了用户体验,表现为速度更快、运行更稳定、宕机现象减少。在同等质量的输出下,响应速度提升了60%至80%,原本需要10秒的回复现在只需5至6秒即可完成。尤其是在高流量时段,DeepSeek 不再出现卡顿现象。
DSpark 的核心机制是推测解码(Speculative Decoding),旨在解决大模型生成文本时“自回归生成”带来的效率瓶颈。传统的自回归生成模式下,模型每生成一个字都需要重新计算之前的全部内容,耗时耗力。推测解码允许模型一次性预测多个后续字词,并由一个速度更快但精度稍低的“草稿模型”先行生成,再由主模型进行验证。
推测解码存在两种主要实现方式:一种是逐字预测,确保高质量但速度提升有限;另一种是快速连续预测,速度快但容易出现“后缀衰减”,即预测越往后准确率越低。
DSpark 提出的“半自回归生成”结合了上述两种方法的优点。它首先快速预测一系列字词,然后评估每个字词的置信度,并根据服务器当前的负载情况,动态调整需要主模型验证的字词数量。这种“置信度调度验证”机制,能够根据服务器忙闲程度,灵活选择验证的字词范围,在高并发时避免资源浪费,从而有效缓解了 DeepSeek 在高峰时段的性能问题。
与以往的加速方案不同,DSpark 在应对高并发场景时表现出色。实测数据显示,在严格的低延迟要求下,DSpark 的吞吐量是此前 MTP-1 系统的6倍以上。在中等负载场景下,单 GPU 的总吞吐量提升了51%。
在成本方面,DSpark 的技术突破对于 AI 行业的推理成本具有重要意义。推理成本是持续性的支出,谁能有效降低推理成本,谁就能在市场中获得优势。DSpark 在不改变硬件配置的情况下,显著提升了生成速度,使得相同的 GPU 资源能够服务更多用户。
在应对突发流量高峰时,DSpark 的动态调度能力使其无需立即扩容,即可维持服务稳定。
关于回答质量,DSpark 采用的拒绝采样机制从数学上保证了最终输出的概率分布与模型独立生成的结果一致,因此不会牺牲回答质量。离线测试和线上用户反馈均证实了这一点。草稿模型对整体计算量的影响极小,在性能大幅提升面前可以忽略不计。
DeepSeek 以其低廉的推理成本著称,DSpark 的应用将进一步降低其成本,为后续降价或提升免费用户额度提供空间。此外,DeepSeek 还开源了 DeepSpec 训练框架,允许用户为其他模型训练推测解码草稿模型,有望进一步降低整个行业的推理成本。
梁文锋在算法优化和成本控制方面的坚持贯穿其职业生涯。早在2010年攻读硕士学位时,他就曾通过算法优化弥补廉价硬件的不足。如今,他继续将这一理念应用于 DeepSeek,专注于通过工程优化而非增加硬件来降低成本。
DeepSeek 的运营模式高度集中,由梁文锋本人作为主要投资者、管理者和研究者。这种独特的决策闭环使得 DSpark 这样的技术创新能够快速落地,因为节省的成本直接关系到他个人的经济利益。在“购买更多 GPU”和“进行工程优化”之间,梁文锋选择了后者,体现了他对成本效益的深刻理解。DSpark 正是这一高效决策链的最新成果。