人工智能拥抱稀疏化:DeepSeek v3.2-Exp & UCM先后开源助力大模型“轻装上阵”
DeepSeek于9月29日发布V3.2-Exp最新版本,介绍了其稀疏化技术的应用效果,而同样应用稀疏化技术的华为Unified Cache Manager(简称UCM),也在9月30日正式开源上线。稀疏化趋势正从技术探索演变为产业刚需,助力大模型“轻装上阵”。
DeepSeek V3.2-Exp最重要的更新是提出了DeepSeek Sparse Attention(简称DSA),一种稀疏化注意力机制,旨在有效降低token成本。此前,DeepSeek 曾发布 Native Sparse Attention(简称 NSA)相关论文,业内普遍预期其下一版模型将采用NSA,没想到此次DSA抢先登场,打破了这一预期。不过,这也是稀疏化注意力机制首次在开源大模型中的实际应用,NSA或许会被DeepSeek留到了V4版本。
华为UCM在9月30日开源上线,其方案介绍中也提到了稀疏化相关内容。令人惊喜的是,UCM提供的并非仅仅一种稀疏化算法,而是四种:ESA、GSA、KVComp和KVStar,这几种算法分别对应不同的稀疏化策略。同时,UCM提供了统一的稀疏化框架,所有模型可以按需适配不同的稀疏化策略,也支持用户自定义使用自己的稀疏化算法。UCM的理念是——针对不同模型、不同场景,稀疏化算法将朝多元化方向演进。其中,DSA attention模块使用了“Lightning indexer & top-k selector”进行重点token的筛选,这与UCM中“Retrieval_engine”的设计有相似之处。
两者的共同点在于利用Query tensor在历史的KV Cache中进行检索,检索出来的topk个token参与模型的attention计算。
不同点在于:1. DSA中筛选的粒度是token,UCM筛选的粒度则可以是token或者block;2. DSA的Indexer是含参的,UCM的Retrieval_engine模块则可以是带参的,也可以是无参数的;3. DSA目前实现了attention计算复杂度上的降低,但是没有减小显存中KV Cache的占用,UCM则利用Store换入换出节省了显存资源,进一步提高并发收益。可以期待下,UCM的框架后续是否能配套使用DeepSeek的DSA。
华为开源UCM架构图
经过对比分析可以看到,DeepSeek与UCM的稀疏化路径有所不同:前者作为模型厂商,DSA是与训练过程深度结合的稀疏化模型;而后者提供推理加速方案,是基于已有模型无需额外训练就可实现的稀疏化,并希望在推理引擎层面更好地支持多种稀疏化算法。从已公布的吞吐提升与精度表现来看,DeepSeek DSA与UCM都实现了显著的推理加速,同时保持了较高的模型精度。可以预见,稀疏化将成为继PD分离之后,AI推理领域的又一大热门方向,甚至是未来推理系统的“标配”。
回顾此前的Mixture of Block Attention (简称MOBA)和NSA等稀疏注意力机制的提出,标志着研究者开始尝试在保持模型性能的前提下,通过结构性剪枝或局部聚焦的方式,减少无效计算。如今,DSA与UCM的出现,有望推动稀疏化从理论研究走向实际部署。在稀疏化的加持下,训练与推理成本的降低将进一步提升模型的上下文处理能力——1M token的上下文长度不再是理论值,而是可在实际应用中实现的目标。长上下文、推理加速与成本优化,也将共同推动AI在长任务、Agentic AI等方向的发展。
AI自诞生之初就被视为继互联网之后的下一代基础设施。随着稀疏化等新技术的涌现,AI应用的门槛正被持续降低,这一宏大的设想也加速走向现实。而在这场以“轻量化”为核心的演进中,DeepSeek和华为UCM分别以创新的算法、统一的框架和灵活的适配能力,为行业提供了一条低成本、高效率的实践路径。它不仅将多种稀疏策略集于一身,更以开源开放的姿态,为整个推理生态的“轻装上阵”铺平了道路。
DeepSeek V3.2-Exp:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
UCM开源Github仓:https://github.com/ModelEngine-Group/unified-cache-management

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
智源开源 RoboBrain-X0,打破机器人跨本体泛化困境
北京智源人工智能研究院宣布开源 RoboBrain-X0 —— 一个能够在零样本泛化、少量样本微调条件下,驱动多种不同真实机器人完成复杂任务的跨本体基座大模型。 RoboBrain-X0 源自 RoboBrain 的多模态基座能力,在 RoboBrain 2.0 数据基础上,进一步融合了真实机器人动作数据。通过统一建模视觉、语言与动作,它实现了跨本体的泛化与适配,具备从感知到执行的一体化能力。 RoboBrain-X0 的设计理念在于:模型首先将复杂任务(如“整理桌面”)分解为与具体机器人“身体”解耦的通用语义动作序列,并通过统一映射机制,将“意图”高效转译为多种机器人可直接执行的动作。从而使得 RoboBrain-X0 突破对单一机器人体系的依赖,实现异构本体统一建模,并具备实用级零样本泛化与复杂任务拆解能力。 与此同时,智源方面还发布了其核心训练数据集 —— RoboBrain-X0-Dataset。为模型提供了覆盖“感知-思考-行动”全链路的坚实基础,旨在打破“数据孤岛”,为开发者提供开箱即用的研发资源。它主要包含四类关键数据: 多模态VQA数据:融合视觉问答与推理数据,显著提升...
-
下一篇
余承东增任华为 IRB 主任,核心任务“打赢 AI 关键战役”
据凤凰网报道,华为常务董事、终端 BG 董事长余承东再度迎来重要职务调整,正式增任公司投资评审委员会(IRB)主任,其核心任务是带领华为在人工智能(AI)领域取得全球领先地位,被内部视为“打赢AI关键战役”的核心领导人。 据了解,该委员会负责对公司重大战略方向的资源投入、项目立项及预算审批进行关键决策,确保资源高效聚焦核心战略目标。 余承东兼具技术商业化成功经验(如终端业务崛起)与战略执行力,其双重角色将推动华为在AI芯片、大模型、智能汽车等关键战场加速突破,直面全球科技竞争。这次任命由任正非亲自签发,也体现华为最高层对AI战略的重视及对余承东的信任。
相关文章
文章评论
共有0条评论来说两句吧...