北京智源人工智能研究院正式发布面向多种AI芯片的系统软件栈 —— 众智 FlagOS 1.6,并同步启动生态建设系列行动。
智源研究院副院长兼总工程师林咏华表示,FlagOS 1.6 推动 AI 系统软件迈入“一次开发、跨芯片运行、多框架支持”的新阶段,使开发者能够更专注于模型与应用创新。通过统一框架插件、算子自动生成、编译器新语言扩展、和FlagOS具身智能框架(FlagOS-Robo)等关键突破,FlagOS 正在整合算力与开源生态,加速 AI 从实验室走向规模化应用。
![]()
- 框架FlagScale v1.0版本:一次开发,多芯运行
破解生态割裂的“NxM”难题,FlagOS从解决“N种芯片生态”的统一,进入解决“M种框架/算法包的接入”的下半程。FlagScale v1.0通过多芯片统一插件方式,对框架/算法包实现非侵入式修改,极大降低适配成本,助力大模型Day0支持,保持用户使用习惯,无缝获得跨芯一致性结果。该框架为各种AI软硬件厂商提供了统一、标准化的接入机制,有效解决以往生态分散、版本不一的困境。
- KernelGen 1.0:全球首个支持多芯片的算子自动生成平台上线,开发进入“分钟级”
全球首个支持多种AI芯片的 Triton 算子自动生成平台 KernelGen 1.0 正式发布,突破传统 copilot 仅生成代码、不保证效果的局限,实现从需求理解、算子生成、正确性验证及加速比评测的全生命周期自动化。开发者一次描述即可完成生成与评测,全流程仅需 2 分钟,50% 生成算子在同等算力下性能达到或超过 CUDA 原生算子。基于 FlagOS 技术栈,KernelGen 1.0 已支持英伟达、摩尔线程、华为、海光、天数等多种芯片,实现跨芯片生成与多端验证,显著降低算子适配与优化成本,加速算子生态的规模化共建。
在 KernelGen 1.0 的辅助下,FlagGems总规模扩容至363个高质量算子,涵盖正式发布的230个算子,及首批机器自动生成的133个算子。FlagGems作为全球最大的 Triton 算子库,其中82%以上的Triton算子与CUDA原生算子性能平齐或超过,并已支持10多种AI芯片。
- 编译器FlagTree v0.4:探索Triton的新语言,让算子优化更简单
FlagTree升级推出Triton语言扩展(TLE)的预览版,通过分层设计在易用性与极致手写优化之间取得平衡,覆盖从初级到高级不同程度开发者的多样化需求。以中级开发者使用的基础原语扩展为例,关键算子性能提升超过 10%;在多芯片高效运行时,已支持 Nvidia、华为昇腾、摩尔线程和天数等平台,关键算子性能可进一步提升 20% 以上,大幅降低了多芯片适配与算子优化的技术门槛。
智源研究院以RoboBrain2.5为案例,展现了FlagOS作为国产软件栈,如何整合国产芯片、推进国产具身大脑基础模型RoboBrain2.5的研发。RoboBrain2.5 在全面继承2.0版本通用感知、空间推理和时序建模三大核心能力的基础上,通过融合更大规模、更高质量的训练数据集,于3D空间理解和时序价值预测两大维度实现了能力跃升。
为系统性地降低具身智能研发门槛高、技术链路长的挑战,FlagOS1.6专门推出FlagOS-Robo版本,覆盖数据加载、模型训练、推理到具身评测的全流程工具链,显著降低开发复杂度。基于此,智源同步上线RoboXStudio具身智能一站式平台,实现从具身数据采集、标注到模型训练的全链路贯通,大幅提升“数据-模型”的闭环迭代效率。通过标准化、自动化的体系化支持,该架构为具身智能的快速验证与规模化落地奠定基础,加速其从实验室走向产业应用。