快手 Kwaipilot 团队开源 KAT-Dev-72B-Exp
快手 Kwaipilot 团队发布了 KAT-Dev-72B-Exp。
KAT-Dev-72B-Exp 是 KAT-Coder 模型强化学习的实验版本,在软件开发能力评测基准 SWE-Bench Verified 上取得了74.6%的卓越性能,在开源模型领域创下新纪录。
据介绍,该模型基于快手自研 SeamlessFlow 工业级强化学习框架,通过创新的数据平面架构实现了训练逻辑与 Agent 的完全解耦,成功支持多智能体和在线强化学习等复杂场景。
针对复杂 Agent 场景的技术挑战,团队创新性地引入 Trie Packing 机制,并对训练引擎进行了重构优化,使模型能够高效地在共享前缀轨迹上开展训练。通过难度感知的策略优化,实现了探索与利用的平衡,并结合基于开源仓库构建的大规模端到端可验证软件工程任务,KAT-Dev-72B-Exp 在编程领域展现出强大的能力。
免费试用 KAT-Coder:https://www.streamlake.ai/product/kat-coder
KAT-Dev-72B-Exp 开源地址:https://huggingface.co/Kwaipilot/KAT-Dev-72B-Exp
