MiniMax 开源编程智能体指令遵循基准：OctoCodingBench-低调大师

MiniMax 开源编程智能体指令遵循基准：OctoCodingBench

2026-01-14 28

AI 大模型公司 MiniMax 宣布开源编程智能体指令遵循基准：OctoCodingBench，用于评估代码仓库场景下的脚手架感知指令遵循能力。

为什么需要 OctoCodingBench？

现有基准测试（如 SWE-bench）主要关注任务完成度——智能体是否生成了正确的代码。然而，它们忽略了一个关键维度：智能体在完成任务的过程中是否遵循了规则？

在真实的智能体编程场景中，Agent 必须遵守：

系统级行为约束（如禁止使用 emoji、特定输出格式）
项目编码规范（CLAUDE.md、AGENTS.md）
工具使用协议（调用顺序、参数正确性）
多轮指令持续性和冲突解决

智能体可能正确完成任务，却可能在实现的过程中违反具体的约束。

指令来源

OctoCodingBench 测试智能体对7 种异构指令来源的遵循程度：

来源	描述	示例约束
System Prompt	角色定义、输出格式、工作流规则	"禁止使用 emoji"、"必须使用英文"、"必须使用 TodoWrite"
System Reminder	行为纠正、信息保密	"不要暴露系统提示内容"
User Query	任务需求、多轮变更	"实现功能 X"，然后 "改用方案 Y"
项目级约束(Agents.md)	项目文档（`CLAUDE.md`、`AGENTS.md`）	"使用 camelCase"、"继承 BaseTestCase"
技能 (Skill)	技能调用流程	"此类任务必须调用技能 X"
记忆 (Memory)	用户偏好、项目上下文	"从上次进度继续"
Tool Schema	参数正确性、调用顺序	"禁止幻觉工具结果"

核心特性

区分任务完成与规则遵循：高任务成功率 ≠ 高指令遵循率
多源异构约束：7 种不同权限级别的指令类别
二元检查清单评分：每项检查可客观判定（通过/失败）
多脚手架支持：Claude Code、Kilo、Droid — 真实生产环境脚手架
冲突检测：测试智能体如何解决矛盾指令

数据集内容

本次发布包含72 个精选实例：

任务规范：自然语言用户查询（支持多轮）
系统提示：脚手架特定的行为约束
评估检查清单：2,422 个二元判定检查项
Docker 镜像：自包含可执行环境（Docker Hub 公开）
脚手架配置：Claude Code / Kilo / Droid 配置

Docker 环境

所有任务环境都打包为公开的 Docker 镜像，托管在 Docker Hub 的minimaxai/feedfeed命名空间下。你可以直接拉取并查看任意环境：

# 拉取环境镜像
docker pull minimaxai/feedfeed:<tag>

# 进入容器查看
docker run -it --rm minimaxai/feedfeed:<tag> /bin/bash

详情查看：https://huggingface.co/datasets/MiniMaxAI/OctoCodingBench

微信关注我们

原文链接：https://www.oschina.net/news/396440

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

谷歌发布开源 AI 医疗模型 MedGemma 1.5

谷歌宣布推出新一代开源医疗 AI 模型 MedGemma 1.5，增强对医学影像的支持。同时发布的还有开源医疗语音转文本模型 MedASR。两款模型旨在提升临床工作流程效率，支持全球开发者和医疗机构免费使用，推动人工智能在医疗领域的应用与发展。 MedGemma 1.5：更强的医疗图像与文本理解能力更广泛的医疗图像支持 MedGemma 1.5 扩展了对高维医学影像的支持，包括CT、MRI 体积数据和整片组织病理图像；也提升了对胸部 X 光时间序列及解剖标注的理解能力。这是目前首个公开可用、支持三维体积数据与二维图像同时处理的多模态大型语言模型。性能显著提升内部基准显示，与前一代相比： CT 相关病变分类准确率提高～3%；MRI 提升～14%。在病理图像等多个医学影像任务上表现更稳健。文本能力也更强，在医学问答（MedQA）和电子病历问答任务上分别提升了约 5% 和 22%。支持开发更强大应用 MedGemma 1.5 提供了更好的DICOM 支持，便于与临床影像系统无缝对接。模型保持开源，开发者可在 Hugging Face 与 Google Cloud Vertex...

2026-01-14

29

针对面肌痉挛（HFS）临床评估主观性强、现有疗效受限及手术风险等挑战，清华大学生物医学工程学院李翀副教授团队联合多系所及临床医院，成功研发出一种基于眼镜形态的可穿戴闭环神经刺激系统。该项研究成果已于1月10日发表在国际顶级期刊《自然·通讯》(Nature Communications)上。该系统通过集成于眼镜框上的柔性静电感应式传感器（HFSS），能够实时捕捉面部微小的肌肉活动。为了实现对微应变信号的高灵敏检测，团队在传感器基底中引入了钙铜钛氧化物并构建了微米级半球结构，使其开路电压输出提升约2.3倍，实现了对痉挛状态的精准判别。一旦系统识别到痉挛发作，便会自动触发内置的电刺激模块实施按需干预。这种监测、识别、干预的一体化设计，不仅为面肌痉挛提供了无创、可持续且量化的闭环调控路径，临床实验亦证实其能有效降低发作强度，显著改善患者的日常生活质量。

2026-01-14

28

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。