首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/396445

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

MiniMax 开源编程智能体指令遵循基准:OctoCodingBench

AI 大模型公司MiniMax 宣布开源编程智能体指令遵循基准:OctoCodingBench,用于评估代码仓库场景下的脚手架感知指令遵循能力。 为什么需要 OctoCodingBench? 现有基准测试(如 SWE-bench)主要关注任务完成度——智能体是否生成了正确的代码。然而,它们忽略了一个关键维度:智能体在完成任务的过程中是否遵循了规则? 在真实的智能体编程场景中,Agent 必须遵守: 系统级行为约束(如禁止使用 emoji、特定输出格式) 项目编码规范(CLAUDE.md、AGENTS.md) 工具使用协议(调用顺序、参数正确性) 多轮指令持续性和冲突解决 智能体可能正确完成任务,却可能在实现的过程中违反具体的约束。 指令来源 OctoCodingBench 测试智能体对7 种异构指令来源的遵循程度: 来源 描述 示例约束 System Prompt 角色定义、输出格式、工作流规则 "禁止使用 emoji"、"必须使用英文"、"必须使用 TodoWrite" System Reminder 行为纠正、信息保密 "不要暴露系统提示内容" User Query 任务需求、多轮...

爱诗科技发布全球首个通用实时世界模型:PixVerse R1

爱诗科技发布全球首个通用实时世界模型 PixVerse R1。 据介绍,该模型凭借瞬时响应引擎,将生成延迟缩短至“瞬时”阈值,彻底终结了“异步渲染”时代。基于自回归流式机制,用户可像导演般在生成时实时改写指令,实现 1080P 高清视听同步。从此视频不再是封闭的“内容成品”,而是可交互、可延续、可共同演进的数字世界。 PixVerse R1 主要技术亮点: 统一模型:统一的文本、音频和视频处理。 无限流媒体:通过自回归建模实现持续、长期的视频流。 即时响应引擎:突破性的低延迟采样(1-4 步)。 爱诗科技由前字节跳动 AI Lab 总监王长虎创立,目前全球用户破 1 亿,月活超 1600 万。凭借极强的变现潜力,公司已获阿里巴巴领投的逾 6000 万美元融资,ARR 突破 4000 万美元。

相关文章

发表评论

资源下载

更多资源
优质分享App

优质分享App

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Nacos

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称,一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集,帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux

Rocky Linux(中文名:洛基)是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版,作为CentOS稳定版停止维护后与RHEL(Red Hat Enterprise Linux)完全兼容的开源替代方案,由社区拥有并管理,支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性,采用模块化包装和SELinux安全架构,默认包含GNOME桌面环境及XFS文件系统,支持十年生命周期更新。

用户登录
用户注册