【NeurIPS'24】阿里云 PAI 团队论文被收录为 Spotlight,并完成主题演讲分享
当地时间12月10日,人工智能领域全球顶级学术会议 NeurIPS (Annual Conference on Neural Information Processing Systems) 在加拿大温哥华正式召开。官方数据显示,NeurIPS 2024共收到超一万五千篇有效论文投稿,投稿量创新高,参会人数超万人规模。
阿里云 PAI 团队的论文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations》被 NeurIPS D&B Track 2024 收录,并被列为 Spotlight,本年度 NeurIPS 的 Spotlight 论文录取率仅为3%。论文通过对大语言模型真实知识能力的评估,揭示现有静态评测集指标的可信性问题以及大语言模型知识掌握中的各种弱点,并指导改进的发展。
同时,在本次会议中,PAI 团队为参会者带来主题演讲分享、AI 工程化平台产品能力 Demo。演讲分享的议题为“可信 AI 的技术解读与最佳实践”,深入研讨在大语言模型广泛应用的当下,如何保障使用 AI 全流程的安全、可靠和可信。
中选论文
论文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations》被 NeurIPS 2024 收录,并入选 Spotlight。PertEval 是一款大型语言模型评估工具包,通过引入“知识不变扰动”的创新概念,对静态基准(static benchmarks)进行改写,从而更准确地揭示大型语言模型(LLMs)的真实知识能力。
革新评估方式,提升可信度
传统上,评估 LLM 性能的方法依赖于静态基准测试,例如 MMLU 和 C-Eval 等,这些方法虽然广泛使用,但存在明显的局限性和数据污染风险,导致对模型真实能力的认知失真。PertEval 通过应用知识不变扰动,确保了在不改变模型所识别和应用的知识前提下,对原始评估问题进行修改。这种方法缓解了由于记忆效应和数据污染造成的评估失真问题,显著提高评估结果可靠性。
揭示现有评估方法的不足
研究团队利用 PertEval 重新评估了六个代表性的 LLM,包括 GPT-4,并发现这些模型在MMLU 等静态基准上的表现被显著高估,其中 GPT-4 的表现被绝对高估了26%。进一步分析显示,这种虚高的性能主要源自 LLM 面对不确定知识时表现出的犹豫不决,以及对正确答案的死记硬背现象。这表明当前的评估方法可能无法充分反映 LLM 在实际应用中的表现。
推动行业进步,指导未来研究
这项研究表明,为了更好地理解和改进 LLM 的能力,需要一种能够体现其真实性能的评估方法。PertEval 提供了一种新的视角和工具,以帮助研究人员和开发者更准确地评估和优化 LLM。后续,计划将 PertEval 整合到 PAI 平台中,支持一键式开启任意模型(无论是 API、开源还是微调后的模型)的真实能力评估。此外,还将通过 leadboard 的方式向开发者社区反馈主流 LLM 的“知识能力”度量,促进整个行业的健康发展。
PertEval 的推出标志着在提升 LLM 评估准确性方面迈出的重要一步,为推动 AI 技术的进步提供了有力的支持。随着这一工具的广泛应用,我们期待看到更加可靠和公平的模型评估标准,以及由此带来的技术创新。
论文标题:PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations
论文作者:Jiatong Li, Renjun Hu, Kunzhe Huang, Yan Zhuang, Qi Liu, Mengxiao Zhu, Xing Shi, Wei Lin
论文地址:https://arxiv.org/abs/2405.19740
演讲分享
演讲标题:可信 AI 的技术解读与最佳实践
Core Technical Interpretation and Best Practices of Responsible AI
演讲人:林伟 | 阿里云智能集团研究员、人工智能平台 PAI 负责人
演讲为 NeurIPS 参会者带来阿里云人工智能平台 PAI 的企业级可信 AI 解决方案以及技术解析。PAI 平台提供的安全、可靠和可信的 AI 解决方案,通过确保数据合规与安全、算法稳健性与可靠性、模型可信度和基础设施安全与稳定性这四大关键要素得以实现。为实现可信 AI,PAI 团队创新性地提出了 T 型安全架构。从垂直的角度考虑,从下至上保障云计算基础设施、数据和模型、AI 应用的安全;从水平的角度考虑,覆盖数据准备、模型训练和模型部署的 AI 开发全链路。目前,可信 AI-公平性分析、可信 AI-错误分析功能均已上线,欢迎您前往阿里云人工智能平台 PAI 体验。
更多原理介绍和操作步骤,请参考产品文档 「人工智能平台 PAI-Responsible AI」:https://help.aliyun.com/zh/pai/use-cases/responsible-ai。
产品能力展示
主题:AI Native 的大模型与 AIGC 工程平台
阿里云人工智能平台 PAI 提供包含数据集管理、算力管理、模型工具链、模型开发、模型训练、模型部署、AI 资产管理在内的功能模块,内置100+种大模型最佳实践,为用户提供高性能、高稳定、企业级的大模型工程化能力。在本次平台产品能力 Demo 环节,人工智能平台 PAI 为大家带来包含以下多个实操展示:
1、以 Qwen2.5-Coder 为例,完成大语言模型微调训练、部署和评测
2、通过 PAI-EAS,搭建企业级大模型 RAG 对话系统
3、通过 PAI-裁判员模型,实现高效易用的智能模型评测
4、通过 PAI-Artlab,体验自动化的一站式 AIGC 设计平台
现场数百位参会者体验 PAI 平台的能力。目前,所有 Demo 均已在线上开放,欢迎您前往阿里云人工智能平台 PAI 体验。
如您对我们的论文或产品感兴趣,或希望加入我们,欢迎您前往 NeurIPS2024 - Alibaba Cloud 展台深入交流(West Hall A-Sponsor Exhibit Hall booth 143),期待您的到来!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
EXPLAIN:解说一条简单 SQL 语句的执行计划
在MySQL里,当通过各种手段抓取到影响系统性能的慢SQL语句后,此刻想知道这条SQL语句为何会慢的答案。 >作者:杨涛涛,爱可生技术专家。 > >爱可生开源社区出品,原创内容未经授权不得随意使用,转载请联系小编并注明来源。 在MySQL里,当通过各种手段抓取到影响系统性能的慢SQL语句后,此刻想知道这条SQL语句为何会慢的答案。大致有以下方式: 凭借个人已知的SQL优化经验进行SQL改写。 对照公司严格要求的开发规范进行SQL改写。 查看对应SQL 语句的执行计划,从结果中分析SQL是否使用合适的索引、是否走了合适的表关联顺序、是否走了合适的表关联算法等。 通过以上三种方式审阅后,是否需要反馈给业务方来修改SQL语句的逻辑或者说是变更SQL 语句涉及到的表结构。 虽然以上几种方式一般都需要互相结合来验证SQL的优化效果,仅凭一种方式来直接定位出SQL是否足够优化不太可能,但是每种方式都需要依赖第三种方式,通过直接和数据库交互来查看数据库的执行计划,能够比较直观的展示SQL执行的过程。在MySQL里查看SQL 语句执行计划的方式是使用EXPLAIN 语句。 EXPLA...
- 下一篇
写个小工具,AI 纯度 99%!开源 Auto-Coder 要怎么玩?
Byzer-SQL 作者、Kyligence 技术合伙人祝海林,今年 3 月又开源了一个新项目 Auto-Coder 。它是一个 AI 驱动交互式编码助手,支持命令行和VSCode插件。 祝海林于 2008 年开始在线音乐领域创业,此后在 CSDN、乐视云、丁香园等知名公司任职,现专注于用 AI 革新数据与编程领域。 他还用 Auto-Coder 这个编程助手写了几个小工具,AI 纯度 99%: Video-Monkey:一款视频处理工具,使用创新的文本编辑和聊天界面进行视频编辑。 Web-typing auto-complete:一款 Chrome 扩展,旨在加速用户输入。 最好玩的是,Auto-Coder本身,也是用 Auto-Coder写的。(那么问题来了,是先有蛋还是先有鸡?) Auto-Coder 有多个版本,用户可以根据自己需求选择。 auto-coder.chat 是命令行版本,效率最高,适合专业研发使用。 auto-coder-copilot 是VSCode 插件版本,适合刚入门同学使用(稳定性还在持续迭代中) auto-coder.serve 提供了 Rest ...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- 2048小游戏-低调大师作品
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- SpringBoot2全家桶,快速入门学习开发网站教程
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS6,CentOS7官方镜像安装Oracle11G