书生·浦语 200 亿参数模型 InternLM-20B 开源
9月20日,上海人工智能实验室(上海AI实验室)与商汤科技联合香港中文大学和复旦大学正式推出书生·浦语大模型(InternLM)200亿参数版本InternLM-20B,并在阿里云魔搭社区(ModelScope)开源首发。同时,书生·浦语面向大模型研发与应用的全链条工具链全线升级,与InternLM-20B一同继续全面开放,向企业和开发者提供免费商用授权。
根据介绍,中量级参数的InternLM-20B大模型性能先进且应用便捷,以不足三分之一的参数量,达到了当前被视为开源模型标杆的Llama2-70B的能力水平。
代码库链接:https://github.com/InternLM/InternLM
魔搭社区链接:https://modelscope.cn/organization/Shanghai_AI_Laboratory
相比于国内社区之前陆续开源的7B和13B规格的模型,20B量级模型具备更为强大的综合能力,在复杂推理和反思能力上尤为突出,因此可为实际应用带来更有力的性能支持;同时,20B量级模型可在单卡上进行推理,经过低比特量化后,可运行在单块消费级GPU上,因而在实际应用中更为便捷。
InternLM-20B是基于2.3T token预训练语料从头训练的中量级语言大模型。相较于InternLM-7B,训练语料经过了更高水平的多层次清洗,补充了高知识密度和用于强化理解及推理能力的训练数据。因此,在考验语言模型技术水平的理解能力、推理能力、数学能力、编程能力等方面,InternLM-20B都有显著提升。
相比于此前的开源模型,InternLM-20B的能力优势主要体现在:
- 优异的综合性能。InternLM-20B 具备优异的综合性能,不仅全面领先相近量级的开源模型(包括Llama-33B、Llama2-13B以及国内主流的7B、13B开源模型),并且以不足三分之一的参数量,测评成绩达到了Llama2-70B的水平。
- 强大的工具调用能力。InternLM-20B拓展了模型的能力边界,实现了大模型与现实场景的有效连接。InternLM-20B支持数十类插件,上万个API功能,在ToolBench评测集上获得了最佳结果,在与ChatGPT的竞赛中,胜率达到63.5%。InternLM-20B还具备代码解释和反思修正能力,为智能体(Agent)的构建提供了良好的技术基础。
- 更长的语境。通过多阶段训练拓展,InternLM-20B支持16K语境长度,从而更有效地支撑长文理解、长文生成和超长对话。 更安全的价值对齐。相比于之前版本,InternLM-20B在价值对齐上更加安全可靠。在研发训练的过程中,研究团队通过基于SFT(监督微调)和RLHF(基于人类反馈的强化学习方式)两阶段价值对齐,以及专家红队的对抗训练,大幅提高其安全性。当用户带着偏见提问时,模型能够给出正面引导。
- 全线升级的开源工具、数据体系。书生·浦语开源工具链全线升级,形成了更为完善的工具体系,其中包括预训练框架InternLM-Train、低成本微调框架XTuner、部署推理框架 LMDeploy、评测框架OpenCompass 以及面向场景应用的智能体框架Lagent。书生·浦语工具链将和开源数据平台OpenDataLab构成强大的开源工具及数据体系,共同为学术界和产业界提供全链条的研发与应用支持。
基于OpenCompass大模型评测平台,研究人员在涵盖语言、知识、理解、推理和学科能力等五大维度的50个主流评测集上,对InternLM-20B及相近量级的开源模型进行了全面测试比较。评测结果显示,InternLM-20B在全维度上领先于开源13B量级模型,平均成绩不仅明显超越Llama-33B,甚至优于被称为开源模型的标杆Llama2-70B。
在清华大学等机构联合发布的大模型工具调用评测集ToolBench 中,InternLM-20B和 ChatGPT 相比,达到了63.5%的胜率,在该榜单上取得了最优结果,表现出强大的工具调用能力。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
华为推出全新架构昇腾 AI 计算集群,可支持超万亿参数大模型训练
在华为全联接大会2023期间,华为常务董事、ICT基础设施业务管理委员会主任、企业BG总裁汪涛正式发布全新架构的昇腾AI计算集群 —— Atlas 900 SuperCluster,可支持超万亿参数的大模型训练。 据介绍,新集群采用全新的华为星河AI智算交换机CloudEngine XH16800,借助其高密的800GE端口能力,两层交换网络即可实现2250节点(等效于18000张卡)超大规模无收敛集群组网。同时使用了创新的超节点架构,大大提升了大模型训练能力。并从器件级、节点级、集群级和业务级全面提升系统可靠性,将大模型训练稳定性从天级提升到月级。 与此外,华为还发布了更开放、更易用的CANN7.0,不仅全面兼容业界的AI框架、加速库和主流大模型,还深度开放底层能力,让AI框架和加速库可以更直接地调用和管理计算资源,使能开发者自定义高性能算子,让大模型具备差异化的竞争力。 以及升级了Ascend C编程语言,以更高效的编程方式,简化算子实现逻辑,大幅缩短融合算子的开发周期,为AI模型与应用的快速开发赋能。 汪涛表示,随着人工智能进入大模型时代,大算力正在成为人工智能发展的核心引擎。华...
- 下一篇
JumpServer 漏洞通知及修复方案(JS-2023.09.15)
2023年9月11日,有用户反馈发现JumpServer开源堡垒机存在安全漏洞,并向JumpServer开源项目组进行上报。 此次发现的漏洞为: ■JumpServer的权限管理存在“未授权情况下可以访问录像文件”的漏洞,漏洞编号为CVE-2023-42442。漏洞详情请查看:https://github.com/jumpserver/jumpserver/security/advisories/GHSA-633x-3f4f-v9rw。 以上漏洞影响版本为: JumpServer v3.0.0-v3.5.4版本 JumpServer v3.6.0-v3.6.3版本 安全版本为: JumpServer版本= v3.5.5版本 JumpServer版本>= v3.6.4版本 修复方案 升级JumpServer软件至上述安全版本。
相关文章
文章评论
共有0条评论来说两句吧...