国内最大、性能媲美 GPT 3.5，元象开源 650 亿参数高性能大模型-低调大师

国内最大、性能媲美 GPT 3.5，元象开源 650 亿参数高性能大模型

2023-11-14 411

XVERSE-65B 是由深圳元象科技自主研发的支持多语言的大语言模型（Large Language Model），参数规模为 650 亿，本次开源的模型为底座模型 XVERSE-65B，主要特点如下：

模型结构：XVERSE-65B 使用主流 Decoder-only 的标准 Transformer 网络结构，支持 16K 的上下文长度（Context Length），能满足更长的多轮对话、知识问答与摘要等需求，模型应用场景更广泛。
训练数据：构建了 2.6 万亿 token 的高质量、多样化的数据对模型进行充分训练，包含中、英、俄、西等 40 多种语言，通过精细化设置不同类型数据的采样比例，使得中英两种语言表现优异，也能兼顾其他语言效果。
分词：基于 BPE（Byte-Pair Encoding）算法，使用上百 GB 语料训练了一个词表大小为 100,534 的分词器，能够同时支持多语言，而无需额外扩展词表。
训练框架：训练中采用 FlashAttention2 加速计算，3D 并行基础上采用虚拟流水线（virtual pipeline）技术，降低较长流水线和 16k 上下文窗口产生的过高气泡率，在千卡集群的峰值算力利用率达到业界前列。同时通过集群基础设施运营、资源调度、训练框架和调度平台协同等持续优化，打造出高稳定、低中断、强容错的训练系统，将每周有效训练率提升至 98.6%。

评测结果

硬件需求

下表列出了在 XVERSE-65B 上进行推理和微调所需要的硬件资源：

	类型	方法	内存	GPU
XVERSE-65B	训练	LoRA with ZeRO-3	1500GB	8*A800 80G
XVERSE-65B	推理	BF16/FP16	500GB	2*A800 80G

微信关注我们

原文链接：https://www.oschina.net/p/xverse-65b

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

从 JDK 11 升级到 JDK 17 的最全实践干货

1、前言上篇文章给大家带来了JDK8升级JDK11的最全实践，相信大家阅读后已经对JDK11有了比较深入的了解。2021年9月14日，Oracle发布了可以长期支持的JDK17版本，那么从JDK11到JDK17，到底带来了哪些特性呢？亚毫秒级的ZGC效果到底怎么样呢？值得我们升级吗？而且升级过程会遇到哪些问题呢？带着这些问题，本篇文章将带来完整的JDK11升级JDK17最全实践。 2、为什么升级JDK17 1）长期支持版本 JDK17是Oracle官方在2021年9月14日发布的一个长期支持（LTS）版本，意味着它将获得长期的更新和支持，有助于保持程序的稳定性和可靠性。 2）性能提升更好的垃圾回收器。综合评估，从Java 8 升级到 Java 11，**G1GC平均速度提升16.1%，ParallelGC为4.5%****，**从Java 11 升级到 Java 17，G1GC平均速度提升8.66%，ParallelGC为6.54%（基于OptaPlanner的用例基准测试表明）最大的亮点是带来了稳定版的ZGC垃圾回收器，达到亚毫秒级停顿。 3）新语法和特性 Switch表达式简...

2023-11-14

524

在过去的一年时间里（2022 年 10 月 1 日到 2023 年 10 月 1 日），DevJobsScanner 分析了来自世界各地的超过 1000 万份开发工作机会，以了解市场以及最热门、薪酬最高的编程语言。值得注意的是，本项研究只关注了来自美国的职位。在总共 1000 万个开发工作岗位中，有 130 万个有工资。在这 130 万个职位中，有 23 万个职位属于编程语言类。在这 23 万个职位中，约有 8.6 万个职位来自美国。 10 - Java Java 位列第十。DevJobsScanner 指出，Java 的工作机会大多要求份非常丰富的经验，Spring 等 Java 框架也是该行业的高薪职位。Java 开发人员的平均年薪约为 11.8 万美元。平均工资：~$118k 薪资中位数：$117k 发现的工作数量（带薪水）：23K 个查看具体的Java 职位。 9-Python Python 是当今最流行的语言之一，也是排名第九的高薪职位。Python 是一种 non-typed 的高级语言。它拥有全方位的实用工具，从脚本和工具到使用 Django 框架编写整个 Web ...

2023-11-14

419

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。