Databrick 推出 Dolly 2.0:首个真正开放和商业可行的指令调优 LLM
Databricks 发布了 Dolly 2.0,这是该公司于两周前发布的一种训练成本不到 30 美元,类似 ChatGPT 的大型语言模型 (LLM) Dolly 的改进版本。公告称,Dolly 2.0 是第一个开源的指令跟随型语言模型,它在人类生成的指令数据集上进行了微调,可用于研究和商业用途。
根据介绍,Dolly 1.0 使用了斯坦福大学 Alpaca 团队使用 OpenAI API 创建的数据集进行训练;该数据集包含 ChatGPT 的输出,而其服务条款试图阻止任何人创建与 OpenAI 竞争的模型。因此,Dolly 1.0 并不能用于商业用途。且据已知信息,目前所有现有的知名指令跟随模型 (Alpaca, Koala, GPT4All, Vicuna) 都受到此限制,禁止商业使用。为了解决这个难题,Databricks 于是决定创建一个没有商业用途限制的新数据集。
Dolly 2.0 是一个基于 EleutherAI pythia 模型系列的 12B 参数语言模型,并在透明且免费提供的数据集上进行了微调;该数据集称为 databricks-dolly-15k,也已开源发布。Databricks 表示,他们正在开源整个 Dolly 2.0,包括训练代码、数据集和模型权重,所有这些都适合商业使用。这意味着任何组织都可以创建、拥有和定制强大的 LLM,这些 LLM 可以与人们交谈,而无需支付 API 访问费用或与第三方共享数据。
databricks-dolly-15k 包含来自数千名 Databricks 员工的 15,000 个高质量的人工生成的提示/响应对,专为指令调优大型语言模型而设计。且 databricks-dolly-15k 根据(Creative Commons Attribution-ShareAlike 3.0 Unported License)的许可条款,任何人都可以出于任何目的使用、修改或扩展此数据集,包括商业应用程序。
Databricks 称这是“第一个开源的、人工生成的指令语料库,专门设计用于让大型语言能够展示 ChatGPT 的神奇交互性”。并补充到,虽然 databricks-dolly-15k 比训练 Dolly 1.0 的数据集 Alpaca 小得多,但基于 EleutherAI 的 pythia-12b 生成的 Dolly 2.0 模型表现出高质量的指令遵循行为。另一方面, databricks-dolly-15k 是由专业人士生成的、质量很高,并且包含对大多数任务的长篇答案。
Databricks 表示,他们并没有期望 Dolly 在有效性方面达到最先进水平。但确实希望 Dolly 和开源数据集将成为大量后续工作的种子,“这可能有助于引导出更强大的语言模型”。
“我们还认为,偏见、问责制和人工智能安全等重要问题应该由不同利益相关者组成的广泛社区来解决,而不仅仅是少数大公司。开源数据集和模型鼓励评论、研究和创新,这将有助于确保每个人都能从人工智能技术的进步中受益。”
要下载 Dolly 2.0 模型权重,只需访问 Databricks Hugging Face 页面,并访问 Dolly repo on databricks-labs,下载 databricks-dolly-15k 数据集。
更多详情和示例可查看官方博客。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
万能在线预览 kkFileView v4.2.0 正式发布
前言 kkFileView 自 2017 年开源至今,已经支持 23 种文件类型,上百种文件后缀的文件在线预览。已在 Gitee 收获 17.2K 、Github 收获 8.2K star, 我们一直在精心打磨 kkFileView ,旨在打造开源里最好用最强大的文件在线预览项目。 时隔 4 个月,kkFileView 迎来了 2023 年第一个版本 v4.2.0 的发布,这是一个里程碑版本,新增了更多文件类型的预览支持,并且随着这个版本的迭代,我们确立了项目脱离原公司完全社区化运营迭代的节奏,也发布了我们新的官网,新的演示站点。 官网站点:https://kkview.cn 演示站点:https://file.kkview.cn 没有了公司背景,也意味着所有的服务器费用需要社区来支持,所以我们推出了付费的知识社区 kk 开源知识星球:https://t.zsxq.com/09ZHSXbsQ 本星球用于发布最新的 kkFileView 发行包,以及解答使用 kkFIleView 遇到的任何问题,创建付费社区旨在推动以 kkFileView 为首的一系列 kk 开源项目的健康、可持续发展...
- 下一篇
openKylin & 红山开源社区开源合规与技术风险研讨会成功召开
为积极应对开源法律合规风险,助力国内开源生态高质量发展,openKylin社区联合红山开源社区于4月12日成功举办了开源合规与技术风险研讨会。 本次研讨会由红山开源平台工程师张启磊主持,openKylin社区Compliance SIG组Maintainer邢鹏、王悦良,上海探巡科技有限公司技术总监王宇,红山开源平台唐艺主任、活动负责人易比一、技术负责人李光杰,红山开源平台工程师李维昊等专家参加。 会上,红山开源平台唐艺主任为本次会议发表了致辞,红山开源平台工程师李维昊分享了《红山开源发展理念与开源合规思考》主题报告;openKylin社区Compliance SIG Maintainer邢鹏为大家分享了《openchain开源合规治理国际标准简介》主题报告;openKylin社区Compliance SIG Maintainer王悦良以《操作系统开源合规治理思考》为题进行了主题报告;上海探巡科技有限公司技术总监王宇分享了《分级建立开源软件依赖关系图谱数据库,夯实开源软件供应链基础》主题报告。 随后,进入到本次会议研讨环节,各参会专家围绕开源合规和技术风险展开了交流研讨,并提出了诸多建...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- MySQL8.0.19开启GTID主从同步CentOS8
- Mario游戏-低调大师作品
- CentOS7安装Docker,走上虚拟化容器引擎之路