您现在的位置是:首页 > 文章详情

昆仑万维开源「天工」Skywork-13B 系列大模型,0 门槛商用

日期:2023-10-30点击:107

昆仑万维宣布开源百亿级大语言模型「天工」Skywork-13B系列,并配套开源了600GB、150B Tokens的超大高质量开源中文数据集。昆仑万维「天工」Skywork-13B系列目前包括130亿参数的两大模型:Skywork-13B-Base模型、Skywork-13B-Math模型。

除模型开源外,Skywork-13B系列大模型还将开源600GB、150B Tokens的高质量中文语料数据集Skypile/Chinese-Web-Text-150B。公告称,这是目前最大的开源中文数据集之一。同时,昆仑万维「天工」Skywork-13B系列大模型即将全面开放商用;开发者无需申请,即可商用。

“此次Skywork-13B系列大模型将全面开放商用许可,用户在下载模型并同意并遵守《Skywork模型社区许可协议》后,无需再次申请授权即可将大模型进行商业用途。希望用户能够更便捷地探索Skywork-13B系列大模型技术能力,探索在不同场景下的商业化应用。”

Skywork-13B-Base模型

Skywork-13B-Base模型是Skywork-13B的基础模型,其经由3.2万亿个多语言高质量数据训练,在CEVAL、CMMLU、MMLUGSM8K等评测与基准测试上都展现了同等规模模型的最佳效果。

Skywork-13B-Math模型 

Skywork-13B-Math模型经过专门的数学能力强化训练,在GSM8K等数据集上取得了同等规模模型的最佳效果。 

Skypile/Chinese-Web-Text-150B数据集 

该数据集是根据昆仑天工团队方面经过精心过滤的数据处理流程从中文网页中筛选出的高质量数据。本次开源的数据集大小约为600GB,总token数量约为150B,目前开源最大的中文数据集之一。

一些评测结果如下所示:

 

更多详情可查看官方公告

原文链接:https://www.oschina.net/news/264137
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章