您现在的位置是:首页 > 文章详情

AMD 开源首款小语言模型 AMD-135M

日期:2024-09-29点击:114

AMD 宣布推出 AMD-135M —— Llama 家族的第一个小型语言模型。该模型具有推测解码功能,其训练代码、数据集和权重都是开源的,以便开发人员可以重现该模型并帮助训练其他 SLM 和 LLM。

“大语言模型通常使用自回归方法进行推理。然而,这种方法的一个主要限制是每次前向传递只能生成单个 token,导致内存访问效率低下并影响整体推理速度。

推测解码的出现解决了这个问题。其基本原理是使用小型草稿模型生成一组候选 token,然后由更大的目标模型进行验证。这种方法允许每次前向传递生成多个 token,而不会影响性能,从而显著减少内存访问消耗,并实现几个数量级的速度提升。”

公告称,AMD-135M 使用 AMD Instinct MI250 加速器从头开始训练,拥有 6700 亿个 token,包括 AMD-Llama-135M 和 AMD-Llama-135M-code 两个型号。

  • 预训练:使用四个 MI250 节点,在六天内用 6700 亿个通用数据 token 从头开始训练 AMD-Llama-135M 模型。
  • 代码微调:AMD-Llama-135M 代码变体利用另外 200 亿个代码数据 token 进行了微调,在同一硬件上耗时四天。

更多详情可查看官方公告

下载地址:https://huggingface.co/amd/AMD-Llama-135m

原文链接:https://www.oschina.net/news/314113/amd-135m
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章