AMD 开源首款小语言模型 AMD-135M-低调大师

AMD 开源首款小语言模型 AMD-135M

2024-09-29 272

AMD 宣布推出 AMD-135M —— Llama 家族的第一个小型语言模型。该模型具有推测解码功能，其训练代码、数据集和权重都是开源的，以便开发人员可以重现该模型并帮助训练其他 SLM 和 LLM。

“大语言模型通常使用自回归方法进行推理。然而，这种方法的一个主要限制是每次前向传递只能生成单个 token，导致内存访问效率低下并影响整体推理速度。

推测解码的出现解决了这个问题。其基本原理是使用小型草稿模型生成一组候选 token，然后由更大的目标模型进行验证。这种方法允许每次前向传递生成多个 token，而不会影响性能，从而显著减少内存访问消耗，并实现几个数量级的速度提升。”

公告称，AMD-135M 使用 AMD Instinct MI250 加速器从头开始训练，拥有 6700 亿个 token，包括 AMD-Llama-135M 和 AMD-Llama-135M-code 两个型号。

预训练：使用四个 MI250 节点，在六天内用 6700 亿个通用数据 token 从头开始训练 AMD-Llama-135M 模型。
代码微调：AMD-Llama-135M 代码变体利用另外 200 亿个代码数据 token 进行了微调，在同一硬件上耗时四天。

微信关注我们

原文链接：https://www.oschina.net/news/314113/amd-135m

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

将 OpenAI 转变为真正的商业公司正在使其分崩离析

今年以来，由于公司价值观的争议和领导层之间的斗争，OpenAI 的高管和研究人员纷纷离职。不到两年的时间里，OpenAI 从一个鲜为人知的非营利实验室，迅速转型为一个举世闻名的企业，其首席执行官已成为人工智能革命的代表人物。这种转变正在使公司分崩离析。周三，OpenAI 的首席技术官成为最新一位宣布离职的备受瞩目的高管，在公司准备转型为营利性企业之际选择了离开。这些离职事件公开爆发了公司内部自 ChatGPT 推出以来日益加剧的紧张关系，而这些紧张在 CEO 山姆·奥特曼去年短暂离职后回归时尤为明显。部分紧张关系源于 OpenAI 最初致力于为公众利益开发 AI 的使命，与新推出的盈利产品之间的矛盾。而另一些则来自公司内部充满戏剧性的高层斗争。首席技术官米拉·穆拉蒂是今年以来离职的 20 多位 OpenAI 研究人员和高管之一，其中还包括奥特曼的几位联合创始人。现任和前任员工认为，OpenAI 过于急于发布产品公告和进行安全测试，并且已经失去了对竞争对手 AI 开发者的领先优势。他们认为 Altman 大多游离于日常事务之外——公司对此表示异议——因为他一直在全球奔走，推广...

2024-09-29

308

9月29日消息，基准测试平台Chatbot Arena日前公布最新大模型盲测榜单，10天前发布的阿里通义千问开源模型Qwen2.5再次闯入全球十强，其大语言模型Qwen2.5-72B-Instruct排名LLM榜单第十，是前十唯一的中国大模型；Qwen系列视觉语言模型Qwen2-VL-72B-Instruct排名Vision榜单第九，是得分最高的开源大模型。同一时间，全球开源社区基于Qwen系列二次开发的衍生模型数量突破7.43万，超越Llama系列衍生模型的7.28万。通义千问Qwen成长为世界最大的生成式语言模型族群，在Hugging Face社区的开源模型权威榜单Open LLM Leaderboard上，Qwen系列及其衍生模型包揽了前十全部座次。不论是模型性能还是生态影响力，Qwen都创造了中国开源大模型的历史。 Qwen2.5-72B-Instruct排名Chatbot Arena大语言模型榜单第十 Chatbot Arena是由开放研究机构LMSYS Org推出的大模型性能测试平台，自2023年5月推出以来一直是世界顶级大模型的最重要竞技场。平台目前集成了全球70...

2024-09-29

663

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。