没人比 DeepSeek 更懂英伟达显卡
在 DeepSeek 开源周的第二天,该团队发布了 DeepEP,这是针对 MoE 模型的通信库,能提高 GPU 内核之间的吞吐量并降低延迟。此外该库还支持低精度操作,比如 FP8。
DeepSeek 团队在仓库的 README 中写道:
为了追求极致性能,我们发现并使用了一个在文档描述之外的 PTX 指令:ld.global.nc.L1::no_allocate.L2::256B。
这条指令会导致未定义行为:使用非一致性只读 PTX 修饰符 .nc 访问易失性 GPU 内存。
但是,在 Hopper 架构上,经过测试,使用 .L1::no_allocate 可以保证正确性,并且性能会好得多。
根据博主「karminski-牙医」的解读,no_allocate 这个指令出现在 CUDA PTX ISA 文档的第 214 页,但只是草草说了句用途,并没有详细解释能带来什么提升。
DeepSeek 团队从这么“深”的地方挖掘到了一个不被官方详细介绍的指令——并且带来极致的性能提升,可见他们对 CUDA 的研究程度之深,以及在 GPU 领域的积累。
CUDA PTX ISA 文档:https://docs.nvidia.com/cuda/pdf/ptx_isa_8.7.pdf

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
OpenAI 免费开放 ChatGPT 语音聊天功能
OpenAI 今天宣布,免费开放 ChatGPT 的高级语音模式 (Advanced Voice Mode),让所有用户都能体验更自然的语音对话。 ChatGPT 的语音模式由 GPT-4o mini 提供支持。该功能可以让用户通过语音与ChatGPT 沟通,用户还可以体验到自定义指令等功能。 该功能此前仅限付费订阅用户,现在所有用户均可免费使用,只需点击屏幕右下角的语音图标,即可进入专用界面,并根据需要开启或关闭麦克风、结束对话。 免费用户使用 ChatGPT 高级语音模式,在音频输入和输出上会有每日使用限制,用户在剩余 3 分钟使用时间时会收到警告,达到限额后对话将自动结束。 ChatGPT Plus 用户可以使用基于 GPT-4o 的完整版高级语音模式,每日限额是免费版的 5 倍,可以继续在高级语音中使用视频和屏幕共享功能;ChatGPT Pro 用户不设每日限额。
- 下一篇
软件供应链安全如此重要,但为什么难以解决?
软件供应链安全如今已经成了一个世界性难题。从2021年底Apache Log4j“核弹级”风险爆发,时至今日影响仍然存在,保障软件供应链安全已成为业界关注焦点。 但整体来看,软件供应链安全问题似乎并没有得以缓解,安全事件层出不穷,开源漏洞风险与日俱增。 为什么人人都知道软件供应链安全问题很重要,却难以解决? 软件供应链安全与开源息息相关 要搞清楚软件供应链安全的症结,先得厘清其涵义。 基于中国信通院的定义,软件供应链安全是指“软件供应链上软件设计与开发的各个阶段中来自本身的编码过程、工具、设备或供应链上游的代码、模块和服务的安全,以及软件交付渠道及使用过程安全的总和。” 这里是把软件供应链安全分为了两部分:一是软件自身的供应链安全,二是软件供应链交界面的安全管理。 软件自身的供应链,可以简单理解为应用的代码来源,应用的代码来源主要有两个部分:一个是产品研发自己写的代码,另一个就是引入的第三方的开源组件代码。针对这两者的安全检测也是我们常说的开发安全。 软件供应链交接界面,针对的是开源软件或者商业采购第三方软件。 这部分的供应链安全管理,主要是在交付和使用过程中进行相关的准入检测,并形成...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2整合Redis,开启缓存,提高访问速度
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Hadoop3单机部署,实现最简伪集群
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- CentOS8安装Docker,最新的服务器搭配容器使用