首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/335878

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

没人比 DeepSeek 更懂英伟达显卡

在 DeepSeek 开源周的第二天,该团队发布了 DeepEP,这是针对 MoE 模型的通信库,能提高 GPU 内核之间的吞吐量并降低延迟。此外该库还支持低精度操作,比如 FP8。 DeepSeek 团队在仓库的 README 中写道: 为了追求极致性能,我们发现并使用了一个在文档描述之外的 PTX 指令:ld.global.nc.L1::no_allocate.L2::256B。 这条指令会导致未定义行为:使用非一致性只读 PTX 修饰符 .nc 访问易失性 GPU 内存。 但是,在 Hopper 架构上,经过测试,使用 .L1::no_allocate 可以保证正确性,并且性能会好得多。 根据博主「karminski-牙医」的解读,no_allocate这个指令出现在CUDA PTX ISA 文档的第214 页,但只是草草说了句用途,并没有详细解释能带来什么提升。 DeepSeek 团队从这么“深”的地方挖掘到了一个不被官方详细介绍的指令——并且带来极致的性能提升,可见他们对 CUDA 的研究程度之深,以及在 GPU 领域的积累。 CUDA PTX ISA 文档:https:/...

GPT 4.5 似乎即将发布

就在刚刚,有用户发现他们在 ChatGPT 的 Android 版本上看到了“GPT 4.5 研究预览”(GPT 4.5 research preview)的标记,并提示“将为 Pro 用户提供最新模型”。 大家不禁猜测,GPT 4.5 似乎即将发布。 从图片内容来看,ChatGPT 显示了一条通知,内容如下: “Pro users now have access to our newest, largest model.” (Pro 订阅用户现在可以访问我们最新、最大的模型。) “Try the GPT-4.5 research preview” (尝试 GPT-4.5 研究预览版) 仅限 Pro 用户:只有 Pro 订阅用户可以使用 GPT-4.5,而 Plus 或免费用户可能无法访问。 模型更大更先进:GPT-4.5 被描述为 “newest, largest model”(最新、最大的模型)。

相关文章

发表评论

资源下载

更多资源
优质分享App

优质分享App

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Apache Tomcat

Apache Tomcat

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

JDK

JDK

JDK是 Java 语言的软件开发工具包,主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心,它包含了JAVA的运行环境(JVM+Java系统类库)和JAVA工具。