DeepSeek R2 将提前推出-低调大师

DeepSeek R2 将提前推出

2025-02-26 396

据路透社援引三位知情人士的消息称，DeepSeek 正在加速推出 1 月发布的 R1 模型升级版 — DeepSeek R2。

其中两位知情人士表示，DeepSeek 原计划在 5 月初发布 R2，但现在希望尽早推出，具体时间尚未透露。该公司表示，希望新模型在编程能力上表现更佳，并能够支持英语以外的多种语言进行推理。

此外，DeepSeek 在同日重新开放了 API 充值入口，此前因资源紧张，其曾一度关闭充值入口。目前 deepseek-chat 模型优惠期结束，调用价格已变更为每百万输入 tokens 2 元，每百万输出 tokens 8 元。

路透社的独家报道：

- DeepSeek原计划在5月初发布新一代R2模型，但已经开始考虑提前发布，这段时间Grok 3、Claude 3.7、Qwen 2.5-Max等竞品接连推出，还是有影响的；

- 梁文锋在距离清华、北大两所高校步行可达的地段设立了北京办公室，非常乐于和实习生以及应届生一起工作和讨论问题，而且从不鼓励加班；

- 采访中一名已经离职的研究员依然对前老板赞不绝口，「他把我们视为专家，不断提问，一起学习，而且愿意下放管理权，普通员工也能参与核心技术，这很让人兴奋」；

- 梁文锋在幻方量化时就以薪酬慷慨著称，他会给数据科学家开出150万的年薪，而同行给的数字一般不会超过80万；

- 在创办DeepSeek前，幻方量化就制定了把70%对可支配收入投入到AI研究上的战略，从2020年到2021年，幻方量化花了12亿买卡训练模型；

- 这样的异常支出让幻方量化受到了证券监管部门的注意，但最终没有做出干预，这对后来DeepSeek的问世至关重要，因为2022年开始，中国企业就不太能够合规买到A100了；

- DeepSeek-R1爆火之后，梁文锋被建议不要和媒体接触，因为担心过度炒作会引起不必要的争议，尤其是在地缘政治的风口浪尖，苟住再说；

- 另有前员工表示，DeepSeek不缺算力，能够进行大规模训练，但梁文锋对更具经济成本的模型架构非常关注，这决定了DeepSeek的发展路线以及后来的巨大成功；

- 全球的AI大厂至今都还在消化DeepSeek-R1造成的影响，也都盯着R2的时间表，它的发布会是今年AI行业的又一个关键时刻。

——转载自「阑夕」微博

微信关注我们

原文链接：https://www.oschina.net/news/335778/deepseek-rushes-launch-new-ai-model

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

阿里开源新一代 AI 视频模型通义万相 Wan2.1

阿里巴巴宣布全面开源旗下视频生成模型万相2.1模型，采用Apache2.0协议。此次开源的两个参数版本模型： 14B版本万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出，在权威评测集Vbench中，万相2.1以总分86.22%大幅超越Sora、Luma、Pika等国内外模型，稳居榜首位置。 1.3B版本万相模型不仅超过了更大尺寸的开源模型，甚至还和一些闭源的模型结果接近，同时能在消费级显卡运行，仅需8.2GB显存就可以生成480P视频，适用于二次模型开发和学术研究。根据介绍，本次开源的 Wan2.1 在处理复杂运动、还原真实物理规律、提升影视质感以及优化指令遵循方面具有显著的优势，无论是创作者、开发者还是企业用户，都可以根据自己的需求选择合适的模型和功能，轻松实现高质量的视频生成。同时，万相还支持业内领先的中英文文字特效生成，满足广告、短视频等领域的创意需求。在权威评测集VBench中，万相以总分86.22%的成绩登上榜首位置，大幅领先了Sora、Minimax、Luma、Gen3、Pika等国内外视频生成模型。基于主流的DiT和线性噪声轨迹Flow Mat...

2025-02-26

430

DeepSeek 开源周第三日宣布推出 DeepGEMM，一个支持密集和 MoE GEMM 的 FP8 GEMM 库，为 V3/R1 训练和推理提供支持。该库采用 CUDA 编写，在安装过程中无需编译，通过使用轻量级的即时编译（JIT）模块在运行时编译所有内核。相关阅读： “DeepSeek 开源周” 首发项目：FlashMLA DeepSeek 开源周第二日：开源 DeepEP 通信库

2025-02-26

273

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。