DeepSeek R2 将提前推出
据路透社援引三位知情人士的消息称,DeepSeek 正在加速推出 1 月发布的 R1 模型升级版 — DeepSeek R2。
其中两位知情人士表示,DeepSeek 原计划在 5 月初发布 R2,但现在希望尽早推出,具体时间尚未透露。该公司表示,希望新模型在编程能力上表现更佳,并能够支持英语以外的多种语言进行推理。
此外,DeepSeek 在同日重新开放了 API 充值入口,此前因资源紧张,其曾一度关闭充值入口。目前 deepseek-chat 模型优惠期结束,调用价格已变更为每百万输入 tokens 2 元,每百万输出 tokens 8 元。
路透社的独家报道:
- DeepSeek原计划在5月初发布新一代R2模型,但已经开始考虑提前发布,这段时间Grok 3、Claude 3.7、Qwen 2.5-Max等竞品接连推出,还是有影响的;
- 梁文锋在距离清华、北大两所高校步行可达的地段设立了北京办公室,非常乐于和实习生以及应届生一起工作和讨论问题,而且从不鼓励加班;
- 采访中一名已经离职的研究员依然对前老板赞不绝口,「他把我们视为专家,不断提问,一起学习,而且愿意下放管理权,普通员工也能参与核心技术,这很让人兴奋」;
- 梁文锋在幻方量化时就以薪酬慷慨著称,他会给数据科学家开出150万的年薪,而同行给的数字一般不会超过80万;
- 在创办DeepSeek前,幻方量化就制定了把70%对可支配收入投入到AI研究上的战略,从2020年到2021年,幻方量化花了12亿买卡训练模型;
- 这样的异常支出让幻方量化受到了证券监管部门的注意,但最终没有做出干预,这对后来DeepSeek的问世至关重要,因为2022年开始,中国企业就不太能够合规买到A100了;
- DeepSeek-R1爆火之后,梁文锋被建议不要和媒体接触,因为担心过度炒作会引起不必要的争议,尤其是在地缘政治的风口浪尖,苟住再说;
- 另有前员工表示,DeepSeek不缺算力,能够进行大规模训练,但梁文锋对更具经济成本的模型架构非常关注,这决定了DeepSeek的发展路线以及后来的巨大成功;
- 全球的AI大厂至今都还在消化DeepSeek-R1造成的影响,也都盯着R2的时间表,它的发布会是今年AI行业的又一个关键时刻。
——转载自「阑夕」微博
阅读更多
