DeepSeek 公开模型原理与训练方法说明-低调大师

DeepSeek 公开模型原理与训练方法说明

2025-09-02 128

DeepSeek发布官方说明，披露了其大语言模型的训练原理、数据来源等信息。DeepSeek表示其线上服务基于深度神经网络大模型，采用“预训练—优化训练”两阶段流程。

在预训练阶段，模型通过大规模自监督学习获取通用语言能力；在优化训练阶段，则使用有监督微调（SFT）或强化学习（RL）对模型进行任务适配；最终部署的模型以自回归方式实时生成文本，而非简单的信息检索。

数据来源方面，预训练语料由互联网公开信息和第三方合作数据组成，不主动收集个人信息。优化训练阶段的数据由研究团队自建问答对，少量样本可能源自用户输入，但均经过了去标识化、加密及匿名化处理，并为用户提供了退出机制。

完整内容查看：https://cdn.deepseek.com/policies/zh-CN/model-algorithm-disclosure.html

微信关注我们

原文链接：https://www.oschina.net/news/369790

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

openKylin 嵌入式系统发力工业领域：与松科智能 AI 视觉小车、机械臂共拓应用新场景

近日，OpenAtom openKylin（简称“openKylin”）2025年度开发者大会在北京盛大启幕，活动现场展示区展演重要进展 —— 广东松科智能科技有限公司（简称“松科智能”）研发的AI视觉小车与机械臂，已成功完成在 openKylin 操作系统的适配调试，两款设备均搭载飞腾派作为主控板，标志着openKylin嵌入式系统在工业场景的应用落地迈出关键一步。活动现场，openKylin生态委员会主任李震宁现场开展技术演示，生动展现了 openKylin操作系统的工业应用实力。演示中，搭载openKylin系统的松科AI 视觉小车表现亮眼 —— 在无人驾驶模式下沿预设路线平稳行驶，面对手势指令能快速响应转向、启停等操作，遇到障碍物时更是毫秒级完成识别与规避，全程运行流畅无卡顿；松科AI视觉机械臂则精准完成多场景任务，不仅能通过视觉识别快速区分不同颜色色块并分类放置，还可基于算法进行路径规划与简易计算。与会嘉宾近距离观摩体验，切实感受到openKylin系统在支持智能硬件协同控制、复杂场景实时响应等方面的强大能力，对系统的稳定性与兼容性给予高度认可。此次适配测试以搭载 P...

2025-09-02

110

腾讯宣布开源在国际机器翻译比赛拿下30个第1名的翻译模型 Hunyuan-MT-7B，除了中文、英语、日语等常见语种，也包含捷克语、马拉地语、爱沙尼亚语、冰岛语等小语种。 Hunyuan-MT-7B 总参数量仅7B，支持33个语种、5种民汉语言/方言互译，是一个能力全面的轻量级翻译模型。同时开源的还有一个翻译集成模型 Hunyuan-MT-Chimera-7B （奇美拉），是业界首个翻译集成模型，它能够根据原文和多个翻译模型给出的不同内容，再生成一个更优的翻译结果，不仅原生支持Hunyuan-MT-7B，也支持接入 deepseek 等模型，对于一些有专业翻译需求的用户和场景，可以提供更加准确的回复。公告称，在业界常用的翻译能力测评数据集 Flores200上，腾讯混元Hunyuan-MT-7B模型也有卓越的效果表现，明显领先于同尺寸模型，与超大尺寸模型效果对比也不逊色。取得全面领先的成绩，离不开技术上的全面突破，针对翻译场景，腾讯混元提出了一个完整的翻译模型训练范式，覆盖从预训练、到CPT再到监督调参、翻译强化和集成强化全链条，使得模型的翻译效果达到业界最优。 Hunyuan-...

2025-09-02

121

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。