Hugging Face 发布开放权重模型贡献榜:Qwen 与 DeepSeek 跻身 TOP15
Hugging Face 近日发布开放权重模型贡献榜,中国团队Qwen和DeepSeek成功入围前15名。该榜单表彰为开源社区提供高质量模型权重的团队,其模型广泛应用于学术与产业创新。
由阿里巴巴云智能集团支持的Qwen团队,以Qwen3系列模型在指令跟随、代码生成等任务中的优异表现受到社区青睐。Qwen2.5-72B系列位列开源大语言模型前列,其轻量化模型QwQ-32B通过强化学习优化,在数学推理和代码生成中媲美大型模型,大幅降低部署成本。
DeepSeek则以低成本、高性能的R1系列模型闻名。R1-0528在LiveCodeBench排行榜中超越多个国际竞品,仅次于OpenAI顶尖模型。其轻量化版本DeepSeek-R1-0528-Qwen3-8B通过知识蒸馏技术,单GPU即可运行,在AIME2025数学测试中击败Google的Gemini2.5Flash,展现了在特定领域的竞争优势。
Qwen和DeepSeek的入榜反映了中国AI团队在开源生态中的崛起。Hugging Face负责人表示,两团队的贡献为全球开发者提供了高效资源。NVIDIA首席执行官黄仁勋也赞扬其性能与成本平衡正在重塑AI格局。未来,Qwen计划探索多模态技术,DeepSeek则将推出R2模型,持续推动AI创新。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
🔥 Solon Flow 设计器入门
探索视频:
- 下一篇
百度百舸万卡集群的训练稳定性系统设计和实践
01 AI 训练稳定性的演进历程 2012 年 ImageNet 竞赛中 AlexNet 的横空出世,开启了现代 AI 发展的新纪元。彼时我们不会想到,十年后支撑 AI 训练的 GPU 集群会从研究室里的几台服务器,发展成需要专门供电系统的万卡级计算矩阵。在这个算力爆发式增长的过程中,训练系统的稳定性管理正经历着从「简单运维」到「精密工程」的深刻变革。 1.1 标早期的小模型时代:手动运维的黄金年代 2022 年之前的 AI 训练,更像是手工作坊式的精雕细琢。大多数训练任务只需十几块 GPU,利用 PyTorch 或 TensorFlow 的数据并行功能就能轻松应对。记得那时算法工程师们有个共识:如果训练遇到问题,重启往往比排查更高效。 当时我们构建的监控系统就像汽车仪表盘,只能显示最基本的任务状态。当训练意外中断时,工程师们会像侦探一样翻查日志 —— 如果发现是 GPU 报错,就联系运维同事。运维人员则带着「NVIDIA三件套」(nvidia-smi、dcgm、nsys)到机房巡检,像老中医把脉般通过温度、功耗等指标判断硬件状态。这种工作模式虽简单,但应对数十卡规模的集群还算游刃有余...
相关文章
文章评论
共有0条评论来说两句吧...