360 开源升级自研 7B 参数模型 360Zhinao3-7B
360集团宣布对其自研的7B参数模型360Zhinao3-7B进行了开源升级,可免费商用。 公告称,模型各项能力得到全面提升,在多个benchmark上表现优秀。本次开源推出的360Zhinao3-7B-O1.5模型,不止是数学和科学的单点模型,在通用能力上表现优秀,可以在端侧应用上发挥更大价值。 本次升级的360Zhinao3-7B模型,在模型参数量不变的情况下,仅增量训练了700B的高质量token(相比360Zhinao2-7B的10.1T token成本小得多),模型效果取得了显著提升。 360 方面表示,其在内部实践中的多个版本,增量训练了更多的token,但是模型效果大多增益不明显,效果不达预期。因此得到一条启示:训练数据的质量重要性,远大于训练数据的token量,不断提升训练数据的质量,是一条有前途的Scaling Law发展方向,而且模型的训练成本大幅降低,且也不会增加模型推理成本。 在数据筛选方面,项目团队加大了筛选力度,离线训练了多种数据筛选模型,对不同种类的数据进行分档打分,显著提升了数据质量。其次还进一步加大了数学、代码、指令这三种数据的占比,大幅降低网页和书籍...
