星辰语义大模型 TeleChat3 正式开源,完全基于国产算力训练
中国电信人工智能研究院(TeleAI)开源了星辰语义大模型 TeleChat3 系列,包含国内首个全国产化训练的千亿参数细粒度 MoE 模型 TeleChat3-105B-A4.7B-Thinking 以及稠密架构模型 TeleChat3-36B-Thinking。 据介绍,该系列模型完全基于国产算力(上海临港国产万卡算力池)训练,基础数据量达 15T tokens。TeleChat3 全系支持 Thinking 思考模式,通过在 chat template 中加入特定引导符号生成推理过程,在知识、数学、创作、代码、Agent 及指令遵循等 六 个维度均比肩业内头部模型。 目前,该系列模型已实现对昇腾 Atlas 800T A2 训练服务器及昇思 MindSpore 框架的深度适配,相关资源已在 GitHub 和 ModelScope 上线。 开源地址:https://github.com/Tele-AI/TeleChat3
