科大讯飞开源星火化学大模型和文生音效模型
科大讯飞近日发布了两款开源大模型:星火化学大模型 Spark Chemistry-X1-13B 和文生音频模型 AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
Spark Chemistry-X1-13B 基于星火 X1 基座开发,专为化学任务进行了深度优化。它融合了快慢思考机制,并创新性地采用了解耦注意力掩码,从而显著提升了在化学知识问答、分子性质预测等任务上的表现,性能超越了主流的通用模型,为化学 AI 应用和跨学科创新提供了有力支持。
主要特点
-
深度推理架构:结合长链思维(CoT)和双过程理论的统一框架,支持快速(反应式)和慢速(深思熟虑)两种思考模式
-
混合训练稳定性:新颖的注意力掩码机制将不同推理模式的训练阶段解耦,防止数据分布之间的干扰
-
化学领域增强:针对以下专业任务的多阶段优化:
- 高级知识问答
- 化学名称转换
- 分子属性预测
AudioFly 是一个音频生成模型。它根据文本描述合成音效。该模型可以以 44.1 kHz 的采样率生成高质量音频。生成的音频与提示文本有很强的一致性。
AudioFly 采用了潜在扩散模型架构。该模型拥有 10 亿个参数,并在大量多样化的语料库上进行了训练。训练数据包括开源数据集,如 AudioSet、AudioCaps 和 TUT,以及专有的内部数据。该模型在单一事件和多事件场景中表现良好。在这两种情况下,生成的音频都能准确反映所描述的内容。在 AudioCaps 数据集上,AudioFly 的性能优于之前的音频生成模型。
开源地址:
https://modelscope.cn/models/iflytek/Spark-Chemistry-X1-13B
https://modelscope.cn/models/iflytek/AudioFly

