您现在的位置是:首页 > 文章详情

科大讯飞开源星火化学大模型和文生音效模型

日期:2025-09-25点击:93

科大讯飞近日发布了两款开源大模型:星火化学大模型 Spark Chemistry-X1-13B 和文生音频模型 AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。

Spark Chemistry-X1-13B 基于星火 X1 基座开发,专为化学任务进行了深度优化。它融合了快慢思考机制,并创新性地采用了​​解耦注意力掩码,从而显著提升了在化学知识问答、分子性质预测等任务上的表现,性能超越了主流的通用模型,为化学 AI 应用和跨学科创新提供了有力支持。

主要特点

  • 深度推理架构:结合长链思维(CoT)和双过程理论的统一框架,支持快速(反应式)和慢速(深思熟虑)两种思考模式

  • 混合训练稳定性:新颖的注意力掩码机制将不同推理模式的训练阶段解耦,防止数据分布之间的干扰

  • 化学领域增强:针对以下专业任务的多阶段优化:

    • 高级知识问答
    • 化学名称转换
    • 分子属性预测

AudioFly 是一个音频生成模型。它根据文本描述合成音效。该模型可以以 44.1 kHz 的采样率生成高质量音频。生成的音频与提示文本有很强的一致性。

AudioFly 采用了潜在扩散模型架构。该模型拥有 10 亿个参数,并在大量多样化的语料库上进行了训练。训练数据包括开源数据集,如 AudioSet、AudioCaps 和 TUT,以及专有的内部数据。该模型在单一事件和多事件场景中表现良好。在这两种情况下,生成的音频都能准确反映所描述的内容。在 AudioCaps 数据集上,AudioFly 的性能优于之前的音频生成模型。

开源地址:

https://modelscope.cn/models/iflytek/Spark-Chemistry-X1-13B
https://modelscope.cn/models/iflytek/AudioFly

原文链接:https://www.oschina.net/news/374459
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章