中英双语多模态对话模型 LLaSM,李开复零一万物参与

LLaSM 是一个开源可商用的中英文双语语音 - 语言助手,其相关论文“LLaSM: Large Language and Speech Model”与最近正式在 arXiv 上发布。论文的署名组织包括:LinkSoul.AI、北京大学和 01.ai (零一万物),其中共同一作 Yu Shu 和 Siwei Dong 均来自 LinkSoul.AI。

LinkSoul.AI 是一家 AI 初创公司,曾推出过首个开源 Llama 2 的中文语言大模型;零一万物则是李开复旗下的大模型公司。

“多模态大型语言模型近来备受关注。不过,大多数研究都集中在视觉-语言多模态模型上,这些模型在遵循视觉和语言指令方面具有很强的能力。然而,我们认为语音也是人类与世界互动的一种重要方式。因此,对于通用助手来说,能够遵循多模态语音语言指令至关重要。”

根据介绍,LLaSM 是一个经过端到端训练的大型多模态语音语言模型,具有跨模态对话能力,能够遵循语音语言指令。早期实验表明,LLaSM 为人类与人工智能的交互提供了一种更方便、更自然的方式。便捷的语音输入将大幅改善以文本为输入的大模型的使用体验,同时避免了基于 ASR 解决方案的繁琐流程以及可能引入的错误。

LLaSM 的模型架构如上图所示。研究人员首先使用 Whisper 将原始音频数据编码为嵌入词,然后在预训练阶段训练模态适配器,以对齐音频嵌入词和文本嵌入词。音频嵌入式和文本嵌入式连接在一起,形成交错的输入序列,输入到大语言模型中。考录到同时具备中文和英文能力,LLM 的选择则为 Chinese-LLAMA2-7B -LLAMA2-7B。在跨模态指令微调阶段,模态适配器和 LLM 会接受多任务训练。

与此同时,研究人员还发布了一个大规模的中英文语音-文本跨模态指令遵循数据集 LLaSM-Audio-Instruction;通过从 GPT4-LLM、ShareGPT 和 WizardLM 中精心挑选对话,并使用文本到语音技术生成大量对话音频数据。

该数据集共包含 19.9 万个对话和 50.8 万个语音-文本样本。在 50.8 万个语音-文本样本中,有 8 万个中文语音样本,42.8 万个英文语音样本;是目前所知最大的中英文语音-文本跨模态指令跟随数据集。不过其目前还在整理中,官方表示整理完后会进行开源。

更多详情可查看完整论文

优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/256765/llasm-open-source

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
优质分享Android(本站安卓app)

优质分享Android(本站安卓app)

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario,低调大师唯一一个Java游戏作品

Mario,低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Oracle Database,又名Oracle RDBMS

Oracle Database,又名Oracle RDBMS

Oracle Database,又名Oracle RDBMS,或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的、适应高吞吐量的数据库方案。

Eclipse(集成开发环境)

Eclipse(集成开发环境)

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)。