中英双语多模态对话模型 LLaSM，李开复零一万物参与-低调大师

中英双语多模态对话模型 LLaSM，李开复零一万物参与

2023-09-04 507

LLaSM 是一个开源可商用的中英文双语语音 - 语言助手，其相关论文“LLaSM: Large Language and Speech Model”与最近正式在 arXiv 上发布。论文的署名组织包括：LinkSoul.AI、北京大学和 01.ai (零一万物)，其中共同一作 Yu Shu 和 Siwei Dong 均来自 LinkSoul.AI。

LinkSoul.AI 是一家 AI 初创公司，曾推出过首个开源 Llama 2 的中文语言大模型；零一万物则是李开复旗下的大模型公司。

“多模态大型语言模型近来备受关注。不过，大多数研究都集中在视觉-语言多模态模型上，这些模型在遵循视觉和语言指令方面具有很强的能力。然而，我们认为语音也是人类与世界互动的一种重要方式。因此，对于通用助手来说，能够遵循多模态语音语言指令至关重要。”

根据介绍，LLaSM 是一个经过端到端训练的大型多模态语音语言模型，具有跨模态对话能力，能够遵循语音语言指令。早期实验表明，LLaSM 为人类与人工智能的交互提供了一种更方便、更自然的方式。便捷的语音输入将大幅改善以文本为输入的大模型的使用体验，同时避免了基于 ASR 解决方案的繁琐流程以及可能引入的错误。

LLaSM 的模型架构如上图所示。研究人员首先使用 Whisper 将原始音频数据编码为嵌入词，然后在预训练阶段训练模态适配器，以对齐音频嵌入词和文本嵌入词。音频嵌入式和文本嵌入式连接在一起，形成交错的输入序列，输入到大语言模型中。考录到同时具备中文和英文能力，LLM 的选择则为 Chinese-LLAMA2-7B -LLAMA2-7B。在跨模态指令微调阶段，模态适配器和 LLM 会接受多任务训练。

与此同时，研究人员还发布了一个大规模的中英文语音-文本跨模态指令遵循数据集 LLaSM-Audio-Instruction；通过从 GPT4-LLM、ShareGPT 和 WizardLM 中精心挑选对话，并使用文本到语音技术生成大量对话音频数据。

该数据集共包含 19.9 万个对话和 50.8 万个语音-文本样本。在 50.8 万个语音-文本样本中，有 8 万个中文语音样本，42.8 万个英文语音样本；是目前所知最大的中英文语音-文本跨模态指令跟随数据集。不过其目前还在整理中，官方表示整理完后会进行开源。

更多详情可查看完整论文。

微信关注我们

原文链接：https://www.oschina.net/news/256765/llasm-open-source

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

“鸿蒙之父”王成录：明年推出鸿蒙 PC 版系统

近日，深圳开鸿数字产业发展有限公司 CEO 王成录博士在微博与网友互动，被问及是否有 PC 端鸿蒙系统时，他回复了一个“有”字。王成录曾主导鸿蒙系统开发，也曾担任华为终端 BG 软件部总裁、华为消费者业务 AI 与智慧全场景业务部总裁。2022年5月，王成录正式从华为离职，就职深圳开鸿数字产业发展有限公司（简称“深开鸿”），出任 CEO。正是有了“鸿蒙之父”的亲自答复，外界几乎可以肯定：明年会有鸿蒙版 PC 操作系统问世。今年 2 月份，鸿蒙生态企业 ——软通动力子公司鸿湖万联的工程师完成了OpenHarmony 对 PC 的初步适配，基于 OpenHarmony 3.2 Beta3 版本以及惠普某型号办公笔记本。其实有关鸿蒙 PC 操作系统的讨论由来已久。按照华为在2019年8月开发者大会上公布的时间表，鸿蒙系统应该在 2020 年登陆个人电脑，推出一款基于鸿蒙 OS 的创新国产电脑操作系统。

2023-09-04

479

PostgreSQL 全球开发小组发表于2023-08-31 PostgreSQL全球开发组织宣布第一个 PostgreSQL 16 的候选版本现在可以下载了。作为发布候选版本，PostgreSQL 16 RC 1将与PostgreSQL 16初始版本基本相同，尽管在常规之前可能会应用更多修复 PostgreSQL 16的可用性。 PostgreSQL 16 正式发布的计划日期是 2023年9月14日，有关更多详细信息，请参阅“发布时间表”部分。升级到 PostgreSQL 16 RC 1 要从早期PostgreSQL版本升级到PostgreSQL 16 RC 1，您需要使用类似于pg_upgrade或pg_dump /pg_restore的PostgreSQL主要版本之间升级的策略。有关详情,请浏览升级文档链接： https://www.postgresql.org/docs/16/upgrading.html 自 16 Beta 3 以来的变化在 Beta 3 期间，PostgreSQL 16 应用了多个错误修复。这些包括： ²COPY修复了在单个表上并发运行时的性能回...

2023-09-04

388

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。