您现在的位置是:首页 > 文章详情

AudioGPT —— 基于 LLM 的音频助手

日期:2023-05-10点击:454

AudioGPT 是一个借助大语言模型 (LLM) 处理音频的工具。

AudioGPT 在收到用户请求时使用 ChatGPT 进行任务分析,根据语音基础模型中可用的功能描述选择模型,用选定的语音基础模型执行用户指令,并根据执行结果汇总响应。借助 ChatGPT 强大的语言能力和众多的语音基础模型,AudioGPT 能够完成几乎所有语音领域的任务。

具体来说,AudioGPT 运行过程可以分成 4 个阶段:模态转化、任务分析、模型分配和回复生成。

AudioGPT 核心功能

  • 生成音乐
  • 背景音效
  • 音频生成字幕
  • 文字生成音频
  • 文字生成音频并模拟声音
  • 根据图片生成音频
  • 对音频进行inpaint(局部屏蔽)
  • 根据音频和人脸照片合成视频
  • 检测音频中的事件,以及开始和结束时间
  • 单声道变双声道
  • 通过文本描述检测特定声音发生的时间
  • 抽取某种声音
  • 去除背景噪音
  • 多人混合声分离出单人声音
  • 语音翻译
原文链接:https://www.oschina.net/p/audiogpt
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章