WenetSpeech-Chuan:多维标注大规模四川话语音语料库开源
西北工业大学音频语音与语言处理研究组(ASLP@NPU)联合希尔贝壳、中国电信人工智能研究院、南京大学和 Wenet 开源社区,提出了 WenetSpeech-Chuan,首个大规模多维标注的川渝方言语音语料库,涵盖 10000 小时、9 大领域的川渝方言语音数据,并包含 ASR 转录、文本置信度、说话人情感、年龄、性别、语音质量评分等多种标注信息。 据介绍,团队自主研发 Chuan-Pipeline 数据处理框架,创新采用 LLM-GER 转录纠错技术,显著提升方言识别准确率。实验结果表明,基于 WenetSpeech-Chuan 训练的模型在川渝方言 ASR 与 TTS 任务中表现优异,性能超越最先进(SOTA)的系统,并与商业系统相媲美,凸显了该数据集与流程的重要价值。 Chuan-Pipeline 概览 此项工作有效解决了四川话研究资源匮乏的难题,为推进方言语音技术公平发展提供重要基础支撑。语料库、基准测试及技术报告已在 GitHub 全面开源。 WenetSpeech-Chuan 项目团队还发布了 WSC-Eval,这是一个全面的川渝方...


