您现在的位置是:首页 > 文章详情

IBM 发布了自动为新闻播报生成字幕的 AI 模型

日期:2019-05-17点击:434

近日,IBM 研究院发布了自动为新闻播报生成字幕 AI 模型的研究报告。据两项测试实验的结果显示,该语音识别系统的错误率分别为 6.5% 和 5.9%,而人类识别的错误率分别为 3.6% 和 2.8%。

△ 图源:IBM,下同

早在两年前,IBM 就已经创造了对话式电话语音领域(CTS)转录的性能记录。在这个领域,语音识别系统需要做的工作很多。例如,系统必须处理失真、以及来自多个不同电话通道的即兴演讲,并且这些对话式语音还可能有多个对话者重叠、中断、重新开始或重复确认的情况。

新闻播报(BN)的语音识别任务也很有挑战性。语音识别系统需要处理多种说话风格、背景噪音以及广泛的新闻领域内容。一些情况下系统还得处理多种题材混合的语音材料 —— 像是现场采访、电视节目的剪辑内容等。

△ 研究进展:CTS 及 BN 测试集单词错误率逐年降低

为了成功地识别复杂的语音内容、给新闻播报内容生成字幕,IBM 研究团队通过语音识别技术,建立了一套深度神经网络。该深度神经网络在整合了长短期记忆网络和深度残差网络(residual network,ResNet)的基础上,结合了辅助的语言模型。其中,以 ResNet 为基础打造的声学模型是含有多达 25 个卷积层的深度卷积网路,使用 1,300 个小时、多种不同的新闻内容资料来训练生成字幕的 AI 模型。

虽然机器的语音识别正在逐渐接近人类水准,但目前的实验数据显示,人类的语音识别表现仍旧好得多。IBM 也表示,在这一领域仍有很大技术改进的空间。

原文链接:https://www.oschina.net/news/106760/ibm-released-automatic-broadcast-news-captioning
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章