搜狗 AI 交互技术部总经理陈伟:未来AI语音交互产品将会走向多模态
云栖号资讯:【点击查看更多行业资讯】
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!
受限于人工同传或速记人员费用高、记忆力及翻译 / 速记速度有限等因素,搜狗 AI 录音笔逐渐出现在越来越多会议场景中,AI 录音笔可以将演讲者的语音实时转成文本,并且进行同步翻译,很大程度上取代了人工同传和速记人员,帮助人们实现了不同语言间的低成本交流。那么,这背后又有哪些智能语音技术作为支撑?在 AICon 大会召开前夕,InfoQ 有幸采访了搜狗 AI 交互技术部总经理陈伟,听他分享搜狗 AI 交互技术的发展历程及应用实践。
背 景
随着深度学习技术的兴起,人们已经看到了 AI 在感知识别层面如语音、视觉等领域取得的惊人成果,AI 智能语音技术也正在快速走向实用。搜狗近年来一直在 AI 领域持续布局,语音识别在搜狗输入法的大规模应用也呈现出渐行渐好的趋势。
借此契机,陈伟于 2012 年 8 月加入搜狗,负责带领搜狗 AI 交互技术团队,围绕搜狗“自然交互 + 知识计算”的 AI 战略,重点布局搜狗多模态人机交互技术的研发和产品化工作,研究的领域覆盖了多模态人机交互系统的各项技术,同时重点研究如何结合感知和认知方向的技术打造出自然的人机交互体验,期间还带领团队研发了搜狗分身、机器同传、个性化合成、变声等前沿性的 AI 创新能力,目前研发的技术重点服务于搜狗的输入法、搜索、AI 硬件等核心产品,同时也在以搜狗 AI 开放平台的方式对外输出。
搜狗 AI 交互技术的发展历程
近年来,搜狗在智能语音交互上取得了一定成绩,在车载、智能家居、可穿戴移动设备上都有规模化落地。但在智能语音交互技术的推进过程中,搜狗也是在不断的尝试和探索中蜿蜒前行。
通常,语音录入和转写的准确率要依赖于真实场景而定,受限于噪声、口音、讲话方式等因素的影响,准确率会有一定的差异。但是目前搜狗在转写上已经具备了较强的鲁棒性,针对不同场景的识别效果波动性已经有明显减小。广义的语音识别不仅限于内容的识别,还包括了语音分析等核心技术,例如搜狗的同传 3.0 技术以“多模态”和“自主学习“为核心,加入视觉 (OCR) 和思维能力(知识图谱),让机器同传不仅会听,还首次具备了会看、能理解会推理的能力。
在采访中,陈伟表示,搜狗在智能语音交互技术的发展,主要分为以下几个阶段:
1、语音搜索阶段
语音搜索方便了用户在搜狗搜索上快捷的检索,早期识别准确率不够高,但是搜索可以返回多个检索结果,很大程度可以降低识别错误带来的影响。目前搜狗识别准确率已经达到较高的水平,搜狗搜索已经可以根据用户语音搜索请求直接给出答案,用户体验感有了较大提升。
2、语音输入阶段
搜狗语音输入能帮助用户更高效、快捷地输入内容,语音输入的最高输出效率目前能达到每分钟 300~400 个字,特别是伴随着数据、算法和算力的不断提升,语音输入识别准确率也得到了大幅提升,近几年,搜狗每年的识别字错误率都能保持 30% 以上的下降,语音输入的日 PV 已经达到 10 亿 +。但是,快速发展的背后也让搜狗发现通用的语音输入无法解决用户个性词的识别,比如通讯录、工作领域的词汇等,所以去年搜狗发布了个性化语音识别能力,能够基于用户在搜狗输入法的用户词库,实时优化语音识别效果,针对个性化词的识别错误率下降了 40%。
3、语音翻译阶段
语音翻译能够方便用户进行实时跨语言的交流,结合搜狗在语音识别、机器翻译、语音合成领域的技术积累,2016 年搜狗推出了首款商用 AI 同传系统—搜狗同传,能够实时查看或收听同传译文,目前已经支持了大会演讲、线上直播、远程会议等多个场景,同时在输入法、录音笔等产品上也上线了同传的功能。此外,搜狗还推出了搜狗翻译机,这是业内较早地将语音翻译能力进行离线化的尝试,不联网也可以实时进行跨语言交流。产品背后,是搜狗智能语音团队在模型压缩、低算力推理、知识提纯等方面的不断探索。
4、语音交互阶段
2011 年的 Siri 和 2014 年的 Ehco 有效推动了语音助手类产品的快速成熟,也带动了国内一大批语音交互类产品的发布。在通用语音交互上的研发过程中,研究团队逐渐发现目前智能语音交互的产品,核心在于对话能力仍无法满足用户的预期,无法做到自然地对话。因此,搜狗 AI 团队的研究重点主要放在了面向于垂直刚需场景的任务型对话研究上,语音交互侧重于车载、智能家居、可穿戴移动设备等领域,提供全双工的语音交互能力,并在 2016 年发布了自有的语音交互 VUI- 知音 OS。
5、多模态交互阶段
搜狗的人机交互主张是自然交互,如何做到自然交互,搜狗认为这一问题的答案,一定是多模态交互。不局限于语音,而是语言、视觉等多种模态信息相结合,共同提升交互体验。因此,搜狗在多模态感知、多模态人机交互、多模态表达等方向都在持续研发,特别是其发布的搜狗分身,实现了以数字人的形象和人进行对话和交互,形成了搜狗在交互领域最具差异化和代表性的交互产品。
结 语
据陈伟介绍,未来 AI 语音交互产品将会走向多模态,搜狗同传也不例外。就搜狗同传产品而言,在经过多重“感官”的调用后,搜狗同传不仅可以做到翻译更加快速和准确,而且会更加自然、专业、智能。数据显示,在“听”“看”“思考”三位一体的作用下,搜狗多模态同传系统针对 PPT 内容的识别准确率提升 21.7%,翻译正确率提升 40.3%。
【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/live立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
新基建热潮下,AI 基础数据服务会有哪些变化?一文看懂 2020 中国 AI 基础数据服务行业发展现状及趋势 | 艾瑞咨询报告
云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 中央定调,“新基建”与社会各领域融合发展的步伐正在加速。在加大对新一代信息技术产业“硬”实力建设投入的同时,“软”实力同样不容忽视。 近日,艾瑞咨询发布《2020 中国 AI 基础数据服务行业发展报告》,指出作为与“新基建”有着强关联性的 AI 基础数据服务行业,将迎来潜力较大的市场空间。同时指出,目前人工智能商业化在算力、算法和技术方面基本达到阶段性成熟,想要更加落地, 解决行业具体痛点,需要大量经过标注处理的相关数据做算法训练支撑。 AI 基础数据服务行业现状 1、数据决定了 AI 的落地程度,而 AI 基础数据服务行业却鲜有关注 人工智能的商业化在中国得到了长足发展,在安防、金融、企服等领域纷纷落地开花,同时也真正意义上衍生出了一套完整的产业链。 AI 产业链可以分为基础层、技术层和应用层。基础层按照算力、数据和算法再次划分,对整体上层建筑起到支撑作用;技术层根据算法用途分为计算机视觉、 智能语音、自然语言处理等,是 AI 最引人注目的环节;应用层则按照不同场景的需求定制开发专属服...
- 下一篇
从AI测温到安防机器人 智能安防会是新的“守门神”吗?
云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 说起安防系统,很多人的脑海中会先冒出“监控摄像头”,“电子门禁”等字眼,而随着人工智能的加速发展,传统的安防系统短板也在逐渐暴露,越来越多的新功能开始被需要:人脸识别、车辆检测、夜间识别等等,而我们小时候幻想过的机器人站岗的场景,也正在逐渐变成现实…… 智能安防在身边 谁都没有想到,一场疫情加速了“AI测温”的需求量。 年后当数以万计的在外务工者踏上返程,经过火车站、机场及地铁站等交通枢纽,会发现安检口附近多了一台“摄像机”。这便是一套AI体温检测仪,由一台三脚架、一台摄像机和一台笔记本组成,每一位行人经过时,显示屏上都会呈现他的温度,检测温度正常可以实现无感通过,一旦检测到疑似高温行人,系统会自动报警,再由安保人员进行二次测温。 为有效应对高人流量的防疫与测温需求,AI测温项目有着红外与人工智能技术的双向加持:红外技术保证远距离非接触时测温的需求,计算机视觉技术则通过精准识别人员额头部位以实现快速定位。大多数AI测温项目都结合了红外热成像和人脸识别,以非接触的方式实现多目标温度筛查,测...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker安装Oracle12C,快速搭建Oracle学习环境
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Hadoop3单机部署,实现最简伪集群
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS8安装Docker,最新的服务器搭配容器使用
- SpringBoot2全家桶,快速入门学习开发网站教程
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS7,8上快速安装Gitea,搭建Git服务器