语音识别，从古老、革命到再度创新-低调大师

语音识别，从古老、革命到再度创新

2013-09-25 777

人类几乎所有的发明都是基于如何变得更“懒”，汽车、电脑、手机、沙发……都不外如是。语言在人类文明史上可以称得上与文字并列齐驱的两大“武器”，作为沟通、记录的两大工具，基于二者才衍生出人类灿烂的文明，也是它们让人类的生活变得更为便捷。其中语言更是在人类文明早期做出了无与伦比的贡献。值得我们铭记。

基于语言而延伸出来的语音识别技术，则是近几十年科技发展道路上一颗璀璨的明珠。从磕磕绊绊的“古老”语言识别技术，到以Siri为代表的语音识别技术革命，再到现在的再度创新，引爆下一段科技进化史……语音识别技术正在创造属于自己的传奇。

追溯“古老”语音识别技术

语言自被创造出到现在已经有了几千年的历史，长久以来，人们都只是将其简单地当做沟通、表达情绪/思想的工具，并没有深刻认识到其应用在科技上会对人们的生活造成怎样的积极影响。而随着20世界50年代左右兴起的科技大爆炸，以计算机、手机、航天等为代表的一批划时代产品出现，科学家终于发现语音将能够在其中能够发挥巨大作用。此后，语音识别技术才一步步发展起来。可以说，语音识别技术的发展史只有短短数十年。

1952年，贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统。这开启了语音识别技术的历史，是值得纪念的一座里程碑。随后，1960年英国的Denes等人研究成功了第一个计算机语音识别系统，将语音识别技术真正与改变人类社会结构的计算机开始挂钩。

而较大规模的语音识别技术研究则是在进入了70年代以后，在小词汇量、孤立词的识别方面取得了实质性的进展，为以后语音技术技术的发展奠定了坚实基础。进入80年代以后，语音识别技术的研究重点逐渐转向大词汇量、非特定人连续语音识别，而且研究思路也发生重大变化。

20世纪90年代，语音识别技术的系统框架方面并没有重大突破。但这并不意味着语音识别技术开始停滞不前，而是语音识别技术有了真正的用武之地。从这时候开始，语音识别技术在应用及产品化方面有着很大的进展，让大众开始了解、认知、熟悉语音识别技术。因为只有看得见、摸得着的产品及应用，才能引起用户的广泛兴趣。这段时间为语音识别后来的普及立下了汗马功劳，加速了其商用化的进程。

Siri引领语音识别技术革命

在90年代以后，虽然语音识别技术开始正式商用，但因为识别率还比较低，因此饱受诟病，语音识别技术也因此一度沉寂。当然，这属于蛰伏期，等待一飞冲天的时刻。随着时代的发展，语音识别技术逐渐开始理解特定词汇。特别是在各种输入法上，语音识别技术表现的相当抢眼，让很多用户享受到输入的快感。在Windows 7和8系统上，语音输入、语音控制也成为标配功能——虽然大众更习惯于鼠标和键盘的操作，这是因为他们还没有培养出用声音进行操控的习惯。

在近几年，随着智能手机、智能电视等诸多智能设备的蓬勃发展，语音识别技术被当做一项重要的功能来进行研发。我们看到，很多智能设备都整合了全新语音识别技术。以Android系统的Voice Actions为例，它向用户提供了非常坚实可靠的语音识别引擎，很多一度流行的语音识别工具都被Voice Actions的高识别度彻底打败。但从本质看来，它和过去曾经出现的所有以语音识别技术为基础的应用并无二样，它依然要求用户要严格按照一系列特定的语法发出声音，否则它就无法理解。

直到Siri出现，它彻底改变了语音识别技术在用户心中呆板、僵硬、无聊的观点。这里还有一个小插曲，在iPhone 4S刚发布时，无数人吐槽它与iPhone 4的雷同，最后iPhone 4S却创下了iPhone系列预订、销售的全新记录，而这有很大的原因就在于Siri。用户对Siri抱有很大的兴趣，因为Siri绝不只是单纯地依靠语音识别技术，而是利用了多个学科之间的技术交叉，如语音识别技术、云计算、大数据等。由此，Siri也完全不同于以往的语音识别应用及产品。

Siri和以前用户使用过的所有语音识别产品从本质上都不相同，用户不用再按照特定的词汇规范发出声音以试图让语音应用理解，而是可以像平时说话那样不用在意自己的话是否完全符合语法规律。即使用户说的话和想表达的意思在字面上看有所出入，从严苛的语法上也文不对题，但Siri会根据上下文、人类历史以及能够理解一般人类语言的人工智能去分析，在绝大多数情况下领会用户的意思，进而给出回应——让冰冷的机器理解人们的真正想法，这已经是走在通往真正的人工智能路上。于是，我们看到在《生活大爆炸》中不敢和女孩说话的Raj却将Siri当成他的女友，甚至只要有了Siri，他就不用再和女孩接触了！Siri的魔力可见一斑。

Siri引领着语音识别技术的真正革命，自Siri出现后，引来了一大批追随者。国内的搜狗语音助手、百度语音助手等都力争要做“中国的Siri”，力求整合资金的资源，以本土化为优势，击败Siri这“外来的和尚”。国外不管是英特尔、微软还是谷歌等巨头，也都加大了语音识别技术的投入，力求有新的突破。但不管如何，Siri永远是开启这场语音革命的先行者，就像iPhone开创了智能手机革命，真正改变了人们的生活。9月13日，美国专利商标局公布一项苹果提交的专利申请，该专利名称为“通过地域语音自动输入信号识别方案”，描述的是一项先进的处理各种地区口音的语音识别技术。通俗点说，这项技术将可帮助Siri 识别更多带口音的指令。可以预见在不久的将来，无论是带有怎样的口音都能够被Siri 轻松识别。更值得一提的是，就在9月18号，伴随着iOs 7的正式发布，Siri也正式甩掉带了两年时间的“Beta”也就是测试版的标签，成为正式版。

创新浪潮再度兴起

任何事物的发展都是没有终点的，都有着再进化的潜力，语音识别技术当然也在此列。虽然Siri已经在语音识别技术领域引领了一场革命，但还远远不够。目前，语音识别技术新一轮的创新浪潮正在兴起。特别是在智能设备发展继续发展，可穿戴设备、智能手表、无人驾驶汽车等新型智能设备将再次改变人们生活的未来，语音识别技术极有可能成为人机交互的发展方向。因此语音识别技术需要变得更加自然、直观。

微软目前正在研发代号为“Cortana”的语音个人助手软件，并计划在下一个Windows Phone平台大升级中推出，以抗衡Google Now及苹果Siri，甚至还有可能引入到桌面版Windows以及Xbox这两个平台上。“Cortana”这个名字来源于著名游戏《光晕》系列中的全息人工智能助手，由此可见微软的野心勃勃。虽然在近几年微软在创新性上被苹果打击地体无完肤，但受死的骆驼比马大，来自微软的语音识别应用也许会让人大吃一惊——微软要是再不出点惹人注意的产品和应用，都快被遗忘了。

英特尔近日买下了西班牙语音识别公司Indisys，其优势在于能够结合运算语言学、人工智能、认知科学以及机械学习等语音识别技术的强大开发能力，推出适用于多平台的产品及应用。而且，Indisys旗下也有类似Siri的人工智能助理应用——Maya的助理小姐。此外，英特尔还想要将语音识别技术整合进自家的处理器中——这对PC、智能手机、笔记本、平板的影响难以想象。

科大讯飞近日称自主研发的离线语音听写引擎将于9月下旬正式发布，将应用于“讯飞输入法”等产品，以可满足用户在无网络或弱网络下对语音技术的需求。而另一家企业思必驰也宣布重新定义人机交互体验的方向，主张让机器从能听会说变成会听能做……虽然国内的语音识别技术厂商相比世界巨头还属小打小闹，但却是针对细分领域，没有大包大揽，没有豪言要改变整个语音识别领域。这不是妄自菲薄，而是尊重现实，也只将这一点一滴的努力集合起来，才会让语音识别技术得到新的发展。

未来语音识别技术会发展到哪一步，不敢妄加揣测，但它是一直处于在不断进步、创新的步调，未来我们的生活将会因此产生巨大改变——现在都已经有了些许苗头。就让我们拭目以待，期待语音识别技术发生N次革命创新。（科幻星系/文）

本文如需转载，请用以下方式联系，并注明出自科幻星系

QQ：88328702 MSN：wangk1026@hotmail.com

喜欢科技、科幻的朋友们可以加科幻星系群交流66293965

微信关注我们

原文链接：https://yq.aliyun.com/articles/275263

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

【高端黑】软件工程师去理发店

今天在公司加班，不知不觉发现头发已经把眼睛都遮住了，每写一行代码得把甩一下头。我知道这样很帅，但是身为一个软件工程师，光帅是没有用的，还是会被卒子吃掉，要有内涵才能做一个IT浪潮中的弄潮儿，所以我决定去把头发剪一剪，以便把甩头的时间省出来，提高工作效率。走进理发店，一个穿着得体，颇有文艺气质，但是个子有点小的美发助理带我去洗了洗头，我和他聊了聊郭敬明的小说。这样文学的话题很快拉近了我与发廊小弟的距离，他显然很高兴，说帮我找一个手艺很好的美发师，剪完头发后一定能马上找到女朋友，我嘴角露出了欣慰的微笑。坐在椅子上，优雅的喝着免费的农夫山泉矿泉水，体会农妇山泉有点田的韵味，我陷入了沉思。“先生”，美发助理的声音将我的思绪拉回到了现实，“这位是我们这的首席发型师小P老师，由他为您服务。” 听见“老师”两字把我吓了一跳，作为一个有近20年资深从业经验的学生，条件反射让我立马站了起来，高声叫到“老师好!”，小P老师显然也吓了一跳，但作为一个Principal，表现还是要比我要镇定许多，在周围嘻嘻哈哈的笑声中悄声对我说，“先生别紧张，坐下吧”。小P老师礼貌的问了我怎么剪，然后就开始挥舞着剪刀开...

2013-08-23

740

【感谢@吕抒真的热心翻译。如果其他朋友也有不错的原创或译文，可以尝试推荐给伯乐在线。】自从谷歌眼镜被推出以来，围绕人脸识别，出现了很多争议。我们相信，不管是不是通过智能眼镜，人脸识别将在人与人交往甚至人与物交互中开辟无数种可能性。为了帮助研究过程中探索人脸识别，我们列出以下人脸检测和识别API。希望有所帮助！ Face Recognition - 拉姆达实验室斯蒂芬弄的。示例代码和图形演示点击http://api.lambdal.com/docs，我们的API提供了面部识别，面部检测，眼睛定位，鼻子定位，嘴巴定位，和性别分类。如果您有任何疑问，只需发一封邮件到s@lambdal.com。 Face (Detection) -计算机视觉面部识别和面部检测。这是一个完美的face.com替代品。目前，我们有一个免费的API进行人脸检测。 Animetrics Face Recognition -Animetrics的人脸识别API可用于图片中的人脸检测。面部特征或“地标”的信息被返回作为图象上的坐标。 Animetrics人脸识别也会在三维坐标轴上侦测并返回脸部位置信息。 Skyb...

2013-10-05

763

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。