语音识别实时对比(百度收费 VS SpeechTexter免费)-低调大师

语音识别实时对比(百度收费 VS SpeechTexter免费)

2019-04-02 702

对比从5:00分钟开始
视频地址: https://www.bilibili.com/video/av48112826

).以下测试结果基于测试点（祝福语、数字、日期、绕口令、诗、日常用语）

[百度收费]

[优点]

).比起百度自家发布的免费版本，速度快很多，很好的解决了丢字(丢句、就是有的地方没有翻译)
).比起百度自家发布的免费版本，语义解析在有些方面增强了，翻译的更准确些
).百度断点，自动标点符号绝对优势

[缺点]

).还存在丢字的现象，有些地方翻译不准确
).对于普通话的兼容度还不够好(发音不准、口音)
).语义自动解析还需要加强，有的地方直译(不能结合语境、不够智能就显得呆板)
).如说2019年04月02日星期二20点20分16秒320毫秒这些固定格式的，最好能格式化输出
).有些完全翻译错的地方
).绕口令需加强(常用的就那些、至少常用的能做加强处理)
).整体相比于之前版本，有所提升，但是比起别人的免费版本不占优势，希望加强

).希望百度在训练自己语音系统时，不只看重日常常用语，把他当个人，能很好的理解各种语境,甚至有的地方可以猜、或推出用户的想法(中国崛起)

   因为各种教学、培训，都需要录视频，都加上字幕会对表达效果好很多，所以如果百度能更好的理解各种行业知识，都能准确理解，智能识别，智能人机交互，都是基于语音对话，影响是重大的。

).希望爱奇艺所有视频支持自动生成字幕，+自动转各国主流语言支持

[SpeechTexter免费]

[优点]

).语义解析，自动纠正能力超强，有的地方比较智能(如数据规律能找出来、日期时间显示能很友好的格式化处理、发音错误的地方能自动纠正)
).整体非常不错,像一个智能的人，有一定的理解能力

[缺点]

).受网络的影响，有时访问不了
).不能自动中文加标点符号，断句

以下为测试内容

简介

拿这款免费的语音识别软件         VS       百度收费版语音识别
------------------------------------------
【祝福语测试】


祝大家，身体倍健康心情特别好，好运天天交，口味顿顿炒，家里出黄金，墙上长钞票

祝愿大家在新的一年里，所有的美梦都成真，所有的愿望都实现，所有的付出都能回报

祝大家新的一年里大吉大利，大红大紫，大显身手，大炮而红，大鸣惊人，大马当先

------------------------------------------

【数字测试】
1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1
10 20 30 40 50 60 70 80 90 100 90 80 70 60 50 40 30 20 10
1 3 5 7 9 11 9 7 5 3 1

100 200 300 400 500 600 700 800 900 1000 900 800 700 600 500 400 300 200 100
------------------------------------------
【日期时间测试】

2019年04月02日星期二20点20分16秒320毫秒
中华人民共和国成立时间： (1949年10月01日 1点1分1秒 1毫秒 农历八月初十) 星期六

------------------------------------------
【绕口令测试】
八百标兵
八百标兵奔北坡 炮兵并排北边跑 炮兵怕把标兵碰 标兵怕碰炮兵跑

黑化肥发灰,灰化肥发黑.黑化肥发黑不发灰,灰化肥发灰不发黑. 

 

扁担长，板凳宽，板凳没有扁担长，扁担没有板凳宽。 。


刘奶奶找牛奶奶买牛奶，
牛奶奶给刘奶奶拿牛奶，
刘奶奶说牛奶奶的牛奶不如柳奶奶的牛奶，
牛奶奶说柳奶奶的牛奶会流奶，
柳奶奶听见了大骂牛奶奶你的才会流奶，
柳奶奶和牛奶奶泼牛奶吓坏了刘奶奶，
大骂再也不买柳奶奶和牛奶奶的牛奶。


------------------------------------------
【诗测试】
《再别康桥》作者:徐志摩
轻轻的我走了，
正如我轻轻的来；
我轻轻的招手，
作别西天的云彩。

那河畔的金柳，
是夕阳中的新娘；
波光里的艳影，
在我的心头荡漾。

软泥上的青荇，
油油的在水底招摇；
在康河的柔波里，
我甘心做一条水草！

那榆荫下的一潭，
不是清泉，
是天上虹；
揉碎在浮藻间，
沉淀着彩虹似的梦。

寻梦？撑一支长篙，
向青草更青处漫溯；
满载一船星辉，
在星辉斑斓里放歌。

但我不能放歌，
悄悄是别离的笙箫；
夏虫也为我沉默，
沉默是今晚的康桥！

悄悄的我走了，
正如我悄悄的来；
我挥一挥衣袖，
不带走一片云彩。

微信关注我们

原文链接：https://yq.aliyun.com/articles/696533

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

google sdk speech-to-text(谷歌语音转文本、谷歌语音转字幕)

google sdk speech-to-text 同步识别（REST 和 gRPC）将音频数据发送到 Speech-to-Text API，对该数据执行识别，并在所有音频处理完毕后返回结果。同步识别请求仅限于持续时间不超过 1 分钟的音频数据。异步识别（REST 和 gRPC）将音频数据发送到 Speech-to-Text API 并启动长时间运行的操作。使用此操作，您可以定期轮询识别结果。异步请求可用于任何持续时间不超过 180 分钟的音频数据。流式识别（仅限 gRPC）对 gRPC 双向流内提供的音频数据执行识别。流式传输请求专为实时识别（例如从麦克风采集实时音频）而设计。流式识别可以一边采集音频一边提供临时结果，例如实现在用户仍在讲话时显示结果。源码 https://github.com/opensourceteams/google-sdk-speech-to-text 识别率超高的在线麦克风语音转文本(免费工具) https://www.speechtexter.com 官网文档 https://cloud.google.com/speech-to-text/docs/...

2019-04-01

1613

原标题：技术｜智能视频分析技术让安防更加智慧不管是科达大力推广的感知摄像机（Intelligent IPC）还是海康公司的Smart IPC、或者NICE公司的Suspect Search系统，其本质都是智能视觉分析技术与“大数据”的结合应用。最近两年以来，我们听到太多的“大数据与安防监控”的概念，但是，基本都停留在理念表面，描绘的是一个美好的前景，至于如何实施，或者到底能不能实施，很多人还是疑惑很大。本文从技术角度，说明智能视频分析技术与“大数据”如何结合及相关公司案例落地情况，尽量将理论结合到实际。计算机视觉技术，属于人工智能领域。核心问题是如何让计算机能够像我们人眼一样去“看”，识别物体的类别、特征、位置、推断事物的结构逻辑关系、动作和轨迹等。Google等公司一直研究的“计算机视觉”及“图片搜索”，侧重于静态图片的识别，而安防监控领域，增加了时间域概念，或者说是针对一系列的图片序列识别。安防监控领域的需求很明确：对前端摄像机采集的视频内容进行分析，提取出画面中关键的、感兴趣的、有效的信息，以便进行实时处理或者事后处理。核心就是所谓的“视频数据的语义描述过程”，摄像机相当于...

2019-04-03

746

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。