语音识别实时对比(百度收费 VS SpeechTexter免费)
- 对比从5:00分钟开始
- 视频地址: https://www.bilibili.com/video/av48112826
- ).以下测试结果基于测试点(祝福语、数字、日期、绕口令、诗、日常用语)
[百度收费]
[优点]
- ).比起百度自家发布的免费版本,速度快很多,很好的解决了丢字(丢句、就是有的地方没有翻译)
- ).比起百度自家发布的免费版本,语义解析在有些方面增强了,翻译的更准确些
- ).百度断点,自动标点符号绝对优势
[缺点]
- ).还存在丢字的现象,有些地方翻译不准确
- ).对于普通话的兼容度还不够好(发音不准、口音)
- ).语义自动解析还需要加强,有的地方直译(不能结合语境、不够智能就显得呆板)
- ).如说2019年04月02日星期二20点20分16秒320毫秒 这些固定格式的,最好能格式化输出
- ).有些完全翻译错的地方
- ).绕口令需加强(常用的就那些、至少常用的能做加强处理)
- ).整体相比于之前版本,有所提升,但是比起别人的免费版本不占优势,希望加强
-
).希望百度在训练自己语音系统时,不只看重日常常用语,把他当个人,能很好的理解各种语境,甚至有的地方可以猜、或推出用户的想法(中国崛起)
因为各种教学、培训,都需要录视频,都加上字幕会对表达效果好很多,所以如果百度能更好的理解各种行业知识,都能准确理解,智能识别,智能人机交互,都是基于语音对话,影响是重大的。
- ).希望爱奇艺所有视频支持自动生成字幕,+自动转各国主流语言支持
[SpeechTexter免费]
[优点]
- ).语义解析,自动纠正能力超强,有的地方比较智能(如数据规律能找出来、日期时间显示能很友好的格式化处理、发音错误的地方能自动纠正)
- ).整体非常不错,像一个智能的人,有一定的理解能力
[缺点]
- ).受网络的影响,有时访问不了
- ).不能自动中文加标点符号,断句
以下为测试内容
简介
拿这款免费的语音识别软件 VS 百度收费版语音识别
------------------------------------------
【祝福语测试】
祝大家,身体倍健康心情特别好,好运天天交,口味顿顿炒,家里出黄金,墙上长钞票
祝愿大家在新的一年里,所有的美梦都成真,所有的愿望都实现,所有的付出都能回报
祝大家新的一年里大吉大利,大红大紫,大显身手,大炮而红,大鸣惊人,大马当先
------------------------------------------
【数字测试】
1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1
10 20 30 40 50 60 70 80 90 100 90 80 70 60 50 40 30 20 10
1 3 5 7 9 11 9 7 5 3 1
100 200 300 400 500 600 700 800 900 1000 900 800 700 600 500 400 300 200 100
------------------------------------------
【日期时间测试】
2019年04月02日星期二20点20分16秒320毫秒
中华人民共和国成立时间: (1949年10月01日 1点1分1秒 1毫秒 农历八月初十) 星期六
------------------------------------------
【绕口令测试】
八百标兵
八百标兵奔北坡 炮兵并排北边跑 炮兵怕把标兵碰 标兵怕碰炮兵跑
黑化肥发灰,灰化肥发黑.黑化肥发黑不发灰,灰化肥发灰不发黑.
扁担长,板凳宽,板凳没有扁担长,扁担没有板凳宽。 。
刘奶奶找牛奶奶买牛奶,
牛奶奶给刘奶奶拿牛奶,
刘奶奶说牛奶奶的牛奶不如柳奶奶的牛奶,
牛奶奶说柳奶奶的牛奶会流奶,
柳奶奶听见了大骂牛奶奶你的才会流奶,
柳奶奶和牛奶奶泼牛奶吓坏了刘奶奶,
大骂再也不买柳奶奶和牛奶奶的牛奶。
------------------------------------------
【诗测试】
《再别康桥》作者:徐志摩
轻轻的我走了,
正如我轻轻的来;
我轻轻的招手,
作别西天的云彩。
那河畔的金柳,
是夕阳中的新娘;
波光里的艳影,
在我的心头荡漾。
软泥上的青荇,
油油的在水底招摇;
在康河的柔波里,
我甘心做一条水草!
那榆荫下的一潭,
不是清泉,
是天上虹;
揉碎在浮藻间,
沉淀着彩虹似的梦。
寻梦?撑一支长篙,
向青草更青处漫溯;
满载一船星辉,
在星辉斑斓里放歌。
但我不能放歌,
悄悄是别离的笙箫;
夏虫也为我沉默,
沉默是今晚的康桥!
悄悄的我走了,
正如我悄悄的来;
我挥一挥衣袖,
不带走一片云彩。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
google sdk speech-to-text(谷歌语音转文本、谷歌语音转字幕)
google sdk speech-to-text 同步识别(REST 和 gRPC)将音频数据发送到 Speech-to-Text API,对该数据执行识别,并在所有音频处理完毕后返回结果。同步识别请求仅限于持续时间不超过 1 分钟的音频数据。 异步识别(REST 和 gRPC)将音频数据发送到 Speech-to-Text API 并启动长时间运行的操作。使用此操作,您可以定期轮询识别结果。异步请求可用于任何持续时间不超过 180 分钟的音频数据。 流式识别(仅限 gRPC)对 gRPC 双向流内提供的音频数据执行识别。流式传输请求专为实时识别(例如从麦克风采集实时音频)而设计。流式识别可以一边采集音频一边提供临时结果,例如实现在用户仍在讲话时显示结果。 源码 https://github.com/opensourceteams/google-sdk-speech-to-text 识别率超高的在线麦克风语音转文本(免费工具) https://www.speechtexter.com 官网文档 https://cloud.google.com/speech-to-text/docs/...
-
下一篇
【视频分析】智能视频分析技术让安防更加智慧
原标题:技术|智能视频分析技术让安防更加智慧 不管是科达大力推广的感知摄像机(Intelligent IPC)还是海康公司的Smart IPC、或者NICE公司的Suspect Search系统,其本质都是智能视觉分析技术与“大数据”的结合应用。最近两年以来,我们听到太多的“大数据与安防监控”的概念,但是,基本都停留在理念表面,描绘的是一个美好的前景,至于如何实施,或者到底能不能实施,很多人还是疑惑很大。本文从技术角度,说明智能视频分析技术与“大数据”如何结合及相关公司案例落地情况,尽量将理论结合到实际。 计算机视觉技术,属于人工智能领域。核心问题是如何让计算机能够像我们人眼一样去“看”,识别物体的类别、特征、位置、推断事物的结构逻辑关系、动作和轨迹等。Google等公司一直研究的“计算机视觉”及“图片搜索”,侧重于静态图片的识别,而安防监控领域,增加了时间域概念,或者说是针对一系列的图片序列识别。 安防监控领域的需求很明确:对前端摄像机采集的视频内容进行分析,提取出画面中关键的、感兴趣的、有效的信息,以便进行实时处理或者事后处理。核心就是所谓的“视频数据的语义描述过程”,摄像机相当于...
相关文章
文章评论
共有0条评论来说两句吧...