语音识别实时对比(百度收费 VS SpeechTexter免费)
- 对比从5:00分钟开始
- 视频地址: https://www.bilibili.com/video/av48112826
- ).以下测试结果基于测试点(祝福语、数字、日期、绕口令、诗、日常用语)
[百度收费]
[优点]
- ).比起百度自家发布的免费版本,速度快很多,很好的解决了丢字(丢句、就是有的地方没有翻译)
- ).比起百度自家发布的免费版本,语义解析在有些方面增强了,翻译的更准确些
- ).百度断点,自动标点符号绝对优势
[缺点]
- ).还存在丢字的现象,有些地方翻译不准确
- ).对于普通话的兼容度还不够好(发音不准、口音)
- ).语义自动解析还需要加强,有的地方直译(不能结合语境、不够智能就显得呆板)
- ).如说2019年04月02日星期二20点20分16秒320毫秒 这些固定格式的,最好能格式化输出
- ).有些完全翻译错的地方
- ).绕口令需加强(常用的就那些、至少常用的能做加强处理)
- ).整体相比于之前版本,有所提升,但是比起别人的免费版本不占优势,希望加强
-
).希望百度在训练自己语音系统时,不只看重日常常用语,把他当个人,能很好的理解各种语境,甚至有的地方可以猜、或推出用户的想法(中国崛起)
因为各种教学、培训,都需要录视频,都加上字幕会对表达效果好很多,所以如果百度能更好的理解各种行业知识,都能准确理解,智能识别,智能人机交互,都是基于语音对话,影响是重大的。
- ).希望爱奇艺所有视频支持自动生成字幕,+自动转各国主流语言支持
[SpeechTexter免费]
[优点]
- ).语义解析,自动纠正能力超强,有的地方比较智能(如数据规律能找出来、日期时间显示能很友好的格式化处理、发音错误的地方能自动纠正)
- ).整体非常不错,像一个智能的人,有一定的理解能力
[缺点]
- ).受网络的影响,有时访问不了
- ).不能自动中文加标点符号,断句
以下为测试内容
简介 拿这款免费的语音识别软件 VS 百度收费版语音识别 ------------------------------------------ 【祝福语测试】 祝大家,身体倍健康心情特别好,好运天天交,口味顿顿炒,家里出黄金,墙上长钞票 祝愿大家在新的一年里,所有的美梦都成真,所有的愿望都实现,所有的付出都能回报 祝大家新的一年里大吉大利,大红大紫,大显身手,大炮而红,大鸣惊人,大马当先 ------------------------------------------ 【数字测试】 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1 10 20 30 40 50 60 70 80 90 100 90 80 70 60 50 40 30 20 10 1 3 5 7 9 11 9 7 5 3 1 100 200 300 400 500 600 700 800 900 1000 900 800 700 600 500 400 300 200 100 ------------------------------------------ 【日期时间测试】 2019年04月02日星期二20点20分16秒320毫秒 中华人民共和国成立时间: (1949年10月01日 1点1分1秒 1毫秒 农历八月初十) 星期六 ------------------------------------------ 【绕口令测试】 八百标兵 八百标兵奔北坡 炮兵并排北边跑 炮兵怕把标兵碰 标兵怕碰炮兵跑 黑化肥发灰,灰化肥发黑.黑化肥发黑不发灰,灰化肥发灰不发黑. 扁担长,板凳宽,板凳没有扁担长,扁担没有板凳宽。 。 刘奶奶找牛奶奶买牛奶, 牛奶奶给刘奶奶拿牛奶, 刘奶奶说牛奶奶的牛奶不如柳奶奶的牛奶, 牛奶奶说柳奶奶的牛奶会流奶, 柳奶奶听见了大骂牛奶奶你的才会流奶, 柳奶奶和牛奶奶泼牛奶吓坏了刘奶奶, 大骂再也不买柳奶奶和牛奶奶的牛奶。 ------------------------------------------ 【诗测试】 《再别康桥》作者:徐志摩 轻轻的我走了, 正如我轻轻的来; 我轻轻的招手, 作别西天的云彩。 那河畔的金柳, 是夕阳中的新娘; 波光里的艳影, 在我的心头荡漾。 软泥上的青荇, 油油的在水底招摇; 在康河的柔波里, 我甘心做一条水草! 那榆荫下的一潭, 不是清泉, 是天上虹; 揉碎在浮藻间, 沉淀着彩虹似的梦。 寻梦?撑一支长篙, 向青草更青处漫溯; 满载一船星辉, 在星辉斑斓里放歌。 但我不能放歌, 悄悄是别离的笙箫; 夏虫也为我沉默, 沉默是今晚的康桥! 悄悄的我走了, 正如我悄悄的来; 我挥一挥衣袖, 不带走一片云彩。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
google sdk speech-to-text(谷歌语音转文本、谷歌语音转字幕)
google sdk speech-to-text 同步识别(REST 和 gRPC)将音频数据发送到 Speech-to-Text API,对该数据执行识别,并在所有音频处理完毕后返回结果。同步识别请求仅限于持续时间不超过 1 分钟的音频数据。 异步识别(REST 和 gRPC)将音频数据发送到 Speech-to-Text API 并启动长时间运行的操作。使用此操作,您可以定期轮询识别结果。异步请求可用于任何持续时间不超过 180 分钟的音频数据。 流式识别(仅限 gRPC)对 gRPC 双向流内提供的音频数据执行识别。流式传输请求专为实时识别(例如从麦克风采集实时音频)而设计。流式识别可以一边采集音频一边提供临时结果,例如实现在用户仍在讲话时显示结果。 源码 https://github.com/opensourceteams/google-sdk-speech-to-text 识别率超高的在线麦克风语音转文本(免费工具) https://www.speechtexter.com 官网文档 https://cloud.google.com/speech-to-text/docs/...
- 下一篇
【视频分析】智能视频分析技术让安防更加智慧
原标题:技术|智能视频分析技术让安防更加智慧 不管是科达大力推广的感知摄像机(Intelligent IPC)还是海康公司的Smart IPC、或者NICE公司的Suspect Search系统,其本质都是智能视觉分析技术与“大数据”的结合应用。最近两年以来,我们听到太多的“大数据与安防监控”的概念,但是,基本都停留在理念表面,描绘的是一个美好的前景,至于如何实施,或者到底能不能实施,很多人还是疑惑很大。本文从技术角度,说明智能视频分析技术与“大数据”如何结合及相关公司案例落地情况,尽量将理论结合到实际。 计算机视觉技术,属于人工智能领域。核心问题是如何让计算机能够像我们人眼一样去“看”,识别物体的类别、特征、位置、推断事物的结构逻辑关系、动作和轨迹等。Google等公司一直研究的“计算机视觉”及“图片搜索”,侧重于静态图片的识别,而安防监控领域,增加了时间域概念,或者说是针对一系列的图片序列识别。 安防监控领域的需求很明确:对前端摄像机采集的视频内容进行分析,提取出画面中关键的、感兴趣的、有效的信息,以便进行实时处理或者事后处理。核心就是所谓的“视频数据的语义描述过程”,摄像机相当于...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Hadoop3单机部署,实现最简伪集群
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- MySQL8.0.19开启GTID主从同步CentOS8