曾经很多人说“大数据就是未来”,这句话错了吗?
本文转载自公众号“读芯术”(ID:AI_Discovery)
“大数据”对我的吸引力已经大不如前了。
回想当年,在我刚开始攻读数据科学硕士学位的天真岁月里,任何与大数据相关的主题都会让我兴奋不已。我试图挖掘每一组数据中属于3V的一部分。我想要从无穷的数据流中提炼出可分析的数据,然后建模、可视化、进行数据转换。
然而如今,每每看到“大数据”这个词,总会不自觉地让我扬起眉毛,内心不断地猜想接下来又会出现哪个同样“流行”又“模糊”的科技热词呢?
究竟是我变了,还是大数据变了?
流行词与现实
最近,我对流行词变得十分敏感。它们被高估了,实际上不具有任何意义。“让大数据为数字化时代带来创新”,这句话看上去很酷,但它的意义又是什么呢?现实可能停留在Excel电子表格、令人沮丧且缓慢的计算中。
大数据之所以令人感到兴奋,是因为它代表了一种巨大的财富(“它将是一种巨大的财富”,听起来耳熟吗?),你可以在其中搜索、查找并使用对你有价值的任何东西。
我最初对于大数据的看法是,“在所有这些数据中,肯定有什么东西是我们绝对想知道的”。或许这是对的,但要从大量数据中找到那些有价值的东西,我们要付出什么代价呢?
没有正确的基础架构,大数据将毫无用处
处理大量数据需要计算能力,存储能力、以及数据传输等能力。同时,还会遇到各种意想不到的瓶颈。
随着云平台的发展,计算能力变得更加便宜和易于使用,但云存储也在指数级增长,云计算的日常使用甚至本地服务器的维护都是一笔不小的开销。
这也就是本世纪关于数据的比较大的教训:有时候,对某些人而言像黄金一样的数据,于另一些人而言就是浪费整个存储空间的垃圾。
很多公司都是先花钱挖掘数据,然后再回过头来看哪些数据是真的有用的。费用却已经花掉了,但有没有用可不一定。
那如果我们在收集数据之前就优先确定数据是否有用,结果会怎么样呢?
不是所有数据都是有趣的数据
数据科学界有句话叫“无用输入再无效输出”。在实际应用中,有很多数据实际上是不可靠的,而且是需要下很大功夫清理才能被使用的。
通常,我们花费了大量精力、时间和金钱却只能在庞大的数据集中找到少量信息。根据Forrester的报告,企业内至少60%的数据仍未使用。
如果将这些未使用数据的存储成本投资在实际需要的数据的正确基础架构中,会怎么样呢?
数据越多越好吗?
“向AI投入尽可能多的数据”的时代已经结束了。人们已经意识到,不是每一个数据特性都是有用的,有些甚至可能有害,数据的质量往往比数量更加重要。
我们更希望数据能够以可靠、一致的方式来呈现我们关心的事情。通过了解数据的质量,也会更好地将我们领入一个可解释的、负责任的和安全的关于AI的研究探索阶段。
这是(大型)实施和(大型)搭建更好的基础架构的时代
我们已经获得了数据,现在需要做的是搭建更完善的基础架构,从而更安全地使用、共享、分析数据,并且能够更加精准地区分无用数据和有价值的信息。
我们还需要确保数据和人工智能的质量和可靠性,确保全世界都可以使用它们并理解其中涵义。尽管有些人很难理解这一点,但数据不在于庞大,而在于可靠。
尽管听上去没有其他口号那样有煽动力,但是我还是要讲:大数据已死,可靠的数据万岁!
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
全球加强数字政府建设,提高应对未来风险能力
新冠病毒COVID-19的大流行使许多地区国家因失业率暴增造成巨大压力。尽管有些国家的情况比其他国家好,但所有政府都可以利用云技术等优势为下一次风暴做好准备。 冠状病毒对经济产生了毁灭性的影响。在3月下旬至4月初之间,有2200万美国人申请失业。不幸的是,由于需求激增,许多州政府网站崩溃,呼叫中心不堪重负,许多人面临着巨大的挑战和寻求利益的延误。 根据美国信息技术和创新基金会(ITIF)的分析,到4月中旬,超过一半的州失业网站经历了严重的停机。佛罗里达的站点一度宕机了16个小时,而密歇根州的宕机了近6个小时。即使居民可以访问这些站点,他们通常也无法完成其申请,或者会收到错误消息,称他们不符合资格。 显然,部分问题在于许多机构根本没有考虑过这种数量的激增。例如,在明尼苏达州,该州从每天每小时50名申请人增加到每天2000名申请人。纽约州劳工部报告说,与通常一周相比,网络流量增加了1600%。 但是,即使全国失业人数激增,并非所有州的失业网站都崩溃了。已经开发了基于云的应用程序的代理商通常能够满足需求。其他人则在运行过时的系统。例如,佛罗里达州的失业网站正在运行旧版本的Internet I...
- 下一篇
微信7.0.4正式上线,新增诸多功能,字体变化成为大家热议话题
微信,我们大家都非常熟悉,腾讯公司旗下的社交软件,现在已经变成了我们手机上使用最频繁的APP,也是国内使用人数最多的社交软件。微信现在已经不仅仅是社交软件,我们在购物的时候也可以通过微信付款,微信也给人们的生活带来了便利,为了能够让用户使用上更好的使用体验,腾讯公司也在不断更新微信,每一次更新都有新的惊喜。 近几天,微信又更新了版本,那就是微信7.0.4版本。本来每一次更新,应该是给用户带来更多的体验,但是这次更新却引来了大家的吐槽。到底发生了什么?让大家那么不满意呢。 微信这次更新优化了不少细节问题,而且加入了一些全新的功能,比如当用户发“视频动态”的时候,可以用一首歌作为背景,微信的操作界面也做出了一些改动,能够让用户更加清晰和更加方便的操作微信。在聊天的详情页面中,可以给单聊设置提醒。 本次更新,微信还把漂流瓶功能下线了,具体以后是否能够再次上线,目前我们还不得而知。这次更新还加入了投诉可以带截屏,此前微信投诉只是文字投诉,更新后可以加入截图证据了,让一些不法分子无空可钻。新版本中,用户可以自由复制别人或者自己发的信息了,以前只能复制整个对话框的信息,现在可以自由删减了。 更新就...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS8编译安装MySQL8.0.19
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Hadoop3单机部署,实现最简伪集群
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果