曾经很多人说“大数据就是未来”,这句话错了吗?
云栖号资讯:【点击查看更多行业资讯】
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!
“大数据”对我的吸引力已经大不如前了。
回想当年,在我刚开始攻读数据科学硕士学位的天真岁月里,任何与大数据相关的主题都会让我兴奋不已。我试图挖掘每一组数据中属于3V的一部分。我想要从无穷的数据流中提炼出可分析的数据,然后建模、可视化、进行数据转换。
然而如今,每每看到“大数据”这个词,总会不自觉地让我扬起眉毛,内心不断地猜想接下来又会出现哪个同样“流行”又“模糊”的科技热词呢?
究竟是我变了,还是大数据变了?
流行词与现实
最近,我对流行词变得十分敏感。它们被高估了,实际上不具有任何意义。“让大数据为数字化时代带来创新”,这句话看上去很酷,但它的意义又是什么呢?现实可能停留在Excel电子表格、令人沮丧且缓慢的计算中。
大数据之所以令人感到兴奋,是因为它代表了一种巨大的财富(“它将是一种巨大的财富”,听起来耳熟吗?),你可以在其中搜索、查找并使用对你有价值的任何东西。
我最初对于大数据的看法是,“在所有这些数据中,肯定有什么东西是我们绝对想知道的”。或许这是对的,但要从大量数据中找到那些有价值的东西,我们要付出什么代价呢?
没有正确的基础架构,大数据将毫无用处
处理大量数据需要计算能力,存储能力、以及数据传输等能力。同时,还会遇到各种意想不到的瓶颈。
随着云平台的发展,计算能力变得更加便宜和易于使用,但云存储也在指数级增长,云计算的日常使用甚至本地服务器的维护都是一笔不小的开销。
这也就是本世纪关于数据的最大教训:有时候,对某些人而言像黄金一样的数据,于另一些人而言就是浪费整个存储空间的垃圾。
很多公司都是先花钱挖掘数据,然后再回过头来看哪些数据是真的有用的。费用却已经花掉了,但有没有用可不一定。
那如果我们在收集数据之前就优先确定数据是否有用,结果会怎么样呢?
不是所有数据都是有趣的数据
数据科学界有句话叫“无用输入再无效输出”。在实际应用中,有很多数据实际上是不可靠的,而且是需要下很大功夫清理才能被使用的。
通常,我们花费了大量精力、时间和金钱却只能在庞大的数据集中找到少量信息。根据Forrester的报告,企业内至少60%的数据仍未使用。
如果将这些未使用数据的存储成本投资在实际需要的数据的正确基础架构中,会怎么样呢?
数据越多越好吗?
“向AI投入尽可能多的数据”的时代已经结束了。人们已经意识到,不是每一个数据特性都是有用的,有些甚至可能有害,数据的质量往往比数量更加重要。
我们更希望数据能够以可靠、一致的方式来呈现我们关心的事情。通过了解数据的质量,也会更好地将我们领入一个可解释的、负责任的和安全的关于AI的研究探索阶段。
这是(大型)实施和(大型)搭建更好的基础架构的时代
我们已经获得了数据,现在需要做的是搭建更完善的基础架构,从而更安全地使用、共享、分析数据,并且能够更加精准地区分无用数据和有价值的信息。
我们还需要确保数据和人工智能的质量和可靠性,确保全世界都可以使用它们并理解其中涵义。尽管有些人很难理解这一点,但数据不在于庞大,而在于可靠。
尽管听上去没有其他口号那样有煽动力,但是我还是要讲:大数据已死,可靠的数据万岁!
【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/live立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
【云栖号直播】本周重磅推荐:一名阿里云小哥真实的一天,围观送联名T恤
云栖号在线课堂,及时了解行业动态!阿里云推出疫情专题方案,为企业业务护航,让你足不出户了解行业动态。 在这里可以走近阿里云基础产品,了解更多应用方案,还能遇见大咖分享洞见及故事!也可以通过视频的形式让你高效、生动的了解场景化的上云最佳实践。 本周重磅推荐 标题:企业出海全球化网络新品发布会 简介:中国企业全球化正当时,在国内人口红利见顶,国家政策支持的双背景之下,“全球化”被越来越多的企业视为发展新赛道。出海浪潮下,企业如何利用云服务快速占据先机?本次发布会将为您分享阿里云对出海战略的洞察,详解阿里云网络服务如何全力支持的各领域海外业务拓展。 观看直播 标题:支付宝用例自生成技术实践 简介:云通信在企业数字化转型过程中的连接基础,也是许多企业上云选择的第一个业务。随着各地企业复工以来,各行各业对云通信的业务需求呈现井喷之势。我们启动阿里云通信“加油行动”,帮助广大企业更好了解云通信,并邀请阿里云通信专家、行业代表、阿里云客户共同探讨云通信的技术架构与业务创新、展望5G消息行业应用、分享阿里云通信最佳实践,助力企业数字化转型,开拓行业新格局。 观看直播 标题:MongoDB全球云端技术盛...
- 下一篇
云数据库 HBase应用场景及优势介绍
总览 ApsaraDB for HBase是一个键值/宽表型的分布式数据库,适用于任何数据规模,可以提供单个毫秒响应的性能,尤其擅长低成本、高并发的场景,支持水平扩展到PB级存储和千万级QPS,在淘宝、支付宝、菜鸟等众多阿里巴巴核心服务中起到了关键支撑的作用。 申请阿里云服务时,可以使用2000元阿里云代金券,阿里云官网领取网址:https://dashi.aliyun.com/site/yun/youhui 总的来说,其适合的场景包括: HBase的设计之初是为了满足互联网的大数据场景,几乎所有非强事务的结构化、半结构化的存储需求都可以使用HBASE来满足。ApsaraDB for HBase是NoSql,讲的是Not only SQL,但也支持SQL及二级索引。 阿里云服务器1核2G低至82元/年,阿里云官活动网址:https://dashi.aliyun.com/site/yun/aliyun 可以用20代金券,即102-20=82。 大数据场景:海量数据的低成本存储与分析 阿里云HBase支持海量全量数据的低成本存储、快速批量导入和实时访问,具备高效的增量及全量数据通道,可轻松...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS7安装Docker,走上虚拟化容器引擎之路
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS8安装Docker,最新的服务器搭配容器使用
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7