四说大数据时代“神话”:从大数据到深数据
在机器学习方面始终有个基础性的误会,即更大的数据会形成更快的学习效果。殊不知,更大的数据并非意味着能发现更深刻的信息。事实上,与数据的规模相较,数据的质量、价值和多样性更最该关注,即数据的“深度”胜于“广度”。文中从三个角度思索了大数据时代的问题并提出了一些建议的做法以改进这些问题。
现今,人们看待数据理应更为深思熟虑,而不是不加刷选地搜集全部可获取的数据来实现“大数据”。我们如今需要让某些数据落实到位,并搜寻数量和质量的多样性。这一措施将产生很多长久的利益。
四种大数据神话:
任何数据都能够而且理应被捕捉和储存。
大量的数据总是有利于创建更精确的分折模型。
存储大量数据的成本基本上为零。
计算大量数据的成本基本上为零。
殊不知:
来自物联网和网络流量的数据明显超出了人们的捕捉能力。许多数据都需要在抓取时进行预处理便于存储和监管。人们需要按照其价值对数据做好归类与筛选。
重复使用一千次同样的数据开展训练并不会提升预测模型的精确性。
储存更多数据的成本不仅是亚马逊网络服务向您收取的以 TB 计费的美金。同时也包含系统在查寻和监管好几个数据源的超额复杂性,及其员工移动和运用该数据的“模拟重量”。这些成本一般高过储存和计算费用。
人工智能算法对计算资源的需求会迅速超过弹性云基础设施能够提供的算力。在沒有专业的管理模式的情形下,计算资源会呈线性增长,而计算需求则会出现超线性增长,乃至指数级增长。
假如轻信了这些神话,你所构筑的信息系统将会看上去会好似纸上谈兵,或从长久角度看上去非常好,但在即时性的架构中实现起来则是繁杂且低效的。
四种大数据问题:
重复的数据对模型无益。在为 AI 构建机器学习模型时,训练样本的多样性尤为重要。缘故是模型试图明确概念界限。比如,假如您的模型试图通过年纪和职业来界定“退休人员”的概念,那么像“32 岁的注册会计师”这样的重复样本对该模型并没什么价值,因为这些人大也没有退休。在 65 岁的概念边界中获得样本并掌握退休怎样随职业而转变则更具备价值。
低质量数据会对模型有害。在 AI 试图学习两个概念之间边界的过程中,如果新数据是不精确的,或存在错误,那么它会混淆这个边界。在这种情况下,更多数据无济于事,并且还有可能会降低现有模型的准确性。
大数据增加了时间成本。针对不一样学习算法,在 TB 级的数据上构建模型将会会比在数 GB 的数据上构建模型多花费约千倍、乃至万倍的时间。数据科学本就是迅速实验,虽不完美却轻量的模型更具备未来趋势。数据科学一旦失去了速度,则失去了未来。
大数据环境下便于实现的模型。任何预测模型的最后目的都是构建一个可用于商业部署的高度精确的模型。有时使用来自数据库深处阴暗面的模糊数据将会会产生更高的精确性,但所使用的数据针对实际部署可能是有风险的。应用一个不太准确却能够快速部署和运行的模型往往更好。
四种更好的措施
学会在准确性和执行性之前权衡。数据科学家大都喜爱将目标定为更精确的模型。事实上,你理应依据准确性和部署速度,测算合理的 ROI 期待,随后再开始你的项目。
应用随机样本搭建每一模型。如果你已经获取了大数据,那么没理由不采用它。假如能使用好的随机抽样方法,那么你可以先使用小样本建立模型,随后在全部数据库上开展训练和调节以获取更精确的预测模型。
丢弃一些数据。倘若你对来源于物联网设施和其它来源的流数据觉得手足无措,请抛下一些数据,不必有太大的负担。如果你没法购买足够的磁盘来储存多余的数据,它会损毁你在计算机科学生产线末期的全部工作。
找寻更多数据源。人工智能近期的很多突破并非归因于更大的数据集,而是能够将机器学习算法成功的应用于这些数据,这在以前是没法实现的。比如,现今普遍存在的大中型文本,图像,视频和声频数据集在20年前并非存在。你理应持续探寻新的数据以找出更好的机会。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
物流链云平台云ROS——看得见的成本节约
物流配送是一种先进、综合的物流活动形式,在现代物流发展中扮演着越来越重要的角色。在配送运输中,由于配送用户多,城市交通路线又复杂,如何组成最佳路线,如何使配装和配送路线有效搭配等,是配送运输的特点,也是难度较大的工作。于是采用科学的、合理的方法来确定配送线路,成为提高物流配送车辆效益、提高企业服务质量并且降低物流成本的重要途径,也是配送活动中非常重要的一项工作。 路径优化是对车辆行驶路线的优化过程,也是对车辆进行调度的一个问题。随着物流业的发展,在物流配送中,由于运输任务的性质和特点不同、道路条件及车辆类型等各种约束标准不同,即使在相同收发货运点间完成同样任务时,所采用的行驶路线方案也可能不同,物流配送中的路径优化问题已不单单是求取路径最小化的问题。 为什么ROS路径优化系统如此重要? 节约成本。ROS路径优化系统利用现代智能优化技术,对于物流配送中涉及到的各种难题提供可行的计算方案,在有限时间内充分利用资源,优化业务流程、优化配送线路、提高配送效率、提高车辆配载率,最终降低成本,提高效益。 智能管理。ROS路径优化系统利用GPS/物联网技术,可以对运输过程进行监控和调度;利用GIS/...
- 下一篇
嵌入式模拟智能为机器人提供了新的自主水平
机器人不仅需要人工智能(AI)才能实现自主。他们还需要大量传感器,传感器融合以及边缘的实时推理。之前我们已经尝到了深度卷积神经网络的好处,如今来自激光雷达的更高数据处理的需求正在推动神经网络到新拓扑以获得自主。历史上第一个机器人是在20世纪50年代末到60年代早期的时候,准确的说,它还不能称得上是一个机器人,只能算是一个“编程的物品传送装置”用于GM生产线和压铸机周围移动产品。直到今天,机器人还没有脱离原来的概念:今天的机器人是可编程的,他们需要感知自己的环境,来确保他们所做的事情和他们的计划之间的合规性,他们需要在自己的环境中移动。那么什么推动机器人行业的发展呢?机器人技术作为一种行业和科学,旨在通过增加嵌入式模拟智能来最大化未来机器人行为的自由。这将需要:更多传感器用于机器人周围环境的更高精度模型。更好的传感器与控制算法的互连(以及更分散的控制算法)。更好的算法,可以从传感器数据中提取尽可能多的信息。根据控制算法的决定,更好的执行器可以更快,更准确地动作。在今天的技术领域,机器人已经获得了很多自主权,并使用来自互补金属氧化物半导体相机传感器,激光雷达和雷达的传感器来适应各种各样的应...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8编译安装MySQL8.0.19
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Hadoop3单机部署,实现最简伪集群
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果