简化数据湖可为组织节省时间和资源
即将开播:4月29日,民生银行郭庆谈商业银行金融科技赋能的探索与实践
咨询和托管服务提供商Onica公司首席解决方案架构师Mark McQuade学习和拓宽了他对从Docker和Kubernetes到人工智能和深度学习的各种知识。McQuade分享了对数据池的看法。
为什么组织使用数据湖?
数据湖用例的范围从数据科学家开发的机器学习算法到构建统计可视化,以及使用生成的见解来指导业务决策。
为什么数据湖如此复杂?
随着数据每五年增长10倍,数据平台需要扩展1000倍才能满足未来15年的存储和处理要求。采用数据湖可以减轻这种负担,但是由于数据清理、数据准备和安全配置的复杂性,建立数据湖的过程涉及一系列步骤,这些步骤可能变得非常繁琐,将持续数月之久。此外,在数据湖的整个生命周期中,还涉及其他人工步骤,例如管理和监视ETL(提取、转换、加载)作业,基于数据更改更新元数据,维护清理脚本等。
建立数据湖需要多长时间?
建立一个完善的数据湖可能既困难又耗时,这个过程可能需要三到六个月的时间。使用AWS Lake Formation可以简化以往花费大量人力构建数据湖的工作,并且可以将构建数据湖的时间减少到数周,不必那么复杂或花费那么长时间。
简化数据湖有什么好处?
组织简化数据湖可以节省大量的时间和减少麻烦。通过完善组织对数据湖的维护,可以减少保持一切正常运行所需的内部专业知识和资源,使IT团队能够专注于更紧迫的项目,从而从长远来看节省了组织成本。
数据还可以帮助组织预测客户行为,自动化流程以提高效率,除了自动化客户服务之外,还可以通过速度和可用性增强产品供应。这些用例要求数据是安全的和实时可用的,随着越来越多的人访问数据,重要的是数据平台是灵活和可扩展的。AWS Lake Formation可以解决所有上述问题。
组织如何简化数据湖?
建议使用AWS Lake Formation,它可以消减很多人工工作,并且可以将构建数据湖的时间减少到数周,它还允许组织以三种方式简化数据湖:
- 使用蓝图来摄取数据:能够以大容量或增量负荷摄取数据。如果选择增量加载以进行摄取,则可以指定要增量加载的表和列,并设置一些书签键,并根据自己的偏好指定键排序顺序。设置完所有这些参数后,就可以监视增量导入,以检查摄取是否成功。
- 授予权限以安全地共享数据:在摄取数据之后,可以为用户分配对保存数据库中数据表的访问权限。这些权限可能特定于每个用户,具有可单独选择的选项,例如创建、选择、插入、更改或删除数据。
- 运行查询:提取数据并定义安全权限之后,可以使用Amazon服务(例如Amazon Athena)运行查询,这些服务利用数据湖中表中的数据。与人工工作相比,使用AWS Lake Formation来创建和管理数据湖是一个更简单、直观并且更快的过程。
组织是否还有其他方法可以降低其不采用这些特定步骤或Amazon的数据湖的复杂性?
虽然这三种超大规模方案都提供了管理数据湖的方法,但对于组织而言,在采用新技术之前先问自己要解决的问题始终很重要。尽管简化数据湖对于某些组织而言可能是关键,但可能存在只能用另一种解决方案解决的情况。
组织在简化其数据湖时绝对不应该做哪些事情?
组织需要避免内部部署工作,并坚持使用无服务器数据湖。无服务器的数据湖可以使IT团队有效地进行扩展,而内部部署则需要频繁的软件升级和对物理硬件的关注。
建立数据湖时,可能会花费大量时间和精力,组织可能会想办法走捷径,但是当涉及到数据和将为组织的数据提供强大动力的数据平台时,需要避免这种走捷径的举动。
组织如何才能确保在构建数据湖时考虑到未来因素?
确保组织的数据平台是为长期成功而不仅仅是为了满足当前需求而构建的。例如,组织可能此时对机器学习不感兴趣,但是在接下来的两到三年内,很可能希望对数据进行一些预测。组织确保拥有一个健壮、可扩展且安全的数据平台也是一个好习惯,这将使组织的业务和数据在未来几年内都能正常运行。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
开始采用边缘计算之前需要问的6个问题
即将开播:4月29日,民生银行郭庆谈商业银行金融科技赋能的探索与实践 在尝试边缘计算之前,企业应该问哪些问题?询问与云计算一样的问题是一个良好的开始,但只是开始。 云计算在很大程度上与大规模应用有关,边缘计算与邻近性有关,也就是说将计算资源尽可能靠近需要立即访问它们的用户或设备,同时将网络延迟降到最低。例如一些关键的应用程序,如果自动驾驶汽车遭遇网络延迟可能会发生交通事故;如果必须等待远程数据中心的云计算系统的响应,发生故障的机器人将会对生产车间造成严重破坏。 边缘计算还可以帮助为虚拟现实、增强现实和其他计算提供更好的用户体验,这些体验得益于网络中资源的处理能力(在其附近)。在另一个突出的用例中,电信服务提供商正在利用边缘计算实现网络现代化,并将工作负载从数据中心迁移到边缘。 早期的内容交付网络(CDN)是边缘计算的先驱,用于将图像和视频分发到发布者Web服务器位置之外的多个位置,以追求更快的媒体体验。区别在于边缘计算是在提供处理能力,而不仅仅是静态资源。 需要问的6个关键的边缘计算问题 企业现在应该考虑如何将边缘计算用于自己的运营中,或者如何增强他们将提供给客户的数字能力、产品和服务...
- 下一篇
超大存储空间!512GB新iPhone SE诞生:完美扩容
即将开播:4月29日,民生银行郭庆谈商业银行金融科技赋能的探索与实践 4月26日讯,近日,国内iPhone维修商GeekBar在微博上宣布,该团队正式实现了新款iPhone SE的扩容,目前经过扩容的iPhone SE功能完全正常,这也是国内出现的第一台512GB新iPhone SE。 根据该团队所说,他们成功将一台64GB版本的新iPhone SE更换为512GB存储空间,要知道苹果官方销售的新iPhone SE最高也只有256GB存储空间。经过测试,目前该新iPhone SE一切功能正常,可以正常开关机,也支持iOS系统的正常升级,读写速度目前使用起来也算正常,但并不排除后续会出现功能不稳定的情况。 所谓的扩容,就是更换iPhone存储空间的一种做法。手机维修商先通过高温把iPhone的原装ROM取下,读写并转移内部数据到更大的ROM中,重新焊接并再激活,让手机的存储空间能够得到提升。 为什么要进行扩容呢?就我个人知道的原因一般有两种,其一,用户不舍得更换自己早先购买的旧iPhone,但是存储空间又不够用了,扩容就成为了他们能够继续使用旧手机的唯一解决方法;其二,则是因为苹果官方差...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS关闭SELinux安全模块
- CentOS8安装Docker,最新的服务器搭配容器使用
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Hadoop3单机部署,实现最简伪集群
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Windows10,CentOS7,CentOS8安装Nodejs环境
- 设置Eclipse缩进为4个空格,增强代码规范