什么是大数据架构?
大数据架构是用于摄取和处理大量数据(通常称为“大数据”)的总体系统,因此可以针对业务目的进行分析。该架构可视为基于组织业务需求的大数据解决方案的蓝图。
大数据架构是用于摄取和处理大量数据(通常称为“大数据”)的总体系统,因此可以针对业务目的进行分析。该架构可视为基于组织业务需求的大数据解决方案的蓝图。大数据架构旨在处理以下类型的工作:
•批量处理大数据源。
•实时处理大数据。
•预测分析和机器学习。
精心设计的大数据架构可以节省企业资金,并帮助其预测未来趋势,从而做出明智的业务决策。
|| 大数据架构的好处
可用于分析的数据量每天都在增长。而且,流媒体资源比以往更多,其中包括流量传感器、健康传感器、事务日志和活动日志中提供的数据。但拥有数据只是业务成功的一半。企业还需要能够理解数据,并及时使用它来影响关键决策。使用大数据架构可以帮助企业节省资金并做出关键决策,其中包括:
•降低成本。在存储大量数据时,Hadoop和基于云计算的分析等大数据技术可以显著地降低成本。
•做出更快、更好的决策。使用大数据架构的流组件,企业可以实时做出决策。
•预测未来需求并创建新产品。大数据可以帮助企业衡量客户需求并使用分析预测未来趋势。
|| 大数据架构的挑战
如果做得好,大数据架构可以为企业节省资金,并帮助预测重要的趋势,但它并非没有挑战。在处理大数据时,需要注意以下问题:
(1)数据质量
无论何时使用各种数据源,数据质量都是一项挑战。这意味着企业需要做的工作是确保数据格式匹配,并且没有重复数据或缺少数据将会使分析不可靠。企业需要先分析和准备数据,然后才能将其与其他数据一起进行分析。
(2)扩展
大数据的价值在于其数量。但是,这也可能成为一个重要问题。如果企业尚未设计架构以进行扩展,则可能会很快遇到问题。首先,如果企业不计划支持基础设施,那么支持基础设施的成本就会增加。这可能会给企业的预算带来负担。其次,如果企业不打算进行扩展,那么其性能可能会显著下降。这两个问题都应该在构建大数据架构的规划阶段得到解决。
(3)安全性
虽然大数据可以为企业提供对数据的深入了解,但保护这些数据仍然具有挑战性。欺诈者和黑客可能对企业的数据非常感兴趣,他们可能会尝试添加自己的伪造数据或浏览企业的数据以获取敏感信息。网络犯罪分子可以制作数据并将其引入其数据湖。例如,假设企业跟踪网站点击次数以发现流量中的异常模式,并在其网站上查找犯罪活动,网络犯罪分子可以渗透企业的系统,在企业的大数据中可以找到大量的敏感信息,如果企业没有保护周边环境,加密数据并努力匿名化数据以移除敏感信息的话,网络犯罪分子可能会挖掘其数据以获取这些信息。
|| 大数据架构因公司的基础设施和需求而异,但通常包含以下组件:
•数据源。所有大数据架构都从源代码开始。这可以包括来自数据库的数据、来自实时源(如物联网设备)的数据,以及从应用程序(如Windows日志)生成的静态文件。
•实时消息接收。如果有实时源,则需要在架构中构建一种机制来摄取数据。
•数据存储。企业需要存储将通过大数据架构处理的数据。通常,数据将存储在数据湖中,这是一个可以轻松扩展的大型非结构化数据库。
•批处理和实时处理的组合。企业需要同时处理实时数据和静态数据,因此应在大数据架构中内置批量和实时处理的组合。这是因为可以使用批处理有效地处理大量数据,而实时数据需要立即处理才能带来价值。批处理涉及到长时间运行的作业,用于筛选、聚合和准备数据进行分析。
•分析数据存储。准备好要分析的数据后,需要将它们放在一个位置,以便对整个数据集进行分析。分析数据存储的重要性在于,企业的所有数据都集中在一个位置,因此其分析将是全面的,并且针对分析而非事务进行了优化。这可能采取基于云计算的数据仓库或关系数据库的形式,具体取决于企业的需求。
•分析或报告工具。在摄取和处理各种数据源之后,企业需要包含一个分析数据的工具。通常,企业将使用BI(商业智能)工具来完成这项工作,并且可能需要数据科学家来探索数据。
•自动化。通过这些不同的系统移动数据需要通常以某种形式的自动化进行编排。数据的摄取和转换、批量移动和流处理,将其加载到分析数据存储,最后获得洞察力必须在可重复的工作流程中,以便企业可以不断从大数据中获取洞察力。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
4月15日云栖精选夜读 | 贾扬清:我对人工智能方向的一点浅见
【点击订阅云栖夜读周刊】 作为 AI 大神,贾扬清让人印象深刻的可能是他写的AI框架Caffe ,那已经是六年前的事了。经过多年的沉淀,成为“阿里新人”的他,对人工智能又有何看法?最近,贾扬清在阿里内部分享了他的思考与洞察,欢迎共同探讨、交流。 热点热议 贾扬清:我对人工智能方向的一点浅见 作者:技术小能手发表在:阿里技术 “不是不需要运维工程师,是人人皆是运维”|对话阿里云MVP蒋烁淼(上) 作者:MVP时间 辰悠发表在:阿里云MVP 2019年4月值得一读的9本技术书籍(机器学习、人工智能、Android等书籍)! 作者:技术小能手发表在:云栖干货集锦 知识整理 基于TableStore的海量气象格点数据解决方案实战 作者:亦征发表在:阿里云存储服务 面向SecDevOps七种武器 作者:简志发表在:阿里云存储服务 好程序员web前端教程分享CSS不同元素margin的计算 作者:好程序员 postgresql行列转换函数 作者:jason0 现代IM系统中的消息系统架构 - 架构篇 作者:木洛发表在:阿里云存储服务 美文回顾 Psqlgresql Time function时间函...
- 下一篇
Redis 单数据多源超高并发下的解决方案
Redis 是目前最流行的KV缓存数据库,它简单易用,安全稳定,在互联网行业有着非常广泛的应用。本文主要给大家分享一下 Redis 在单数据多源超高并发访问下的解决思路和方案。 前言 Redis 主要解决两个问题: 当遇到日活千万,同时百万在线的业务场景时,前端访问直接加载到后台数据库的话,可能顺间压垮底层数据库,导致业务停摆。又或者随着查询条件变多,结合条件复杂化,查询结果的响应时间也无法得到保证,导致用户体验下降,用户流失。为了解决高并发,低延迟的业务场景, Redis 应运而生。 下面我们来看两个场景 这是一个线上找房的业务场景,超多的查询条件导致后台必然是一个复杂的查询 SQL,这种场景下是否必须使用 Redis 呢?答案是否定的,由于线上找房业务并发量低,客户对于业务响应时间要求也没有那么苛刻,大部分的请求可以直接通过动态 SQL
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Windows10,CentOS7,CentOS8安装Nodejs环境
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS8编译安装MySQL8.0.19
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Docker使用Oracle官方镜像安装(12C,18C,19C)