何为大数据架构?
大数据架构是用以提取和处理海量数据(一般称之为“大数据”)的整体系统,因而能够针对业务目的进行分析整理。该架构可视作基于机构业务需求的大数据解决方案的蓝图。
大数据架构旨在处理下列类别的业务:
•批量处理大数据源。
•实时处理大数据。
•分析预测和机器学习。
大数据架构的好处
可用以分析的数据量每日都在增长。并且,流媒体资源比过去更多,其中包括流量传感器、健康传感器、事务日志和活动日志中提供的数据。但拥有数据仅是业务成功的一半。公司还必须能够理解数据,并及时应用它来影响重要决策。应用大数据架构能够帮助公司减少财力并做出重要决策,其中包括:
•控制成本。在存储大批量数据时,Hadoop和基于云计算的分析等大数据技术能够明显地节省成本。
•做出更快、更好的决策。应用大数据架构的流组件,公司能够及时做出决策。
•预测未来需求并建立新品。大数据能够协助公司考量客户需求并使用预测分析未来发展趋势。
大数据架构的挑战
假如做得好,大数据架构能够为公司节约资金,并协助分折关键的趋势,但它并不是沒有挑战。在处理大数据时,必须留意下列问题:
(1)数据质量
不论什么时候使用各种数据源,数据质量都是一项挑战。这代表着公司需要做的工作是保障数据格式匹配,而且沒有重复数据或缺失数据将会使分析不可信。公司需要先分析和准备数据,随后才能将其与其它数据一同开展分析。
(2)扩展
大数据的价值在于其数目。可是,这也将会变成一个关键难题。假如公司并未设计架构以进行扩展,则或者会很快碰到问题。最先,假如公司不计划支持基础建设,那样支持基础设施的成本就会增多。这将会会给公司的预决算产生负担。另一方面,假如公司不准备进行扩展,那样其性能将会会明显下降。这两个问题都应当在构建大数据架构的规划环节取得解决。
(3)安全性
尽管大数据能够为公司提供对数据的深层次了解,但保护这些数据依然有着挑战性。欺诈者和黑客或者对公司的数据十分感兴趣,他们或者会试着添加自己的假造数据或浏览公司的数据以获得敏感信息。互联网犯罪嫌疑人能够制做数据并将其导入其数据湖。比如,假定公司追踪网页单击频次以发觉流量中的不正常模式,并在其网页上搜索犯罪活动,互联网犯罪嫌疑人能够渗透公司的系统,在公司的大数据中能够寻找大批量的敏感信息,假如公司沒有保护周围环境,加密数据并努力匿名化数据以清除敏感信息的话,互联网犯罪嫌疑人可能会发掘其数据以获得这些信息。
大数据架构因企业的基础设施和需求而异,但一般包括以下组件:
•数据源。所有大数据架构都从源代码开始。这可以包含来源于数据库的数据、来自实时源(如物联网设备)的数据,及其从应用程序(如Windows日志)生成的静态文件。
•实时消息接收。假如有实时源,则需要在架构中构建一种机制来摄入数据。
•数据存储。公司需要存储将通过大数据架构处理的数据。一般而言,数据将存储在数据湖中,这是一个可以轻松扩展的大型非结构化数据库。
•批处理和实时处理的组合。公司需要同时处理实时数据和静态数据,因而应在大数据架构中内置批量和实时处理的组合。这是由于能够应用批处理有效地处理大批量数据,而实时数据需要立刻处理才能够带来价值。批处理涉及到长期运转的作业,用于筛选、聚合和准备数据开展分析。
•分析数据存储。准备好要分析的数据后,需要将它们放到一个位置,便于对整个数据集开展分析。分析数据储存的必要性在于,公司的全部数据都聚集在一个位置,因而其分析将是全面的,而且针对分析而非事务进行了优化。这可能采用基于云计算的数据仓库或关系数据库的形式,具体取决于公司的需求。
•分析或报告工具。在摄入和处理各类数据源之后,公司需要包含一个分析数据的工具。一般而言,公司将使用BI(商业智能)工具来完成这项工作,而且或者需要数据科学家来探索数据。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
4月17日云栖精选夜读 | 在阿里做了五年技术主管,我有话想说
【点击订阅云栖夜读周刊】 在历史文章《如何成为优秀的技术主管?》中,阿里巴巴高级技术专家云狄从开发规范、开发流程、技术规划与管理三个角度,分享对技术 TL 的理解与思考。 热点热议 在阿里做了五年技术主管,我有话想说 作者:技术小能手发表在:阿里技术 蠕虫利用新公开的Confluence RCE漏洞进行大规模攻击,用户应尽快修复 作者:云安全专家 免费的容器架构可视化工具 | 阿里云应用高可用服务 AHAS 发布重大新特性 作者:中间件小哥发表在:阿里中间件团队 知识整理 关于多核 CPU 自旋锁 (spinlock) 的优化 作者:彦军 好程序员分享大势所趋 HTML5成Web开发者最关心的技术 作者:好程序员 Spring Cloud OAuth 微服务内部Token传递的源码实现解析 作者:gggggwww 为什么说流处理即未来? 作者:apache_flink发表在:阿里云实时计算 kkfileView使用问题年终答疑篇 作者:凯京技术团队 美文回顾 月薪20+的Android面试都问这些问题(含答案) 作者:Android进阶开发 数据库技术之《OpenTSDB简介以及同TS...
- 下一篇
一名IT界“老”技术人关于学习与成长的分享,受益!
Ben Northrop 满 40 岁,本文是他对职业生涯的思考。他认为从长远来看,应该多投资一些不容易过期、衰竭期较长的知识领域中。 我是一名程序员,几个月前刚过完 40 岁生日。某个星期六的早晨,我参加了一个 React Native 技术交流会,演讲者正在竭力说服我们为什么它会成为移动开发领域真正的下一个大事件。但对我来说,它有点像 15 年前的 JSP,将所有的逻辑都放在演示代码里面。但我“老”了,我认为这是因为自己还没有完全理解它。 演讲者展示完 PPT 后,现场进行编码,还展示了大约半打我没听说过的配套工具,这些都让我感到有点沮丧。 当然,我并不是真的惊讶。在过去 20 年里,我也掌握了一些比较流行的技术,并享受驾驭它们的乐趣。新的东西总能给编程带来一丝激动的体验,并且能让事情变得更容易、更快和更清楚。但是在这个特别的早晨,在40岁的这个门槛上,我不得不承认我感觉有些落伍。我知道如果想跟上节奏,我得继续付出,抛弃一些已经充分吸收的知识,吸收一些新的知识,为下一次旅程做准备。 我在想,我的编程生涯不像其他的专业人士,医生到了 40 岁不用担心他对血管系统的知识会蒸发,同样的,...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- Linux系统CentOS6、CentOS7手动修改IP地址
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8编译安装MySQL8.0.19
- CentOS7,CentOS8安装Elasticsearch6.8.6
- SpringBoot2整合Redis,开启缓存,提高访问速度
- Red5直播服务器,属于Java语言的直播服务器
- CentOS6,CentOS7官方镜像安装Oracle11G
- Windows10,CentOS7,CentOS8安装Nodejs环境
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池