构建一套成功大数据基础设施需要遵循的七项要诀
【大咖・来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》
【51CTO.com快译】
无论从硬件还是软件角度出发,您面向大数据构建的基础设施都会对所支持大数据系统的分析与操作带来巨大影响。在今天的文章中,我们将了解七项重要的大数据架构设计原则。
大数据不仅是Hadoop
在大多数人的理解当中,大数据与Hadoop几乎可以等而论之。事实上,大数据远不止Hadoop这么简单。Hadoop是一套文件系统(而非数据库),其负责将数据传播至成百上千个处理节点当中。其之所以在大数据应用中广泛出现,是因为作为文件系统,它能够很好地处理非结构化数据——甚至包括一些看起来根本不算是数据的素材。
Hive与Impala将数据库引入Hadoop
下面聊聊大数据世界中结构化数据部分的对应数据库选项。如果大家希望以明确次序管理Hadoop数据平台,那么Hive应是***选项。这是一款基础性结构工具,允许大家在非SQL Hadoop当中执行SQL类操作。
如果大家的一部分数据能够轻松旋转在结构化数据库当中,那么Impala则更为合适——除了自身功能外,它还能够直接利用您已经开发出的Hive命令。Hadoop、Hive与Impala皆属于Apache项目,因此其全部为开源成果——请随意使用。
Spark用于处理大数据
截至目前,我们已经探讨了数据的存储与整理。然而,我们该如何对数据进行实际操作?这代表着我们需要一套分析与处理引擎,例如Spark。Spark亦属于Apache项目,能够将您的大批量数据整理为湖、仓储乃至数据库并进行实用性处理。
Spark亦可用于处理存储在任意位置的各类数据,因为丰富的库选项使其拥有了极为广泛的访问能力。另外,由于其属于开源项目,因此大家能够随意修改其核心内容。
可以立足大数据执行SQL操作
很多朋友可能非常熟悉SQL数据库构建与SQL查询编写工作。这方面专业知识在大数据领域同样拥有用武之地。Presto是一套开源SQL查询引擎,允许数据科学家利用SQL查询以检索从Hive到专有商用数据库等各类数据库系统。Facebook等巨头级企业都在利用其进行交互查询,因此我们基本可以将Presto视为一套理想的大规模数据集交互式查询工具。
在线存储同样需要接地平台
大数据领域中的相当一部分任务要求对数据进行快速变更——例如定期添加数据或者对变更数据进行分析等。无论如何,如果大家的数据拥有几乎对等的读取与写入频度,那么应当同时在本地与在线端保留数据副本。如果预算允许,使用固态存储无疑效果更好,因为这能够显著提升数据处理速度。
云存储的必要性
在对大规模聚合数据库进行分析时,云存储将成为最为理想的存储平台。大家可以将数据聚合后传输至云端,运行分析而后移除对应实例。数据处理不会受到互联网性能的影响。另外,如果大家将内部实时分析系统与云端深度分析方案加以结合,则能够***程度发挥大数据基础设施的全部潜力。
别忘了可视化机制
除了大数据分析,将结果以易于理解的方式加以呈现同样非常重要,而数据可视化正是实现这一效果的关键性工具。
幸运的是,目前市面上提供多种可视化处理选项。大家可以选择一部分并加以尝试,同时了解用户的反馈意见以判断其效果。总而言之,可视化是实现大数据分析价值的***方式。
原文题目:7 Keys To Building A Successful Big Data Infrastructure,作者:Curtis Franklin Jr.
【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】
点赞 0
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
大数据时代下的备份与恢复革命
【大咖・来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》 【51CTO.com快译】随着全球数据总量的爆炸式增长,我们必须改变对相关信息的保护方式。 过去五年以来,应用程序的规范已经迎来彻底转变。如今,我们需要在应用当中实现更多敏捷性、可扩展性与可用性要求。在如今这个时代,应用的主要趋势开始转向社交平台、移动设备与软件即服务(简称SaaS)。另外,其需要有能力从各种来源处获取批量数据,同时实时处理以提供背景信息或者业务洞穴能力,借此建立竞争优势。为了满足这些新型需求,企业无法再单纯依赖于传统关系型数据库。有鉴于此,一系列新型数据库系统应运而生,其本质上具备分布式与横向扩展特性,能够被部署在商用硬件之上,同时提供可协调的统一性与性能调整机制。更重要的是,为了满足敏捷性需求,云端数据库即服务模式亦得到广泛采用。 为了帮助大家理解这场分布式数据库变革的规模之大,我们整理出了以下图表,可以看到NoSQL类搜索数量正呈现出急剧上升之势。 这意味着数据保护要求已经彻底改变,且受到数据至上时代的大力推动(包括Web规模应用以及分布式数据库)。企业需要收集大量数据并从中获取有价值信息,用...
- 下一篇
主攻关键业务 曙光发布超融合一体机
【大咖・来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》 【51CTO.com原创稿件】从今年开始,我们看到市场中有越来越多的超融合产品出现,而很多企业用户也将目光开始转向超融合,毕竟更加简便的运营管理方式能够大大解放技术人员压力,更有利于成本控制。 今天,曙光在北京正式推出中科曙光StackCube超融合云计算一体机,为满足用户关键业务上云需求提供一体化方案。曙光公司副总裁沙超群、VMware中国区合作伙伴联盟业务总监万红、Intel云创新中心的资深技术专家陈小波等出席发布仪式。 曙光超融合一体机发布仪式 “曙光超融合一体机的发布是曙光超融合架构从概念到落地的重要里程碑。”曙光公司副总裁沙超群介绍说,“曙光超融合一体机瞄准用户对IT基础设施‘高可用性’的刚性需求,强调系统的稳定性和整机性能,甫一推出就处于业界领先水平。” 云数据中心的理想之选 “曙光超融合一体机是基于软件定义数据中心理念开发的超融合基础架构一体化产品,它融合高密计算、高密存储虚拟化技术于一体,具有便捷、弹性、稳定等特性,是云数据中心的理想选择。”沙超群说。 据了解,StackCube***可支持4U空间...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- 设置Eclipse缩进为4个空格,增强代码规范
- SpringBoot2全家桶,快速入门学习开发网站教程
- Docker安装Oracle12C,快速搭建Oracle学习环境
- SpringBoot2更换Tomcat为Jetty,小型站点的福音