数据集成的演化:从EII到Big Data
本文讲的是 数据集成的演化:从EII到Big Data, “企业信息集成(EII):实用方式”于2005年发布,描述了一套集成不同数据源的方法论,它利用了当时的先进技术,如面向服务架构(SOA)、Web Services、XML、资源描述架构(RDF)、基于XML的元数据格式、数据提取、转换和加载(ETL)等。EII基本能够为关系型数据元素提供统一视角,但在性能效率上还无法替代数据仓库和多维数据库。五年之后,技术已经得到了显著提升,不仅体现在对分散数据的操作上,还体现在简化了单一容器下不同数据的整合,以及对数据深入挖掘的能力上。 数据管理方式的技术正在向虚拟化转换,包括低成本存储、云计算、NoSQL数据库以及Hadoop等。当我们提起虚拟化时,已经远远超出为一台物理机器提供一套软件实例的概念。时至今日,我们可以对服务器、存储以及网络实现虚拟化。所有这些虚拟化意味着我们不再受这些物理条件的限制,能够迅速构建物理环境,以支持我们特定时刻的特定需求。当面对Gb、Tb、Pb等级数据量的处理需求时,我们基本能摆脱结构化的数据仓库。我们不再需要仅仅为了发掘业务的某一方面而建立特殊的环境了。 低成本...
