分布式相关(基本概念/名词解释)
1、什么是分布式计算?
所谓分布式计算是一门计算机科学,它研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果。分布式网络存储技术是将数据分散的存储于多台独立的机器设备上。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,不但解决了传统集中式存储系统中单存储服务器的瓶颈问题,还提高了系统的可靠性、可用性和扩展性。(百度百科)
2、GOOGLE三大论文中文版:GFS,BigTable,MapReduce。
3、GOOGLE三驾马车与Hadoop对应关系:
|
1
2
3
|
GFS —— HDFS
BigTable —— HBase
MapReduce —— MapReduce
|
MapReduce是一种编程模型(/思想),而不是一个软件或者系统。
3.1、MapReduce的Shuffle阶段 。
4、MPI(Message Passing Interface),信息传递接口。
MPI是一个跨语言的通讯协议,用于为并行计算机编写程序。(WIKI)
5、Hadoop [hdu:p](百度百科)
一个分布式系统基础架构,由Apache基金会开发。Hadoop由Apache Software Foundation 公司于2005年秋天作为Lucene的子项目Nutch的一部分正式引入。Hadoop用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储。
6、Lucene ['lusen](百度百科)
Lucene是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构。
7、Solr(发音同"solar")
Solr是一个开源的企业级搜索平台,基于Apache的Lucene项目。
8、Spark是一个开源的集群计算系统,目标是是让数据分析更快——不管是读还是写。
*** walker ***