大数据应用之双色球算奖平台总体设计历史数据存储篇-低调大师

大数据应用之双色球算奖平台总体设计历史数据存储篇

2013-07-15 1015

大数据应用之双色球算奖平台总体设计历史数据存储篇

1.1 引子：文件OR数据库

　　历史期次的双色球选注数据的存储，采用什么样的格式比较好呢？这需要重点从三个方面考虑，一、文件访问方便吗？二、文件服务器空间够用吗？三、软硬件故障环境下，如何保障数据的可用性。基于这几个方面的考虑，到底是采用文件存储还是采用数据库存储呢？本文，从传统和前沿技术两个角度给出了两种相应的解决方案。

1.2 文件存储

1.2.1 三大问题

　　根据上一篇《大数据应用之双色球算奖平台总体设计数据规模估算篇》分析，双色球单期次数据的存储规模在7G左右，记录数在2亿条左右。可以考虑以文本文件的方式进行存储，这里面面临三大问题，一、单个文件过大的问题，访问不便，文本文件一般来讲超过200M，使用常规文本文件阅读器打开，都会成为问题，各位可以自行尝试。二、历史期次存储空间问题，技术总是在发展的，目前一般的服务器存储空间，单台服务器硬盘配置个NT，从技术和成本角度，都不会成为障碍，双色球每周三期，考虑到节假日的因素，每年约156期，156*7=1092，所需空间约1T。三、数据高可用性问题，传统单点存储方式的缺点，不做说明，考虑一个极端，硬盘坏了，或者服务器宕机，数据怎么访问？

1.2.2 传统方案

　　问题的存在，不代表没有解决的方法，一切软件问题的技术解决方案，其实都是在各种妥协中寻求平衡点而已。当然总有无法平衡的时候，而这时总会有技术方面的突破，有需求才有动力。传统的方式，针对问题一，可以按照地域或者期次进行文件夹组织，按照投注站进行文件命名，不同投注站的单独期次的文件存放到同一个文件中，这样做的好处是单个文件的大小变小了，读取成为可能，缺点是你要去管理大量的小文件。针对问题二、如果考虑一台主机就能存个三年五载的数据，不妨搞个磁盘阵列，或者多加几块T级的存储硬盘。这么做的好处是空间问题得到解决了，缺点是仍然面临IO读取速度的问题。针对问题三、可以采用磁带机，或者物理隔离的冗余备份，考虑到数据的特点，数据一次写入，不会发生变更，所以即使是刻盘的方式都是能够解决问题的，这么做自然能做到保障数据的可用性，但是同样的存在问题，那就是即时可用性，无论什么原因，我必须停下当前的工作，重新进行数据的导入和加载。

1.2.3 前沿技术

　　如果双色球历史数据存储的问题，结合最新的分布式存储（HDFS），会得到怎么样的效果呢？我们不妨仔细的考虑一下。如果采用分布式单文件存储，每一期作为一个文件，可以很好的解决存储空间和高可用性的问题，但是分段读取还是一个障碍，除非你一次想使用整个文件。所以还是要妥协，那就是把文件按照上一节中提到的方式进行切分。只是考虑业务分析的需求，粒度可以控制在以地域为单位或者以投注站为单位，粒度过细则会涉及到HDFS文件分块的问题（64M）。

1.3 数据库存储

1.3.1 核心问题

　　考虑到双色球投注数据的特点，每一个选注为一个独立的数据单元，一条记录。采用关系型数据库进行存储的好处很明显，就是结构清晰，访问方便。但是由于数据规模的问题，单表存储2亿条记录，如果采用传统关系型数据库，面临的核心问题就是单表记录数过大的问题。

1.3.2 传统技术-分区&分表

　　历史的因素，关系型数据一致面临大数据应用领域的挑战，当然也衍生出来许多的解决办法，比如说分区，比如说分表。分区的核心思想在于增加单表的空间，而分表的核心思想则在于分而治之。但是都无法逃避单点访问受限的问题，再怎么变，也要受控于RDMS服务器的性能。

1.3.3 前沿技术-NoSQL

　　如果采用No-SQL技术（Hbase）又会是怎么样的情形呢？我们以期次为单位组织表结构，每期一个文件，以投注站编号和流水号为rowkey，以红球为family1，以篮球为family2。根据Hbase的特点，则既可以解决记录数的问题，也可以解决访问并发访问性能的问题（Hbase文件存储采用HDFS）。同时Hbase基础之上有很多分布式并行计算的工具可用，可以很好的协调多服务器的并行计算。

1.4 对比分析

　　前文已述，很喜欢No-SQL方式的实现，个人认为是目前最为恰当的方式。引玉抛砖，还是多听听各位大牛的意见吧。

作者：张子良
出处：http://www.cnblogs.com/hadoopdev
本文版权归作者所有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。

微信关注我们

原文链接：https://yq.aliyun.com/articles/438625

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

ElasticSearch查询第二篇：文档更新

《ElasticSearch查询》目录导航： ElasticSearch查询第一篇：搜索API ElasticSearch查询第二篇：文档更新 ElasticSearch查询第三篇：词条查询 ElasticSearch查询第四篇：匹配查询（Match） ElasticSearch查询第五篇：布尔查询 ElasticSearch是性能优化的分布式全文搜索引擎，存储数据的载体是文档（Document），它的优势在于搜索速度快和支持聚合操作，在更新文档时，基本上能够达到实时搜索。ElasticSearch引擎总是按照文档标识来更新数据，并发控制是通过顺序的版本ID（version）实现的，控制写-写、写-读冲突，实现数据弱一致性。在ElasticSearch引擎中，索引定义了文档的逻辑存储，索引是由段（Segment）组成的，段不是实时更新的，这意味着，在建立索引时，一个段写入磁盘后，就不再被更新。被删除文档的信息存储在一个单独的文件中，在搜索数据时，ElasticSearch首先从段中查询，再从查询结果中过滤被删除的文档，这意味着，段中存储”未被删除文档“的密度降低。多个段可...

2013-07-11

721

Facebook的扩展性挑战在我们讨论细节之前，这里有一些Facebook已经做的软件规模： ◆Facebook有570000000000每月页面浏览量（据Google Ad Planner） ◆Facebook的照片量比其他所有图片网站加起来还多（包括Flickr等网站） ◆每个月超过30亿张照片被上传 ◆Facebook的系统服务每秒处理120万张照片，这不包括CDN服务中处理的照片 ◆每月超过25亿条的内容（状态更新，评论等）被共享 ◆Facebook有超过30,000服务器（这个数字是去年的） Facebook扩展所依赖的软件 Facebook是在某些程度上说仍然是LAMP的站点，但它比普通的LAMP大得多，以纳入其他元素和很多服务，并修改现行的做法。例如： ◆Facebook仍使用PHP，但它已经为它建立一个编译器，以便它可以分为本地代码打开了Web服务器，从而提高性能。 ◆Facebook使用Linux，但他特别为网络吞吐量做了优化。 ◆Facebook使用MySQL，但主要是作为一个Key-value的持久性存储，Jions和服务器逻辑操作在Web服务器上操作。因...

2013-07-21

726

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。