基于POLARDB数据库的压测实践

2018-09-22 777

POLARDB架构简介

PolarDB是阿里云ApsaraDB数据库团队研发的基于云计算架构的下一代关系型数据库(暂时仅支持MySQL，PostgreSQL正在紧锣密鼓的开发中)，其最大的特色是计算节点(主要做SQL解析以及存储引擎计算的服务器)与存储节点(主要做数据块存储，数据库快照的服务器)分离，其次，与传统的云数据库一个实例一份数据拷贝不同，同一个实例的所有节点(包括读写节点和只读节点)都访问存储节点上的同一份数据，最后，借助优秀的RDMA网络以及最新的块存储技术，PolarDB的数据备份耗时可以做到秒级别(备份时间与底层数据量无关)，这三点相结合，我们可以推断出PolarDB不但满足了公有云计算环境下用户业务快速弹性扩展的刚性需求(只读实例扩展时间与底层数据量无关)，同时也满足了互联网环境下用户对数据库服务器高可用的需求(服务器宕机后无需搬运数据重启进程即可服务)。

DB Server: 即数据库进程(Polar DataBase, 简称PolarDB)。PolarDB数据库内核区分实例角色，目前包括三种角色，Primary，Standby和Replica。Primary即为拥有读写权限的读写库，Replica即为只读实例，仅仅拥有读取数据的权限(后台线程也不能修改数据)，Primary和Replica采用Shared Everything架构，即底层共享同一份数据文件和日志文件。StandBy节点拥有一份独立的数据和日志文件(如图2所示)，虽然用户线程依然只有读取数据的权限，但是后台线程可以更新数据，例如通过物理复制的方式从Primary节点更新增量数据。StandBy节点主要用来机房级别的容灾以及创建跨可用区的只读实例，公测阶段暂时不开放。由于只读实例的扩展不需要拷贝数据，创建新的只读实例不但速度快，而且很便宜，用户只需要支付相应计算节点的成本即可。我们称StandBy和Replica节点为Slave节点，Primary节点也可称为Master节点。

User Space File System: 即用户态文件系统(Polar File Sytem, 简称PolarFS)。由于多个主机的数据库实例需要访问块存储上的同一份数据，常用的Ext4等文件系统不支持多点挂载，PolarDB数据库团队自行研发了专用的用户态文件系统，提供常见的文件读写查看接口，便于MySQL和相关的外围运维工具使用文件系统支持类似O_DIRECT的非缓存方式读写数据，还支持数据页原子写，IO优先级等优秀的特性，为上层数据库的高性能提供了结实的保障。传统的文件系统，由于嵌入在操作系统内核中，每次系统文件读写操作都需要先陷入内核态，完成后再返回用户态，造成效率低下。PolarFS以函数库形式编译在MySQL中，因此都运行在用户态，从而减少了操作系统切换的开销。

Data Router & Cache: 即块存储系统客户端(Polar Store Client, 别名PolarSwitch)。PolarFS收到读写请求后，会通过共享内存的方式把数据发送给PolarSwitch，PolarSwith是一个计算节点主机维度的后台守护进程，接收主机上所有实例以及工具发来的读写块存储的请求。PolarSwith做简单的聚合，统计后分发给相应的存储节点上的守护进程。由此可见PolarSwitch是一个重资源的进程，如果处理不好，对计算节点上的数据库实例有很大的影响，因此我们的管控程序对其使用了CPU绑定，内存预分配，资源隔离等一些手段，并且同时部署了高效可靠的监控系统，保证其稳定运行。

Data Chunk Server: 即块存储系统服务器端(Polar Store Server, 别名ChunkSever)。上述三个部件都运行在计算节点上，这个部件则运行在存储节点上。主要负责相应数据块的读取。数据块的大小目前为10GB，每个数据块都有三个副本(位于三台不同的存储节点上)，两个副本写成功，才给客户端返回成功。支持数据块维度的高可用，即如果一个数据块发生不可用，可以在上层无感知的情况下秒级恢复。此外，PolarStore使用了类似Copy On Write技术，支持秒级快照，即对数据库来说，不管底层数据有多大，都能快速完成全量数据备份，因此PolarDB支持高达100T的磁盘规格。
计算节点和存储节点之间通过25G RDMA网络连接，保证数据的传输瓶颈不会出现在网络上。

此外，PolarDB还有一套完善的基于docker的管控系统，处理用户下发的创建实例，删除实例，创建账号等任务，还包括完善详细的监控，以及可靠的高可用切换。管控系统还维护了一套元数据库，用以记录各个数据块的位置信息，提供给PolarSwitch，便于其转发。
可以说，PolarDB整个项目用了很多很多的新技术黑科技，给用户直接的感受是，又快(性能是官方MySQL6倍)又大(磁盘规格支持高达100T)又便宜(价格只有商业数据库的1/10)。

实践内容

POLARDB数据库准备

进入云数据库阿里云POLARDB控制台进行配置：2核4GB（独享配置）

创建后会发现有两个实例，一个主实例，一个只写实例。

测试过程

本次场景使用HyperPacer PRO 2016版进行数据库压测。
配置如下：

1.进行工程配置：

初始化JDBC配置和JDBC请求：

这里各个编辑控件和下拉控件的使用及每个选项的说明，只要在HyperPacer的工具栏上点击帮助就可以看到。在绑定变量赋值的编辑区域里，我们看到在前两个变量赋值这里做了参数化。

这里需要注意的是：此处绑定变量赋值的顺序和个数需要和存储过程中定义的参数保持完全一致。

在绑定变量类型的编辑区域，这里的类型只可以是在java.sql.Types中定义的类型，并且要保证和我们调用的存储过程中的参数类型保持一致。

我们这里说的类型保持一致要分为两方面来看：一方面要保证用于传参的变量类型保持一致，即这里写的JDBC类型要和SQL类型保持一致，关于保持类型一致的转换映射关系可以查看JDK的官方文档。

2.如下图进行压力数据测试配置:

参数详解
基准用户数：系统过载前允许的最大用户数
最大用户数：系统过载后允许的最大用户数
基准用户加压策略：固定时间内加载固定数量的基准用户进入系统
过载用户加压策略：固定时间内加载固定数量的过载用户进入系统
持续总时长：系统过载后持续保持过载运行的时间
用户退出策略：测试结束前多少时间内退出全部用户
压力阀配置：配置测算系统过载的依据，如平均CPU利用率达到99%等。

微信关注我们

原文链接：https://yq.aliyun.com/articles/644081

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

基于深度学习的推荐系统综述 (arxiv 1707.07435) 译文第一、二章

原文：Deep Learning based Recommender System: A Survey and New Perspectives (arxiv 1707.07435) 译者：飞龙协议：CC BY-NC-SA 4.0 自豪地采用谷歌翻译引言推荐系统是针对消费者过度选择的直观防线。鉴于网络上可用信息的爆炸性增长，用户经常受到无数产品，电影或餐馆的欢迎。因此，个性化是促进更好用户体验的基本策略。总而言之，这些系统在各种信息访问系统中发挥着至关重要和不可或缺的作用，来促进业务和促进决策过程[69, 121]，并且在诸如电子商务和/或媒体网站等众多网络领域中普遍存在。通常，基于用户偏好，项目特征，用户-项目的过去交互以及诸如时间（例如，序列感知推荐器）和空间（例如，POI推荐器）数据的一些其他附加信息来生成推荐列表。推荐模型主要分为协同过滤，基于内容的推荐系统和基于输入数据类型的混合推荐系统[1]。深度学习目前非常火。过去几十年，深度学习（DL）在计算机视觉和语音识别等许多应用领域取得了巨大成功。学术界和工业界一直在竞相将深度学习应用于更广泛的领域，因为它能...

2018-09-22

750

假设你刚刚被一家小型软件公司聘为数据科学家。你感到欣喜若狂！你的辛勤工作和坚持不懈终于得到了回报。是时候将你的统计数据和机器学习知识付诸实践了。那么恭喜你终于加入了数据革命。第1天到来，每个人都很高兴见到这位“数据科学家”。该公司以前从未聘请过数据科学家，因此有些期望值并不切实际。更可怕的是你的主管可能不是数据科学家，你可能向她在第一天为你提供帮助。“请给我一些数据！”你可能认为数据很容易获得检索，或者至少它会以干净整洁的格式存储。很明显，雇用你的公司有一个宏伟的计划，在实现这个计划之前不可能什么都准备完毕，这也是你的价值所在！对于大多数初级数据科学家加入小型公司（甚至是世界科技巨头之外的组织）。作为曾经又过这样经历的人，我想概述一些实用的想法，以帮助初级数据科学家在一家小型软件公司开始。这些步骤来自我个人的旅程和我之前的其他旅程。 1.获取公司领域专业知识当我第一次在Nulogy担任数据科学家时，我急于绕过繁琐的入职流程，因为我只想玩数据。我花了几个月的时间才意识到，如果没有正确理解我所运营的域名，就很难提出并证明新项目的合理性，以便为业务带来哪些好处。作为数据科学家...

2018-09-22

657

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。