短域名服务设计思路-低调大师

短域名服务设计思路

2021-10-30 1231

1. 背景介绍

所谓的短域名服务，就是处理我们平常经常收到的那种带有短链的短信中的短链的。它具有四个基本的功能：a. 用户点击短域名，服务端接收到请求之后，将其重定向到对应的长域名中；b. 其他的服务通过RPC请求，传一个短域名code，服务端将对应的长域名信息返回；c. 调用方传一个长域名过来，将其转换为短域名，并且返回；d. 记录每个短域名每个小时的点击量数据，并且提供查询接口；

2. 设计思路

2.1 思考思路

首先，短域名服务需要实现的两个基本的功能分别是：a. 接收一个长域名信息，返回一个标记短域名的code；b. 如果调用方是其他服务，那么其传过来一个短域名code，就需要将相应的长域名信息返回给调用方；c. 客户端直接调用，请求参数就是一个短域名，而服务器则需要将短域名转换为长域名，然后通过一定的方式将客户端页面重定向到长域名。其实这个题目需要做的就是存储长域名和短域名的映射关系，而最简单的映射关系就是“id->url”的这种映射关系，而且id也是唯一的，也就保证了这种映射关系的唯一性。使用id作为映射我们有如下几个点需要注意：

调用方肯定不能直接传一个id过来，因为我们的调用方有一部分直接是用户，可能有人通过id自增的特性，恶意刷我们的接口。这里我们可以对id进行编码，因为url中只直接支持a-zA-Z0-9这总共62个字符，其他的字符则需要编码，我们可以将id通过base62的方式进行编码，从而得到一个字符串，而且base62编码有一个好处就是，十进制的1亿，编码之后也只有5个字符，因而base62编码能够支持大量的短码，而不用过于担心短码不够的问题；
如果直接采用按顺序a-zA-Z0-9的base62编码，可能用户根据这个顺序顺推，而恶意刷我们的短码，造成我们的服务器宕机，因而这里我们在使用base62的时候，需要对原始字符进行乱序，然后依据这个乱序来编码和解码操作；
在使用短码查询对应的长域名的时候，我们一般是将数据存储在数据库和redis中，一般的，为了提升效率，查询的时候都会到redis中查询，然后再到数据库查，然后持久化到redis中，当然一般的也都直接能从redis中读取到。但是这里存在一个问题是，如果用户恶意的刷一些无效的短码请求，这些请求都会先去redis中查，redis中没有，然后会去数据库查，从而导致整个服务宕机。这个问题我们有一个解决方案就是，对短码计算一个checksum，比如很简单的，将最后一个字符作为存储checksum的字符，然后将前面几个字符的整型值相加，而最后一个字符用base62编码有62个值，因而前面几个字符的加和然后对62取余，然后经过base62编码的值作为checksum。这样每次接收到查询请求的时候，将code计算一下checksum，判断其与最后一个字符是否相同，不相同的就可以过滤掉了。如下是这种思路下短码的编码方式：
```
|--------id base62编码--------|---校验和---|
         a s d x K 9 1              M
```
这里还存在一个问题是，如果后台服务器需要对短码进行不兼容的升级，比如这次可以支持8个字符，下个版本可以支持10个字符，这样我们可以做一些优化，或者支持一些新的功能，那么我们就需要对短码加版本号，这里存在一个问题是，这个版本号是直接编码到短码中还是根据短码与长域名的映射关系而存储在表征这个映射关系model的某个字段中。如果只是简单的存储在映射关系的model中，有可能新版本与旧版本生成的短码结果是一样的，此时我们就不知道这个短码是什么版本的了。因而我们将版本号存储在生成的短码中。如下是改进后的短码的编码方式：
```
|--------id base62编码--------|---版本---|---校验和---|
         a s d x K 9              1           M
```
生成短码还有一个特点是，需要能够生成尽量多的短码，上述改进后的生成方式，我们相当于有两个固定字符分别作为版本和校验和，也就是只剩下6个字符给我们用于标记“id”与“长链接”的映射关系了，虽然也不少，但我们可以更优化一些。我们注意到，版本是很少发生变化的，而校验和是通过对某个数字取余计算得到的，这个数字我们可以缩小一些，也就是说我们可以将版本和校验和压缩到一个字符中。base62表示的62个状态，转成二进制之后有6位，因而我们可以随意使用的只有5位（当然，我们可以更优一点，就是使用6位，只要对应的十进制值不是63和64即可），我们可以将这5位的前两位用于表示版本号，后三位用于存储校验和，也就是说目前，我们最多支持4个版本，而计算得到的校验和是0~7中的某个值，然后将这整个值经过base62编码之后，就得到了短码的最后一个字符。这种处理方式相对于前一个也有一个好处是，对于同一个版本的短码，其每个字符都是不一样的，而前一种编码方式，倒数第二个字符始终是同一个字符，比如版本1。如下是这种短码的编码方式：
```
|--------id base62编码--------|---校验和+版本---|            |--版本--|--校验和--|
         a s d x K 9 1               M                        0 1     1 0 1
```
这里我们还需要讨论的一个问题是，用于进行base62编码的id应该如何生成。生成唯一的id很简单，但是如何高效率的生成id则需要做额外的处理。这里我们有如下几种方案：
- 通过数据库的自增id来生成一个唯一的id，这种方式主要有两个缺点：a. 每次操作都要连接数据库；b. 每次请求需要竞争自增id的锁；这两个问题都会直接影响生成id的效率，从而造成系统整体性能的下降，而且这种方式严重依赖了数据库的TPS；
- 鉴于数据库的自增id方式，我们可以换一种方案生成id，我们注意到，只要生成的id是唯一的即可，而不需要其是自增的，因而我们可以在数据库中使用一条数据存储当前已经申请的id的最大值base，以及申请的批次大小size，每次申请的时候只需要将base更新为”base+size“即可，然后将获取的一堆id存储在内存中，不够时再来申请即可，这种方式可以极大的提升服务性能，而且一般的生成短码的QPS也不会特别高，因而我们可以再进一步做一些优化，即每个服务可以缓存多个批次的数据，然后随机在某个批次中获取id，每个批次的id使用量达到80%的时候可以异步的到数据库中加载下一个批次的数据，从而保证请求几乎都是在内存中处理完成；
- 除了数据库，我们还可以使用redis作为生成id的组件，比如redis的incr函数，每次都可以自增得到一个id。当然，存在的问题就是，每次请求都需要到redis中竞争读取id，并且还有网络的开销；
- 结合第二种方式，我们也可以对redis自增id进行优化，比如通过pipeline一次批量获取一批id，这样可以减少网络开销，然后缓存这些id。另外，我们也可以不用redis的自增id，而是在redis中存储当前已经使用的id的最大值base，然后每个批次获取的时候只需要将base更新为”base+size“即可。当然，需要注意的问题是，redis不像数据库支持SQL，因而在更新的时候，需要额外加一个redis锁；
- 理论上，上述几个方案已经够用了，而且性能也非常好，但是我们还可以更优化一些，因为我们注意到一点是，这里生成的id只要是唯一的即可，因而我们可以借鉴雪花算法来实现，这样我们就可以始终在内存中生成，而无需加任何的锁或者中间件，效率将会更高。但是这里题目要求短码长度最多为8个字符，而我们有一个字符需要固定作为版本号和校验和，因而我们能自由使用的字符数是7个字符，7个字符能表示的最大长整型数字是3521614606207，转成二进制有42位，因而我们能自由使用的只有41位。笔者在本地做了实验，41位确实太少了，因为我们不仅需要记录当前的时间（无论是以小时的差值为基准还是以毫秒数的差值作为基准）、服务器实例id、服务内部的自增序列号。因而我们假设线上服务只有一个实例，位数也还是不够的，如果这里能够增加字符数上限的限制，比如可以使用10个字符，那么就可以采用雪花算法来实现。

2.2 思路总结

结合上述的讨论，我们采用的实现方案主要有如下几个部分：

接收长链接请求，然后通过redis一次生成一个批次的id数据，redis中存储数据的格式主要是记录了一个base字段，该值是下一个批次可以使用的id的起始值，每次申请时，只需要将base更新为”base+size“即可。然后在服务内部会使用多个片段，每个片段会存储一个或多个批次的id数据，每次在申请id的时候，会随机到某个片段中去申请，这样可以减小内存中锁的竞争（因为更新记录批次数据的model时，必然需要将这个批次给锁住）；
使用随机顺序的a-zA-Z0-9数组对生成的id进行编码，生成一个最长7位的字符串；
对上面的七位字符串计算校验和，这里采用的方案是对8取余（计算的时候更优化的方式是只需要与二进制的0b111进行&操作即可），然后将取余后的结果加上当前版本号（第一个版本值为0），将其结果经过base62编码之后，作为最后一个字符，放到生成的短码最后一位；
异步存储生成的短码与长链接的映射关系，即可返回；

微信关注我们

原文链接：https://my.oschina.net/zhangxufeng/blog/5291457

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

5D高速光存储展示，CD大小玻璃盘片可记录500TB数据

英国南安普顿大学的一支科学家团队，刚刚展示了他们最新研发的5D高速节能激光写入技术。其特点是能够在石英玻璃中产生纳米机构，并借此在一块1英寸的石英玻璃样品中尝试记录了6GB的数据。好消息是，这项快速节能的激光写入技术，可以让石英玻璃形成高密度的纳米结构。更棒的是，这些可长期维持的5D光学数据的存储密度，是当前蓝光光盘方案的10000倍以上。研究团队指出，基于玻璃载体的5D数据存储，有望在国家档案馆、博物馆、图书馆、或私营机构的长期数据存储等领域发挥最大的效力。在近日出版的《光学》(Optica)期刊中，研究团队描述了这项“编写”数据的新方法，可知其具有两个光学维度/三个空间维度。信息写入速度方面，这套方案可达成每秒百万次(体素单位：Voxels)，相当于每秒记录大约230KB的数据(超过100页的文本)。 Yu Hao Lei表示，其采用了通用的物理机制，因而预计这种节能的写入方法还可用于透明材料的快速纳米结构化，以应用于3D集成光学和微流体等领域。尽管此前已经有人证明过基于透明材料的5D光学数据存储，但在数据写入速度和信息存储密度上，大家一直在努力克服这方面的艰难挑战。

2021-10-31

654

1. 为什么有经验的老手更倾向于使用Stream 性能优势，(大数据量)相较于迭代器，速度更快支持串行与并行处理，并行处理更能充分利用CPU的资源 Stream 是一种计算数据的流，它本身不会存储数据支持函数式编程代码优雅，让代码更高效，干净，简洁 2. Stream 的使用方式三步操作：创建Stream 中间操作终止操作 3. Stream 的创建 Stream 的创建都会依赖于数据源，通常是容器或者数组 Stream 流的创建大致分为4中，最为常用的就是通过集合创建 import java.util.ArrayList; import java.util.Arrays; import java.util.List; import java.util.stream.IntStream; import java.util.stream.Stream; public class CreateStreamDemo { public static void main(String[] args) { // 1 通过集合创建Stream也是用的最多的一种形式...

2021-10-30

552

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。