代理项 Surrogate

2020-06-09 779

概述

代理项（Surrogate），是一种仅在 UTF-16 中用来表示补充字符的方法。在 UTF-16 中，为补充字符分配两个 16 位的 Unicode 代码单元：

第一个代码单元，被称为高代理项代码单元或前导代码单元；
第二个代码单元，被称为低代理项代码单元或尾随代码单元。

这两个代码单元组合在一起，就被称为代理项对。

释义

关于代理项的概念，通俗来讲，就是为补充字符找两个“代理人”。由于补充字符体格壮硕，到了 UTF-16 这个地方就需要占用两个 16 位的座位。为了避免因“占座纠纷”导致意外发生，就需要为补充字符找来两个“代理人”，代替他来占用两个座位，这样就能皆大欢喜了。

两个“代理人”，就是高代理项和低代理项。
两个“代理人”占用的座位，就是 16 位的高代理项代码单元和低代理项代码单元。
两个“代理人”所在的位置，就是高代理项代码点和低代理项代码点。
两个“代理人”组合在一起，就是代理项对。
“代理人”一定是出双入对的。单身的“代理人”是不能表示补充字符的，只能被称为未配对代理项（Unpaired Surrogate）。

代理项仅在 UTF-16 中用来表示补充字符，是指：

不在 UTF-8 中使用。补充字符到了 UTF-8 这个地方就需要占用四个 8 位的座位，而实际给补充字符找的是两个 16 位的“代理人”，对不上号。
不在 UTF-32 中使用。在 UTF-32 这个地方提供的座位，完全符合补充字符的体形，无需再为其另找“代理人”占座。
不表示 BMP 字符。在补充字符没有出现时，并没有“代理人”这一概念，也就是说“代理人”并不是给 BMP 字符找的。

在 Java 中的应用

以下内容来自 Java API 文档：³

char 数据类型以及 Character 对象封装的值，都是基于最初的 Unicode 规范，该规范将字符定义为固定宽度的 16 位实体。随着 Unicode 标准的不断更新，超过 16 位的字符已被允许表示。合法代码点的范围已扩展到 U+10FFFF。

在 char 数组、String 类和 StringBuffer 类中，都采用 UTF-16 来表示字符。在这种表示法中，补充字符被表示为一对 char 值，第一个来自高代理项区间（uD800 - uDBFF），第二个来自低代理项区间（uDC00 - uDFFF）。

因此，char 值可表示 BMP 代码点、代理项代码点或 UTF-16 编码的代码单元。而所有的 Unicode 代码点，包括补充代码点，则用 int 值来表示。int 值中的低 21 位用来表示 Unicode 代码点，而高 11 位必须为零。

微信关注我们

原文链接：https://yq.aliyun.com/articles/764670

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

详解 Flink DataStream中min(),minBy(),max(),max()之间的区别

解释官方文档中: The difference between min and minBy is that min returns the minimum value, whereas minBy returns the element that has the minimum value in this field (same for max and maxBy). 翻译: min和minBy之间的区别是min返回最小值，而minBy返回在此字段中具有最小值的元素（与max和maxBy相同）。但是事实上,min与max 也会返回整个元素。不同的是min会根据指定的字段取最小值，并且把这个值保存在对应的位置上，对于其他的字段取了最先获取的值，不能保证每个元素的数值正确，max同理。而minBy会返回指定字段取最小值的元素，并且会覆盖指定字段小于当前已找到的最小值元素。maxBy同理。示例论证先拿min()与minBy()举例: 取第三个元素的最小值 public static void main(String[] args) throws Exception { Strea...

2020-06-09

915

题目给定一个非负整数数组 A，返回一个数组，在该数组中，A 的所有偶数元素之后跟着所有奇数元素。你可以返回满足此条件的任何数组作为答案。示例：输入：[3,1,2,4] 输出：[2,4,3,1] 输出 [4,2,3,1]，[2,4,1,3] 和 [4,2,1,3] 也会被接受。提示： 1 <= A.length <= 50000 <= A[i] <= 5000 解题思路 class Solution: def sortArrayByParity(self, A: [int]) -> [int]: # #双指针 # left = 0 # right = len(A)-1 # while left != right: # if A[left] %2 == 0: # left += 1 # continue # if A[right] %2 == 1: # right -= 1 # continue # A[left], A[right] = A[right], A[left] # left += 1 # if left == right:break #...

2020-06-10

706

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

代理项 Surrogate

概述

相关术语

释义

在 Java 中的应用

详解 Flink DataStream中min(),minBy(),max(),max()之间的区别

LeetCode 905. 按奇偶排序数组

相关文章

发表评论

资源下载

Mario

腾讯云软件源

Rocky Linux

Sublime Text

欢迎您来访！