代理项 Surrogate
概述 代理项(Surrogate),是一种仅在 UTF-16 中用来表示补充字符的方法。在 UTF-16 中,为补充字符分配两个 16 位的 Unicode 代码单元: 第一个代码单元,被称为高代理项代码单元或前导代码单元; 第二个代码单元,被称为低代理项代码单元或尾随代码单元。 这两个代码单元组合在一起,就被称为代理项对。 相关术语 为了能更好地理解“代理项”这一概念,就需要先了解相关的 Unicode 术语:1 代码点(Code Point): Unicode 代码空间中的任何值,即从 0 到 10FFFF~16~ 的整数范围。但并非所有代码点都分配给编码字符。 一个字符在任何编码字符集中的值或位置。 代码单元(Code Unit):最小的数位组合,可以表示用于处理或交换的编码文本的单位。在 Unicode 标准中,UTF-8 编码格式采用 8 位编码单元,UTF-16 编码格式采用 16 位编码单元,UTF-32 编码格式采用 32 位编码单元。 BMP 字符(BMP Character):位于 BMP(Basic Multilingual Plane,多语种基本面)代码点的 U...