📜  计算机网络中的 Unicode

📅  最后修改于: 2022-05-13 01:57:02.084000             🧑  作者: Mango

计算机网络中的 Unicode

Unicode是一种提供全面字符集的通用编码系统,由 Unicode Consortium(一组多语言软件制造商)创建。 Unicode 简化了软件本地化并改进了多语言文本处理。它克服了 ASCII 和扩展 ASCII 固有的困难。

Unicode 标准化了脚本行为,允许从脚本和语言的任意组合中提取的任意字符组合在单个文档中共存。 Unicode 为其单个字符集定义了多种编码:UTF-7、UTF-8、UTF-16 和 UTF-32。这些编码之间的数据转换无损的。

Unicode 最初是一个 2 字节字符集。然而,Unicode 版本 3 是一个4 字节代码,并且与 ASCII 和扩展 ASCII 完全兼容。

这些都支持对同一组字符进行编码。

  • UTF-8每个字符使用 1 到 4 个字节,具体取决于字符,但 ASCII 仅占用 1 个字节和 4 个字节用于不寻常的字符。
  • UTF-16对大多数字符使用 2 个字节,而非常不寻常的字符需要 4 个。
  • UTF-32每个字符使用 4 个字节。我们可以仅通过计算字节数来计算 UTF-32字符串中的字符数。

该符号使用格式如下的十六进制数字。

U-XXXXXXXX –
编号从U-00000000 到 U-FFFFFFFF 。 Unicode 将可用的空间代码划分为平面。平面是由 65,536 个代码点组成的连续组。最高有效 16 位定义平面(即平面数 = 65,535),每个平面最多可定义 65,536 个字符或符号。

飞机类型 –

  1. 基本多语言平面 (BMP) –平面 0000,基本多语言平面旨在与之前的 16 位 Unicode 兼容。该平面中最重要的 16 位全为零。它主要定义了不同语言的字符集,但一些控制字符和特殊字符除外。它表示为 U+XXXX,其中 XXXX 是最低有效 16 位,例如:U+0900 到 U+09FF 保留用于梵文,孟加拉语 U+2200 到 U+22FF 保留用于数学运算等。
  2. 补充多语言平面 (SMP) –补充多语言平面 0001 平面旨在为 BMP 中排除的那些多语言字符提供更多代码。示例:10140-1018F 保留用于古希腊数字。
  3. 补充表意平面 (SIP) –补充表意平面 0002 平面旨在为表意符号提供代码,提供与声音形成对比的想法的符号,例如 20000-2A6DF 保留给 CJK 统一扩展 B
  4. 补充专机 (SSP) – 000E,补充专机,用于特殊字符,例如,E0000-E007F 是为标签保留的。
  5. 私人使用飞机 (PUP) –飞机 000F 和 0010,私人使用飞机供私人使用。字体内部使用它们来指代辅助字形。

参考 -
Unicode – msdn.microsoft
数据通信和网络 - Forounzan