📅  最后修改于: 2020-12-16 06:07:57             🧑  作者: Mango
字符编码是一种将字节转换为字符。为了正确地验证或显示HTML文档,程序必须选择适当的字符编码。
在计算机上使用的最常见的字符集或字符编码是ASCII-美国信息交换标准代码,这可能是用于电子编码文本的最广泛使用的字符集。
ASCII编码仅支持大写和小写拉丁字母,数字0-9和一些额外的字符,这些字符总共总共128个字符。您可以看一下完整的可打印ASCII字符
但是,许多语言使用带重音符号的拉丁字符或完全不同的字母。 ASCII不能处理这些字符;因此,如果要使用任何非ASCII字符,则需要了解字符编码。
国际标准组织创建了一系列字符集来处理不同的国家字符。对于英语和大多数其他西欧语言的文档,使用了广泛支持的ISO-8859-1编码。
这是在世界范围内使用的字符集及其说明的列表。
Sr.No | Character Set & Description |
---|---|
1 |
ISO-8859-1 Latin alphabet part 1 Covering North America,Western Europe, Latin America, theCaribbean, Canada, Africa |
2 |
ISO-8859-2 Latin alphabet part 2 Covering Eastern Europe |
3 |
ISO-8859-3 Latin alphabet part 3 Covering SE Europe, Esperanto, miscellaneous others |
4 |
ISO-8859-4 Latin alphabet part 4 Covering Scandinavia/Baltics (and others not in ISO-8859-1) |
5 |
ISO-8859-5 Latin/Cyrillic alphabet part 5 |
6 |
ISO-8859-6 Latin/Arabic alphabet part 6 |
7 |
ISO-8859-7 Latin/Greek alphabet part 7 |
8 |
ISO-8859-8 Latin/Hebrew alphabet part 8 |
9 |
ISO-8859-9 Latin 5 alphabet part 9 Same as ISO-8859-1 except Turkish characters replace Icelandic ones |
10 |
ISO-8859-10 Latin 6 Latin 6 Lappish, Nordic, and Eskimo |
11 |
ISO-8859-15 The same as ISO-8859-1 but with more characters added |
12 |
ISO-2022-JP Latin/Japanese alphabet part 1 |
13 |
ISO-2022-JP-2 Latin/Japanese alphabet part 2 |
14 |
ISO-2022-KR Latin/Korean alphabet part 1 |
然后建立了Unicode联盟,以设计一种显示不同语言的所有字符的方法,而不是针对不同的语言使用这些不同的不兼容字符代码。
因此,如果要创建使用来自多个字符集的字符的文档,则可以使用单个Unicode字符编码来执行此操作。
因此统一规定,可以以特殊方式处理字符串,使有足够的空间巨大的字符集它包含了编码。这些被称为UTF8,UTF-16和UTF-32。
Sr.No | Character Set & Description |
---|---|
1 |
UTF-8 A Unicode Translation Format that comes in 8-bit units that is, it comes in bytes. A character in UTF8 can be from 1 to 4 bytes long, making UTF8 variable width. |
2 |
UTF-16 A Unicode Translation Format that comes in 16-bit units that is, it comes in shorts. It can be 1 or 2 shorts long, making UTF16 variable width. |
3 |
UTF-32 A Unicode Translation Format that comes in 32-bit units that is, it comes in longs. It is a fixed-width format and is always 1 “long” in length. |
Unicode字符集的前256个字符对应于ISO-8859-1的256个字符。
默认情况下,HTML 4处理器应支持UTF-8,而XML处理器应支持UTF-8和UTF-16。因此,所有符合XHTML的处理器也应支持UTF-16。