宝哥软件园

utf8中文编码范围

编辑:宝哥软件园 来源:互联网 时间:2021-12-05

utf8中文编码范围_

在Unicode标准中,u可以用来表示任何字符,其代码中的第一个字节仍然与ASCII兼容,这样处理ASCII字符的原始软件就可以继续使用,而无需或只需少量修改。因此,它逐渐成为电子邮件、网页和其他存储或传输文本应用程序中的首选编码。

UTF-8基本特征:

UCS字符u000到U 007F(ASCII)编码为字节000到0x7F(兼容ASCII)。这意味着仅包含7个ASCII字符的文件在ASCII和UTF-8编码模式下是相同的。

所有大于0x007F的UCS字符都被编码为一个具有多个字节的字符串,每个字节都有一组标志位。因此,ASCIl字节(0x00-0x7F)不能是任何其他字符的一部分。表示非ASCIl字符的多字节字符串的第一个字节总是在0xC0到0XFD的范围内,并指示该字符包含多少字节。多字节字符串的剩余字节在0x80到0xBF的范围内。这使得重新同步变得非常容易,并且使得编码没有边界,更少受到丢失字节的影响。

理论上,UTF 8编码字符最长可达6字节,但16位BMP字符最长只能达3字节。双端UCS-4字节字符串的排列顺序是预先确定的,字节0xFE和OxFF在UTF-8编码中从不使用。

UTF-8编码字节数:

UTF-8使用1~4个字节来编码每个字符:

1.一个美国ASCIl字符只需要1个字节的编码(Unicode范围从U0000到U007F)。

2.带音标的拉丁文、希腊文、西里尔文、亚美尼亚文、希伯来文、阿拉伯文、叙利亚文等字母需要2字节编码(Unicode范围从U0080到U07ff)。

3.其他语言文字(包括中日韩文字、东南亚文字、中东文字等。)包含最常用的单词,并用3个字节编码。

4.其他很少使用的语言字符用4字节编码。

UTF-8编码规则:

如果只有一个字节,其最高二进制位为0;如果是多字节,第一个字节从最高位开始,值为1的连续二进制位数决定编码的字节数,其余字节从10开始。

更多资讯
游戏推荐
更多+