Unicode和UTF-8字符串编码解码原理

xiaoxiao2021-03-01  10

最近工作遇到一个Bug,大概情况是这样的。一个密码输入框中输入汉字“阿”,输入内容校验报错文言显示不对,在分析这个bug的时候,我发现了更有意思的知识点,那就是关于unicode和utf-8对字符串进行编码解码的知识点。

首先需要明白的是unicode和utf-8的关系。

简单来说:

Unicode是「字符集」,而UTF-8是「编码规则」。

字符集为每一个「字符」分配一个唯一的ID(学名为码位/码点/Code Point),而「编码规则」则是将「码位」转换为字节序列的规则。

广义的Unicode是一个标准,定义了一个字符集以及一系列的编码规则,即Unicode字符集和UTF-8、UTF-16、UTF-32等等。

Unicode字符集为每一个字符分配一个码位,例如「田」的码位是30000,记作U+7530(30000的16进制为0x7530)。

UTF-8顾明思义,是一套以8位为一个编码单位的可变长编码。会将一个码位编码为1到4个字节:

U+ 0000 ~ U+ 007F: 0XXXXXXX U+ 0080 ~ U+ 07FF: 110XXXXX 10XXXXXX U+ 0800 ~ U+ FFFF: 1110XXXX 10XXXXXX 10XXXXXX U+10000 ~ U+1FFFF: 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX 根据上表中的编码规则,之前的「田」字的码位 U+7530 属于第三行的范围: 7 5 3 0 0111 0101 0011 0000 二进制的 7530 -------------------------- 0111 011111 100101 二进制的 77E5 1110XXXX 10XXXXXX 10XXXXXX 模版(上表第三行) 11100111 10010100 10110000 代入模版 E 7 9 4 B 0 这就是将 U+7530 按照 UTF-8 编码为字节序列 E794B0 的过程。反之亦然。

今天写到这里,明天整理一下思路,写一个简单的编码解码工具。

大家有兴趣的话可以自己尝试将自己喜欢的汉字编码,并在下方 评论中写出。

转载请注明原文地址: https://www.6miu.com/read-4150351.html

最新回复(0)