字符乱码问题详解
- 1 编码字符集与字符编码方式
- 2 字符乱码原因
- 3 字符乱码解决方案
在解释字符乱码问题之前,我们需要先理清一些基本概念
1 编码字符集与字符编码方式
编码字符集
编码字符集是所有字符以及对应代码值的集合。编码字符集中的每个字符都对应一个唯一的代码值。常见的编码字符集:ASCII字符集、GBXXXX字符集、BIG5字符集、Unicode字符集等。
字符编码方式
编码字符集中只规定了字符的代码值并未规定具体如何存储,字符编码方式解决了字符在计算机中如何存储的问题,它是将编码字符集中的字符代码值转换为实际的存储字节序列的一种映射规则。常见字符编码方式:ASCII编码、GBXXXX编码、BIG5编码、UTF-8编码、UTF-16编码、UTF-32编码等。每种编码字符集至少对应一种字符编码方式,也可以对应多种编码方式。
什么是字符的编码与解码?
编码就是把⼀个字符编码成二进制码存起来的方式,而解码就是把这个二进制码按照原本编码的规则还原成原来的字符。
源字符集: 源文件字符集是指源文件保存时按源字符集编码方式编码后的字符集。VS2019源字符集编码格式默认是GBK格式,在利用VS编写代码时,源代码会自动编码为GBK字符集。
执行字符集: 程序运行时所使用的字符集,编译器会将源字符集先按照源字符集编码方式进行解码,再将解码后得到的字符按照执行字符集编码方式编码为执行字符集。执行字符集一般默认使用Windows系统本地字符编码,若是简体中文系统,则是GBK或GB2312字符集。
2 字符乱码原因
在编程中我们给某个函数输入中文字符串的时候,在运行的时候中文字符串往往就会变成乱码,这是因为编码方式与解码方式不一致造成的。
例:
VS+QT编译环境中,如果直接将中文字符串传给QT函数时,会出现乱码:
QString s("你好");//乱码
qDebug() << "路漫漫其修远兮";//乱码
原因在于这些中文字符串被GBK编码为源字符集,编译器会先采用GBK将这被GBK编码的源字符集解码,再用GB2312编码为执行字符集,而Qt5内部采用Unicode字符集,UTF-16编码,QT中的函数会将执行字符集使用UTF-8解码,再使用UTF-16编码为unicode字符集,QString内部使用UTF-8对执行字符集进行解码的时候,与执行字符集编码格式不一致,肯定会出现乱码现象。
为什么英文字符就不会出现乱码现象呢?
英文字符通常都是ASCII字符编码,常见的字符编码都会以某种形式“兼容”ASCII编码,而我们接触比较多的UTF-8和GBK则是完全兼容ASCII,也就是ASCII编码的数据,在UTF-8、GBK中会是一样的数字形式(一个字节)。即
AB在ASCII编码中对应的是0x41和0x42,在GB2312和UTF-8中还是0x41和0x42,所以对于AB这两个字符用GB2312编码为0x41和0x42后,采用UTF-8再进行解码,得出来的仍然是AB,所以不会出现乱码。
3 字符乱码解决方案
(1)使用QStringLiteral宏
从“字符串常量”创建QString对象
qDebug() << QStringLiteral("路漫漫其修远兮");
QStringLiteral宏它只能处理常量。
(2)使用fromLocal8Bit()函数
fromLocal8Bit是Qt 中QString 类的一个成员函数,用于将使用本地编码的字符串转换为 QString 对象的内部 Unicode编码。
qDebug() << QString::fromLocal8Bit("路漫漫其修远兮");
使用QStringLiteral宏和fromLocal8Bit()函数输出的字符串还带有双引号:
使用下面的这两个方法可以解决这种问题。
(3)使用#pragma execution_character_set(“utf-8”)
源程序中加上如下指令,将源文件的可执行字符集编码方式设置为utf-8
#pragma execution_character_set("utf-8")
qDebug() << "路漫漫其修远兮";
(4)使用u8关键字
C++17到来后出现了u8关键字,表示一个字符串的可执行字符集编码方式是UTF-8编码
qDebug() << u8"路漫漫其修远兮"