网络传输中的那些编码之-UTF8编码漫谈

编码为什么是一个重要的话题,因为我们和计算机交互的主要方式目前还是文字字符。作为一个程序员,相信大部分都都被字符和编码的问题折磨过,从键盘输入文字字符到编辑器 中,编辑器存储字符到硬盘,再到具体一个编程语言如何表示和处理字符等,可以说字符集和 字符集的编码在计算机中无处不在,因此有必要进行一次全面的梳理。本次通过这篇文章聊聊我对于字符和字符编码的认识与理解,希望能够给你带来收获。

字符集和字符编码

字符集:一系列字符的集合,最著名的莫过于Unicode字符集,网罗了世界上绝大多数的字符,并且为每一个字符分配了一个数字进行编号,这个编号在计算机中就可以表示该字符。

字符集编码:通常简称编码,由于字符需要在计算机中存储和传输,因此需要规定一个字符使用几个字节以及怎样的值存储在硬盘上或者内存中。Unicode 字符集对应的编码方式包括 UTF-8、UTF-16、UTF-32 等多种。

除了 Unicode,我们经常接触到的字符集还包括 ASCII、GB2312 等字符集。像 GB2312 只包含常见的中文,数字等字符的集合,因此在一些采用GB2312 字符集可能无法显示一些生僻的汉字,在后续 GBK收录了这些生僻字。当然像日韩、欧洲等其他国家也有自己特定的字符集。但是它们都有一个共同的特点,就是均在 ASCII 字符集上扩展而来,对于 ASCII 字符集是兼容的,下图1说明他们之间的关系:

在这里插入图片描述
图1

看到这里有人可能会提出疑问ASCII明明是一种编码⽅式,为什么这⾥有说成是字符集呢。原因在于在计算机发展早期,字符集和字符集编码并没有严格的区分,ASCII兼具了字符集编号和字符编码的功能,因此ASCII既可以说成是字符集,也可以认为是字符集编码。最初 ASCII 字符集的范围是 0-127,本身字符编号可以直接使用一个字节来进行存储,字符编号和其字符编码可以一一对应上。同样的道理 GB2312 的字符集范围是 0~65535,使用两个字节进行存储,也有一一对应的关系。没有必要单独将字符集和字符集编码进⾏区分,其编码形式唯一。正因为历史上存在诸如 ASCII、GB2312等没有将字符集和字符编码有效的区分的编码模型, 以至于 Unicode 出现后,很多人称 Unicode 为编码,这其实并不是特别准确,准确的说法是unicode字符集。

Unicode定义了世界上绝大多数的字符,并给每个字符进行编号,我们通过这个编号就可以定位到具体的字符。由于 Unicode 字符集的庞大,目前拥有数十万的字符,编号从 0-10W+,导致使用多少字节对于字符存储不在像 ASCII 以及 GB2312 那样可以简单设计。英文字符编号在0~127 之内的可以使用一个字节存储;汉字的编号,比如一开始的村中少年,分别是 6751(26449)、4E2D(20013)、5C11(23569)、5E74(24180), 需要至少 2 个字节才能容纳的下。 出于存储效率的考量,设计者设计了 UTF-8 变长编码方式;出于设计简单的考量,有 UTF-32 等编码⽅式。可以看到 Unicode 字符集本身对应的编码方式众多,字符编号和不同编码方式得到的值是不同的。因此在 Unicode 中字符集和字符编码的概念是要加以区分的。通常称 Unicode 为字符集或者 Unicode 编号,UTF-8 等是该字符集对应的编码方式。

UTF-8 编码

对于不是特别了解 UTF-8 编码的同学,我这里简单的说一下 UTF-8 编码规则,即 UTF-8 和 Unicode 之间的转换关系,不然总有些又抱琵琶半遮面的感觉。同时 UTF-8 作为目前应用最为广泛的编码方式,是值得学习一下的。使用一张图2说明如下:

在这里插入图片描述
图2

左侧对应的是 Unicode 编号的取值,右侧对应的是 UTF-8 编码之后的值。黑色部分固定不变,红色部分是需要填充的具体 Unicode 的编号对应的值。总的原则就是根据 Unicode 编号的范围,确定对应的 UTF-8 编码长度以及对应的格式。将 Unicode 编号转换成为二进制之后,依次的将该二进制从右向左的值对应填入上述编码格式中红色部分的从右向左的位置上, 剩余的位置补齐 0 即可。

举两个例子来说明上表:

字符 a 对应的 Unicode 值为 0x0061,其二进制为 1100001,对应上表中的第一行的存储方式,需要一个字节存储,因此从右向左的依次放入对应的位置得到存储内容为01100001,即 0x61。
汉字 中 对应的 Unicode 值为 0x4E2D,其二进制为 100111000101101,其范围对应上表中的第三行的存储方式,需要三个字节存储,因此从后向前的依次放入对应的位置得 到存储内容为 111001001011100010101101,即 0xE4B8AD。

当然对于 村中少年 这几个字符,可以拿来练练手,看看和上图中的 Nodepad++ 存储的结果是否一致。另外我还发现站长之家给出工具,将中文转换成为UTF-8的结果并不是真正意义上的 UTF-8 编码后的值。

关于显示和存储

显而易见的是,如果你的脑袋中能够装下整个 GBK 和 Unicode 的字符编号,其实输入法是完全可以被取代的,按照前面的操作即可。遗憾的是,可能只有极少数的人能够做到这一点。可以看到输入法是针对字符编号不容易记忆,而拼音较为容易记忆的情况。输入法作为一个中间层做了一次转换,将拼音转换成为具体的编号。当然如果直接显示编号是不够友好的,需要显示字符编号对应的图形,往往是字符的点阵图或者矢量图,也就是像Word 软件中的字体。当需要显示某个字符的时候,依据编号查找对应的点阵图进行绘制即可。当我们向英文 Linux终端中请求输入Unicode 字符 26449 的时候,系统就去查找 26449 对应的字符是村,于是就按照村这个字符点阵信息在终端中进行绘制。值得一提的是,在计算机的发展中,很多的工作都是为了人机交互服务的。因此产生了很多类似的中间层,例如DNS,由于IP 地址难以记忆,域名很容易记忆,使用 DNS作为中间层转换,这一点相信在日常的工作和学习过程中,大家深有体会。

例如英文 Linux 的 terminal 中输入村这个字符,按下回车的时候,可能会出现了如下的提示:

-bash: $’\346\235\221’:command not found

原因解释如下:

1,\346\235\221 是 8 进制的表示⽅式,转换为 16 进制为 E69D91,该值就是村这个字符的UTF-8 编码对应的值,注意村在 Unicode 中的编号是 0x6751,这里就体现了编码和字符编号的不同。

2,当通过输入法或者 Alt 加上对应的 Unicode 编号的时候,一开始在终端上显示的是对应的字符(也就是对应的编号的点阵信息),如村等。但是当按下 Enter的时候,其实是在像系统发送命令(村这个命令)。当涉及到传输以及存储的时候,就需要对字符进行编码。这个时候终端就会将该字符转换为编码后的值进行存储和传输。由于我的终端默认的是 UTF-8 编码⽅式,因此就会将村(0x6751)编码成为 E69D91,也就是 \346\235\221。由于系统中没有村这个指令,因此就会有上述的错误提示。

上述例子说明了一个问题,就是计算机的存储和显示是分离的。在计算机显示的时候显示的是一个具体的字符,也可以理解为显示的是字符的编号。但是存储的时候我可以更改编码方式, 按照需要进行存储。

上例中终端采用了 UTF-8 编码方式,同样的在 Nodepad++ 等软件中 我可以按照 UTF-8 方式存储村中少年几个字,也可以按照 GBK 方式存储,如下是使用 HxD 查看两种⽅式存储的 16 进制结果,如下:
GBK

在这里插入图片描述
UTF-8

在这里插入图片描述
可以看到尽管存储的值不同,但是在显示的时候看到的都是 村中少年 这几个字符。因为当Nodepad++ 在打开文件显示,其实是从编码值到字符编号的逆过程(解码)。无论该字符是以何种形式编码,在显示的时候其表示的含义是字符本身,不会因为编码值的改变改变。因此 在显示阶段要表现的是字符本身的内容,因此需要几个固定的值来表示,即所在字符集的编号。但是当一个字符存储到硬盘上或者存储在内存中或者用于传输的时候,必须要考虑使用 个字节对该字符进行存储,这个时候字符需要考虑占用空间,有长度的限制,即编码的范畴。 不同的编码对于同以个字符存储长度可能不同,例如在 UTF-8 中文通常使用三个字符存储,而GB2312 往往是两个字节。

因此可以得出如下的结论:

算机操作系统显示阶段,使用了字符所在字符集编号唯一的表示这个字符。在存储和显示阶段,根据不同的编码设置,将字符编号转换成为编码后的值进行传输和存储。

一个小游戏

曾经有这样一个小游戏:不使输入法法,在 Word 中打出自己的中文名字。

如果你不知道如何实现,恭喜你,看完本文之后又 get 到一个新技能;如果你曾经实现过,那么背后的原理也许你会很感兴趣。

以我 CSDN 博客的名 村中少年 为例进行说明。

1,村中少年 四个字符对应的 GBK、 GB2312 字符集中的编号为 B4E5(46309)、 D6D0
(54992)、C9D9(51673)、C4EA(50410),括号内的是十进制,括号外的是十六进制。对于常见的中文字符来说 GBK 和 GB2312 的编号是一致的,可以理解 GB2312 是 GBK 的一个子集。

2,这四个字符对应 Unicode 字符集中的编号分别为 6751(26449)、 4E2D(20013)、5C11(23569)、5E74(24180)。

3,在中文Windows 操作系统中,在 DOS 窗口中输入 chcp,如下图3:

在这里插入图片描述
图3
其中代码页就是字符集的别名, 而936 指的就是 GBK 字符集编码, 可以看到我的中文Windows 操作系统中采用了 GBK 字符集,当然也可以说是 GBK 编码,后面我们会简单聊聊区别

4,在 Windows 中文操作系统中,按住 Alt 键不放,分别在数字小键盘上输入步骤 1 中字符集对应的十进制,依次为 46309、54992、51673、50410。就可以在 DOS 窗口,Word 文档, Nodpad++ 等终端或者编辑器中打印出村中少年几个汉字。当然这里面有个限制需要注意,必须使用数字小键盘进行数字的输入,因此对于笔记本来说就无法使用这种方式来操作了。

5,如果你的系统使用的并不是 GBK 字符集,例如 Unicode 字符集。比如英文的 Linux 系统中通常采用的是 Unicode 字符集,这个时候的组合就是 Alt 键加上步骤 2 对应 Unicode 字符集中的编号了,依次为 26449、20013、23569、24180。同样可以打印出村中少年。感兴趣的童鞋可以自己试一试。

本文为CSDN村中少年原创文章,未经允许不得转载,博主链接这里。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/28711.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java 八股文-基础篇

Java 基础 一、Java 概述 1.什么是 Java? Java 是一门面向对象的编程语言,不仅吸收了 C语言的各种优点,还摒弃了 C里难以理解的多继承、指针等概念,因此 Java 语言具有功能强大和简单易用两个特征。Java 语言作为静态面向对象编…

NB-lot和LoRa真正的差别在哪里?

就像要把大象装冰箱一样,物联网,万物互联也是要分步骤的。 一、感知层(信息获取层),即利用各种传感器等设备随时随地获取物体的信息; 二、网络层(信息传输层),通过各种电信网络与互联网的融合,将物体的信息实时准确地…

Mybatis学习之插件

Mybatis学习之插件 Plugins Mybatis中的插件虽然名称叫插件,但实质上是通过动态代理实现的。和我们平时讲的插件概念不一样,但是本质上都是给外部提供接口进行扩展。 MyBatis 允许我们在映射语句执行过程中的某一点进行拦截调用。MyBatis允许我们使用…

浪潮 KaiwuDB x 大数据中心 | 数据驱动政府治理能力快速提升

业务背景 我国工业互联网大数据资源存在孤立、分散、封闭等问题,数据价值未能得到有效利用,数据主权和数据安全面临重大威胁。 发挥数据对工业经济的基础支撑和创新引擎作用,可促进工业互联网的创新发展,加速数据驱动政府治理能…

CVPR23 | 可编辑3D场景布局的文本引导多对象合成NeRF

来源:投稿 作者:橡皮 编辑:学姐 论文链接:https://arxiv.org/abs/2303.13843 0.背景: 最近,文本到图像生成通过将视觉-语言预训练模型与扩散模型相结合,取得了巨大的成功。这些突破也使得强大…

cortex A7核按键中断实验

cortex A7核按键中断实验 一、分析电路图 实验目的:完成板子三个按键操作 1.1 电路图IO口 KEY1------>PF9 KEY2------>PF7 KEY3------>PF8 1.2 工作原理 KEY1 ------> PF9 ------> 按键触发方式:下降沿触发 KEY2 ------> PF7 …

HarmonyOS元服务端云一体化开发快速入门(上)

一、前提条件 您已使用已实名认证的华为开发者帐号登录DevEco Studio。 请确保您的华为开发者帐号余额充足,账户欠费将导致云存储服务开通失败。 二、选择云开发模板 1.选择以下任一种方式,打开工程创建向导界面。 如果当前未打开任何工程&#xff0c…

Question Log

Question Log 提示:记录一下平常遇到的坑 Question Log(★ > ) Question LogⅠ、★ > 使用VsCode构建Unity开发环境1.环境配置2.遇到的相关问题★.The .NET Core SDK cannot be located: A valid dotnet installation …

JS + 浮动 + 递归实现图片瀑布流懒加载

思路 页面 pege 分成左浮动的数列 lineBox,每列中图片 sinImg 依次向下摆放每加载一张图片时,判断页面中哪列的高度最小,将当前图片放到最小的那列尾部监听当前图片 onload 事件,当前图片加载完成后,再加载下一张图片…

力扣题库刷题笔记5--最长回文子串

1、题目如下: 2、个人Python代码实现: 首先想到的是通过类似冒泡排序的方式进行切片,然后判断切片的子字符串是否为回文字符串,然后记录出最长的回文字符串,代码如下: 可以看到,通过切片的方式&…

剑指offer35 复杂链表的复制

复杂链表的复制 文章目录 复杂链表的复制方法一 回溯哈希表第二种解释 方法二:拼接拆分算法流程 参考文献 本题要求我们对一个复杂链表进行复制。在复杂链表中,每个节点除了有一个next指针指向下一个节点,还有一个random指针指向链表中的任意…

嵌入式容器源码解析

问题分析 不同于使用springmvc,在我们使用springboot时无需配置tomcat就可以直接使用,这就说明springboot已经在我们启动项目时将tomcat配置好了,接下来我们就来看看springboot底层是怎么实现的。 源码解析 ServletWebServerFactoryAutoConfiguratio…

Python 标准库 - 并发执行

Python 标准库 - 并发执行 1. 简单介绍2. 程序示例2.1 threading 编程示例2.2 multiprocessing 编程示例2.3 concurrent.futures 编程示例 1. 简单介绍 Python 标准库 非常庞大,所提供的组件涉及范围十分广泛,官方参考链接https://docs.python.org/zh-cn…

unity 3d实现下雨、雾气、萤火虫和火花四溅的粒子效果

文章目录 先看最终效果1. 下雨效果2. 雾气效果3. 萤火虫和火花四溅的效果 3d下雨粒子效果涟漪效果雨滴和涟漪效果结合水花效果雨滴涟漪水花结合问题雾气效果萤火虫火花效果萤火虫和火花效果结合完毕 先看最终效果 1. 下雨效果 2. 雾气效果 3. 萤火虫和火花四溅的效果 3d下雨粒…

函数栈帧的创建与销毁

函数栈帧的创建与销毁 前言认识相关寄存器认识相关汇编命令详解思路图 前言 函数栈帧的创建与销毁在不同编译器下,函数调用过程中栈帧的创建略有差异,具体细节取决于编译器的实现,但大体逻辑是一致的。(在使用编译器时&#xff0…

某游戏登录密码加密,webpack

注意:文章内容仅用于学习和技术交流,切勿做出违法的事情,如有侵权请联系我删除。 网址(今天的大冤种):aHR0cHM6Ly93d3cuZ205OS5jb20v 一,分析 从上面图片可以看到,他的密码是加密了…

桥接模式(十)

不管怎么样,都要继续充满着希望 上一章简单介绍了适配器模式(九), 如果没有看过, 请观看上一章 一. 桥接模式 引用 菜鸟教程里面的 桥接模式介绍: https://www.runoob.com/design-pattern/bridge-pattern.html 桥接(Bridge)是用于把抽象化…

谷粒商城p46-配置网关路由与路径重写

软件 : vscode idea 服务: renren-fast,gulimall-product,gulimall-gateway、nacos 前提条件: gateway、renren-fast已经注册到nacos 注意: 1、renren-fast单独注入nacos依赖,不要注入common…

#2023开放原子全球开源峰会之旅

#2023我在开源峰会 2023开放原子全球开源峰会参会指南 嗨咯,大家好! 6月11号,是一年一度的开放原子大会,有幸参加,很开心! 文章目录 1、逛展区(领周边)环节1.1 CSDN展区1.2 阿里云 …

ansible的部署和命令模块

一、 ansible 的概述 1、ansible简介 Ansible是一款为类Unix系统开发的自由开源的配置和自动化工具。 它用Python写成,类似于saltstack和Puppet,但是有一个不同和优点是我们不需要在节点中安装任何客户端。 它使用SSH来和节点进行通信。Ansible基于 …