都被“锟斤拷”毒害过,那么究竟是为什么会出现这些奇怪的字符?

不管是在工作中还是生活中,都被“锟斤拷”毒害过,比如这样:

Image

或者这样:

Image

还有这样:

Image

那么究竟是为什么会出现这些奇怪的字符?

ASCII编码

在计算机底层都是用01进行存储的,ASCII编码将所有的字母及符号进行编码后转成二进制的01进行存储,字母和符号占1个字节(即8bit),标准的ASCII码规定最高位必须为0,因此ASCII编码只能有128个,转成十进制即为0-127。标准的ASCII码表如下:

Image

ASCII码表只有128个字符,对于英语来说已经够用了,但是世界上还有很多国家的文字各不相同,这时候就需要一个更加全面的编码出现。

Unicode(又称统一码、万国码、单一码)是计算机科学领域里的一项业界标准。它为每种语言中的每个字符设定了统一并且唯一的二进制编码。在表示一个Unicode的字符时,通常会用“U+”然后紧接着一组十六进制的数字来表示这个字符。

UTF-8与GBK

UTF-8是针对Unicode的一种可变长度字符编码。它可以用来表示Unicode标准中的任何字符,而且其编码中的第一个字节仍与ASCII相容。UTF-8使用一至四个字节为每个字符进行编码。常用的汉字采用3个字节进行编码。

因为UTF-8是针对Unicode的一种可变长度的字符编码,所以它包含了世界上所有字符的编码,对于那些早录入的字符,就会优先使用1、2个字节来存储,对于迟录入的字符存储占用的字节就会大一些,这样,那些迟录入的字符存储空间就会很大。

对于一个中文网站,实际上并不需要其他国家的文字出现,但是中国汉字用UTF-8进行编码,大多数却占用了3个字节甚至更多字节,这样就造成了不必要的存储浪费。为了解决这种问题,中华人民共和国全国信息技术标准化技术委员会制定了一套GB系列的编码,最常用的就是GBK了。

GBK编码英文使用单字节编码,完全兼容ASCII字符,汉字使用了两个字节进行编码,其编码范围从0x8140(表示16进制)至0xFEFE(剔除xx7F),共23940个码位,共收录了21003个汉字,图形符号 883 个。

为什么要剔除xx7F,因为它对应的ASCII码表是DEL,意味着要向后删除一个字符。

为什么会出现“锟斤拷”

Unicode编码一直持续在收录各种字符,这就可能会出现各种操作系统支持的Unicode字符不一样。这也就会导致A上的一个用Unicode编码的字符,在B上就会出现无法显示的情况。为了避免这种情况,在Unicode中定义了一个特殊字符�,它的Unicode编码为0xFFFD。

假如A支持特殊字符,但是B并不支持这个,那么在B中将会用�来代替。

Image

这个字符用UTF-8编码后,十六进制表示为0xEF 0XBF 0XBD。如果连续出现两个符号,那么用UTF-8编码后的十六进制则表示为0xEF 0XBF 0XBD 0xEF 0XBF 0XBD,这时候再转码成GBK,因为GBK中用两个字节表示一个字符,那么上述的字符就成了(0xEFBF),(0xBDEF),(0xBFBD)。出现锟斤拷的原因就是UTF-8转码GBK的过程中出现了问题。当然如果想要出现锟斤拷,则至少需要两个字符出现乱码。

接下来,我们直接用代码来看一下效果:

Explain@Test
void contextLoads() throws Exception {
    String str = "�";
    String strCode = new String(str.getBytes("UTF-8"), "GBK");
    System.out.println(strCode);
}

运行结果为锟�,前面也说了如果想要出现锟斤拷,则至少需要为两个字符,现在再修改一下代码。

@Test
void contextLoads() throws Exception {
    String str = "��";
    String strCode = new String(str.getBytes("UTF-8"), "GBK");
    System.out.println(strCode);
}

运行结果如下为锟斤拷

如果以后再遇到锟斤拷,不要慌,它一定是UTF-8在转换GBK编码的时候出现了问题。所以GBK编码虽然减少了内存的浪费,但是也带来了不少问题。


The End!!创作不易,欢迎点赞/评论!!欢迎关注个人公众号

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/180432.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

vivado联合modelsim测试覆盖率

(1)配置环境 安装modelsim和vivado。点击vivado菜单栏中的tools,在下拉选项中选择compile simulation libraries。simulator选项选择:modelsim simulator。compile library location表示编译库存放的路径。simulator executable p…

【Pytorch】Visualization of Feature Maps(3)

学习参考来自: Image Style Transform–关于图像风格迁移的介绍github:https://github.com/wmn7/ML_Practice/tree/master/2019_06_03 文章目录 风格迁移 风格迁移 风格迁移出处: 《A Neural Algorithm of Artistic Style》(ar…

JS 判断元素是否为空

判断元素是否为空: /*** 判断是否为空*/ export function validatenull(val) {if (typeof val boolean) {return false}if (typeof val number) {return false}if (val instanceof Array) {if (val.length0) return true} else if (val instanceof Object) {if (…

PC8223(CC/CV控制)高耐压输入5V/3.4A同步降压电路内建补偿带恒流恒压输出

概述 PC8233(替代CX8853)是一款同步降压调节器,输出电流高达3.4A,操作范围从8V到32V的宽电源电压。内部补偿要求最低数量现成的标准外部组件。PC8233在CC(恒定输出电流)模式或CV(恒定输出电压)模式&#x…

uniapp项目开发的功能点

一.手机 判断什么手机 const platform uni.getSystemInfoSync().platform;//platform ios什么机型 const model uni.getSystemInfoSync().model //model.toindex(iPhone)二.授权登录 授权登录有2种方式 (一)静默授权 就直接通过uni.login 获取c…

大模型AI Agent 前沿调研

前言 大模型技术百花齐放,越来越多,同时大模型的落地也在紧锣密鼓的进行着,其中Agent智能体这个概念可谓是火的一滩糊涂。 今天就分享一些Agent相关的前沿研究(仅限基于大模型的AI Agent研究),包括一些论…

解决kubernetes中微服务pod之间调用失败报错connection refused的问题

现象: 从这里可以看到是当前服务在调用product service服务是出现了连接拒绝connection refused 走读一下原始代码: 可以看到请求是由FeignClient代理发出的 ,但问题在于为什么Feign请求的时候会产生connection refused错误? 上…

2014年9月26日 Go生态洞察:使用Docker部署Go服务器

🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🦄 博客首页——🐅🐾猫头虎的博客🎐 🐳 《面试题大全专栏》 🦕 文章图文…

最近整理一份steam搬砖的项目操作细节和详细要求

csgo饰品搬砖Steam饰品搬砖全套操作流程之如何卖货 一、国外Steam游戏装备汇率差项目 这个项目的基本原理是 购买国外Steam游戏平台上的装备,再在国内网易Buff平台上或国际站csgo饰品平台进行售卖。从充值汇率和两个平台的装备价格差中获得利润。 二、需要准备的硬…

EMG肌肉电信号处理合集(二)

本文主要展示常见的肌电信号特征的提取说明。使用python 环境下的Pysiology计算库。 目录 1 肌电信号第一次burst的振幅, getAFP 函数 2 肌电信号波长的标准差计算,getDASDV函数 3 肌电信号功率谱频率比例,getFR函数 4 肌电信号直方图…

738. Monotone Increasing Digits 968. Binary Tree Cameras

738. Monotone Increasing Digits An integer has monotone increasing digits单调递增数字 if and only if each pair of adjacent digits x and y satisfy x < y. Given an integer n, return the largest number that is less than or equal to n with monotone increa…

华为OD机试 - 找朋友(Java 2023 B卷 100分)

目录 专栏导读一、题目描述二、输入描述三、输出描述大白话解释一下就是&#xff1a;1、输入&#xff1a;2、输出&#xff1a;3、说明 四、解题思路五、Java算法源码六、效果展示1、输入2、输出3、说明 华为OD机试 2023B卷题库疯狂收录中&#xff0c;刷题点这里 专栏导读 本专…

DevExpress WinForms TreeMap组件,用嵌套矩形可视化复杂分层数据

DevExpress WinForms TreeMap控件允许用户使用嵌套的矩形来可视化复杂的平面或分层数据结构。 DevExpress WinForms有180组件和UI库&#xff0c;能为Windows Forms平台创建具有影响力的业务解决方案。同时能完美构建流畅、美观且易于使用的应用程序&#xff0c;无论是Office风…

vue3 使用simplebar【滚动条】

1.下载simplebar-vue npm install simplebar-vue --save2.引入注册 import simplebar from "simplebar-vue"; import simplebar-vue/dist/simplebar.min.css import simplebar-vue/dist/simplebar-vue.jsvue2的版本基础上 【引入注册】 import simplebar from &qu…

c语言:回文字符串

题目&#xff1a; 思路&#xff1a; 创建一个字符数组&#xff0c;然后判断字符串长度&#xff0c;用循环&#xff0c;看对应字符是否相等&#xff0c;相等则输出&#xff0c;不相等则将对应字符ascll较大的改成ascll较小的&#xff08;题目要求字典最小的情况&#xff09;。…

【办公常识_1】写好的代码如何上传?使用svn commit

首先找到对应的目录 找到文件之后点击SVN Commit

HT71782 同步集成升压转换器

HT71782是一款高功率、全集成升压转换器&#xff0c;集成16mΩ功率开关管和18mΩ同步整流管&#xff0c;为便携式系统提供G效的小尺寸处理方案。 HT71782采用自适应恒定关断时间峰值电流控制拓扑结构来调节输出电压。在中等到重负载条件下&#xff0c;HT71782工作在PWM 模式。轻…

Python中列表和字符串常用的数据去重方法你还记得几个?

Python中列表和字符串常用的数据去重方法你还记得几个&#xff1f; 1 关于数据去重2 字符串去重2.1 for方法2.2 while方法2.3 列表方法2.4 直接删除法2.5 fromkeys方法 3 列表去重3.1 for方法3.2 set方法13.3 set方法23.4 count方法3.5 转字典法 4 完整代码 1 关于数据去重 关…

安卓毕业设计基于安卓android微信小程序的培训机构系统

项目介绍 本文以实际运用为开发背景&#xff0c;运用软件工程原理和开发方法&#xff0c;它主要是采用java语言技术和mysql数据库来完成对系统的设计。整个开发过程首先对培训机构管理系统进行需求分析&#xff0c;得出培训机构管理系统主要功能。接着对培训机构管理系统 进行…

Zoho Bigin和标准版CRM有什么区别?

Zoho Bigin是Zoho公司推出的一款针对小微企业设计的CRM系统&#xff0c;它与Zoho CRM一脉相承&#xff0c;但更加轻量级&#xff0c;快速帮助小微企业实现数字化销售。下面来说说&#xff0c;Zoho Bigin是什么&#xff1f;它适合哪些企业&#xff1f; 什么是Zoho Bigin&#x…