哈夫曼编码(上)

文章目录

    • 问题引入
    • 哈夫曼编码的编写
      • 总述
      • 步骤一
      • 步骤二
      • 步骤三
      • 步骤四
    • 实现代码如下

在这里插入图片描述

问题引入

哈夫曼编码通常用于通信领域,是对较长信息进行压缩,然后发送到指定的位置,是为了节省发送信息占用的空间。
通常来说,如果信息中字符的重复次数越多,那么哈夫曼编码后所占的空间就越小,这也是我们为什么使用哈夫曼编码的原因,同时,哈夫曼编码还是天然的前缀编码,这让它与其他编码方式(定长编码,变长编码)相比,具有天然的优势。

哈夫曼编码的编写

总述

1.将字符串对应的字节数组变为list集合
2.创建list集合对应的哈夫曼树
3.得到对应的哈夫曼编码
4.根据哈夫曼编码得到最后压缩的byte[]

步骤一

首先我们需要一个字符串,此字符串将会用哈夫曼编码压缩为最后的byte数组。
比如为"i like like like java do you like a java"。
我们需要一个Node节点用来存储数据和对应的权值,这个节点为二叉树的节点。
我们将此字符串变为字节数组,然后统计各个字符出现的次数,将该字符作为Node节点的存储数据,
出现的次数作为Node节点对应的权值,统计之后将所有的节点放入List集合中保存。

//将对应字符串对应的byte数组转为list集合
private static List<Node2> getNodes(byte[] bytes){
        //创建一个List
        List<Node2> nodes = new ArrayList<Node2>();

        //存储每一个byte出现的次数
        Map<Byte,Integer> counts = new HashMap<>();
        for (byte b : bytes) {
            Integer count = counts.get(b);
            if(count == null){
                counts.put(b,1);
            }else {
                counts.put(b,count + 1);
            }
        }

        //把每一个键值对转成一个Node对象,并加入nodes集合
        for (Map.Entry<Byte, Integer> entry : counts.entrySet()) {
            nodes.add(new Node2(entry.getKey(),entry.getValue()));
        }
        return nodes;
    }
//创建Node,存数据和权值
class Node2 implements Comparable<Node2>{
    Byte data; //存放数据本身,比如'a' = 97
    int weight; //权值,表示字符出现的次数
    Node2 left;
    Node2 right;

    public Node2(Byte data, int weight) {
        this.data = data;
        this.weight = weight;
    }

    @Override
    public int compareTo(Node2 o) {
        return this.weight - o.weight;
    }

    @Override
    public String toString() {
        return "Node2{" + "data=" + data + ", weight=" + weight + '}';
    }

    //前序遍历
    public void preOrder(){
        System.out.println(this);
        if(this.left != null){
            this.left.preOrder();
        }
        if(this.right != null){
            this.right.preOrder();
        }
    }
}

步骤二

接下来我们就需要用我们刚刚得到的list集合来创建哈夫曼树了。
将list集合排序,把list集合的前两个节点拿出来,作为新树的两个子节点,然后将该新树放回list集合中,将原本拿出的两个子节点从list集合中移除,然后再次排序,重复上面步骤,就能得到一颗哈夫曼树。
当哈夫曼树构建完成,list集合就剩下一个节点,此节点就是哈夫曼树的根节点。
假设list集合中放的node节点的权值为1 2 4 5 6.
简述过程如下:

在这里插入图片描述

//通过list创建赫夫曼树
    private static Node2 createHuffmanTree(List<Node2> nodes){
        while (nodes.size() > 1){
            //排序
            Collections.sort(nodes);

            //取出前两个最小的二叉树
            Node2 left = nodes.get(0);
            Node2 right = nodes.get(1);

            //创建一课新的二叉树,它的根节点没有data,只有权值
            Node2 parent = new Node2(null, left.weight + right.weight);

            parent.left = left;
            parent.right = right;
            nodes.add(parent);

            //将已经处理的两个二叉树从nodes删除
            nodes.remove(left);
            nodes.remove(right);
        }
        return nodes.get(0);
    }

步骤三

哈夫曼树我们已经构建完毕了,接下来我们需要得到对应的哈夫曼编码。
我们规定,哈夫曼树中的节点,从该节点到左子节点路径的值为0,到右子节点的值为1。
接下来就是递归的创建赫夫曼编码表了,此表我们用Map<Byte,String> buffmanCodes来表示,map的key表示对应的字符,map的value表示赫夫曼编码,还需要一个StringBuilder stringBuilder,用来存放某个叶子节点的路径。
从根节点开始,当我们遇到非叶子节点就递归处理,向左递归,将0加入stringBuilder,然后向右递归,将1加入stringBuilder。当我们遇到叶子节点时,stringBuilder已经将该路径的0或1收集完毕,将该节点的data作为key,stringBuilder里存储的字符串作为value存入buffmanCodes。
简述过程如下:
在这里插入图片描述

//1.将赫夫曼编码表存放Map<Byte,String>形式
static Map<Byte,String> buffmanCodes = new HashMap<Byte,String>();
//2.在生成赫夫曼编码表时,需要去拼接路径,定义一个StringBuilder 存储某个叶子节点的路径
static StringBuilder stringBuilder = new StringBuilder();
private static void getCodes(Node2 node,String code,StringBuilder stringBuilder){
        StringBuilder builder = new StringBuilder(stringBuilder);
        //将code加入builder
        builder.append(code);
        if(node != null){
            //判断当前节点是叶子节点还是非叶子节点
            if(node.data == null){ //非叶子节点
                //递归处理
                //向左递归
                getCodes(node.left,"0",builder);
                //向右递归
                getCodes(node.right,"1",builder);
            }else{
                //找到叶子节点
                buffmanCodes.put(node.data,builder.toString());
            }
        }
    }

步骤四

根据赫夫曼编码将数据压缩得到最后的byte[]。
首先利用buffmanCodes 将 bytes转成 赫夫曼编码对应的字符串,用StringBuilder stringBuilder来接收。
接下来我们统计我们要压缩byte的长度int len,如果stringBuilder的长度恰好为8的倍数,则len = stringBuilder.length / 8,否则就是len = stringBuilder.length / 8 + 1,如果基础好的话很容易想到
int len = (stringBuilder.length() + 7) / 8。
最后我们创建压缩后的byte数组byte[] huffmanCodeBytes = new byte[len]。
读取stringBuilder的值,每八位作为一个字节,将该字节放入huffmanCodeBytes,当len的长度为8的倍数时,我们就按上述处理方法即可,但是当len的长度不为8的倍数,则最后几位的取法应有所不同。
简述过程如下:
在这里插入图片描述

 private static byte[] zip(byte[] contentBytes,Map<Byte,String> huffmanCodes){
        //1.利用huffmanCodes 将 bytes转成 赫夫曼编码对应的字符串
        StringBuilder stringBuilder = new StringBuilder();
        for (byte b : contentBytes) {
            stringBuilder.append(huffmanCodes.get(b));
        }

        int len;
        if(stringBuilder.length() % 8 == 0){
            len = stringBuilder.length() / 8;
        }else {
            len = stringBuilder.length() / 8 + 1;
        }
        //创建存储压缩后的bute数组
        byte[] huffmanCodeBytes = new byte[len];
        int index = 0; //记录是第几个byte
        //因为每8位对应一个byte,所以步长 + 8
        for (int i = 0; i < stringBuilder.length(); i+=8) {
            String strByte;
            if(i + 8 > stringBuilder.length()){
                strByte = stringBuilder.substring(i);
            }else {
              strByte = stringBuilder.substring(i,i + 8);
            }
            
            //将strByte转为一个byte,放入huffmanCodeBytes
            huffmanCodeBytes[index++] = (byte) Integer.parseInt(strByte,2);
        }
        return huffmanCodeBytes;
    }

实现代码如下

public class HuffmanCode {
 public static void main(String[] args) {
        String str = "i like like like java do you like a java";
        byte[] bytes = str.getBytes(StandardCharsets.UTF_8);
        byte[] huffmanCodeBytes = huffmanZip(bytes);

        System.out.println("压缩后的结果为 : " + Arrays.toString(huffmanCodeBytes));
	}
    
    private static byte[] huffmanZip(byte[] contentBytes){
        List<Node2> nodes = getNodes(contentBytes);
        //根据nodes创建的赫夫曼树
        Node2 root = createHuffmanTree(nodes);

        //得到对应的赫夫曼编码
        Map<Byte, String> huffmanCodes = getCodes(root);

        //根据赫夫曼编码huffmanCodes得到最后压缩的byte[]
        byte[] huffmanCodeBytes = zip(contentBytes, huffmanCodes);
        return huffmanCodeBytes;
    } 
	
	private static byte[] zip(byte[] contentBytes,Map<Byte,String> huffmanCodes){
        //1.利用huffmanCodes 将 bytes转成 赫夫曼编码对应的字符串
        StringBuilder stringBuilder = new StringBuilder();
        for (byte b : contentBytes) {
            stringBuilder.append(huffmanCodes.get(b));
        }

        int len;
        if(stringBuilder.length() % 8 == 0){
            len = stringBuilder.length() / 8;
        }else {
            len = stringBuilder.length() / 8 + 1;
        }
        //创建存储压缩后的bute数组
        byte[] huffmanCodeBytes = new byte[len];
        int index = 0; //记录是第几个byte
        //因为每8位对应一个byte,所以步长 + 8
        for (int i = 0; i < stringBuilder.length(); i+=8) {
            String strByte;
            if(i + 8 > stringBuilder.length()){
                strByte = stringBuilder.substring(i);
            }else {
              strByte = stringBuilder.substring(i,i + 8);
            }
            
            //将strByte转为一个byte,放入huffmanCodeBytes
            huffmanCodeBytes[index++] = (byte) Integer.parseInt(strByte,2);
        }
        return huffmanCodeBytes;
    }
     
     //为了调用方便,我们重载getCodes
    private static Map<Byte,String> getCodes(Node2 root){
        if(root == null){
            return null;
        }else {
            getCodes(root.left,"0",stringBuilder);
            getCodes(root.right,"1",stringBuilder);
            return buffmanCodes;
        }
    }

    static Map<Byte,String> buffmanCodes = new HashMap<Byte,String>();
    static StringBuilder stringBuilder = new StringBuilder(); 
    private static void getCodes(Node2 node,String code,StringBuilder stringBuilder){
        StringBuilder builder = new StringBuilder(stringBuilder);
        //将code加入builder
        builder.append(code);
        if(node != null){
            //判断当前节点是叶子节点还是非叶子节点
            if(node.data == null){ //非叶子节点
                //递归处理
                //向左递归
                getCodes(node.left,"0",builder);
                //向右递归
                getCodes(node.right,"1",builder);
            }else{
                //找到叶子节点
                buffmanCodes.put(node.data,builder.toString());
            }
        }
    }

	private static List<Node2> getNodes(byte[] bytes){
        //创建一个List
        List<Node2> nodes = new ArrayList<Node2>();

        //存储每一个byte出现的次数
        Map<Byte,Integer> counts = new HashMap<>();
        for (byte b : bytes) {
            Integer count = counts.get(b);
            if(count == null){
                counts.put(b,1);
            }else {
                counts.put(b,count + 1);
            }
        }

        //把每一个键值对转成一个Node对象,并加入nodes集合
        for (Map.Entry<Byte, Integer> entry : counts.entrySet()) {
            nodes.add(new Node2(entry.getKey(),entry.getValue()));
        }
        return nodes;
    }

	private static Node2 createHuffmanTree(List<Node2> nodes){
        while (nodes.size() > 1){
            //排序
            Collections.sort(nodes);

            //取出前两个最小的二叉树
            Node2 left = nodes.get(0);
            Node2 right = nodes.get(1);

            //创建一课新的二叉树,它的根节点没有data,只有权值
            Node2 parent = new Node2(null, left.weight + right.weight);

            parent.left = left;
            parent.right = right;
            nodes.add(parent);

            //将已经处理的两个二叉树从nodes删除
            nodes.remove(left);
            nodes.remove(right);
        }
        return nodes.get(0);
    }
}

//创建Node,存数据和权值
class Node2 implements Comparable<Node2>{
    Byte data; //存放数据本身,比如'a' = 97
    int weight; //权值,表示字符出现的次数
    Node2 left;
    Node2 right;

    public Node2(Byte data, int weight) {
        this.data = data;
        this.weight = weight;
    }

    @Override
    public int compareTo(Node2 o) {
        return this.weight - o.weight;
    }

    @Override
    public String toString() {
        return "Node2{" + "data=" + data + ", weight=" + weight + '}';
    }

    //前序遍历
    public void preOrder(){
        System.out.println(this);
        if(this.left != null){
            this.left.preOrder();
        }
        if(this.right != null){
            this.right.preOrder();
        }
    }
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/616540.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

《Linux运维总结:ARM64架构CPU基于docker-compose一离线部署rabbitmq 3.10.25容器版镜像模式集群》

总结&#xff1a;整理不易&#xff0c;如果对你有帮助&#xff0c;可否点赞关注一下&#xff1f; 更多详细内容请参考&#xff1a;《Linux运维篇&#xff1a;Linux系统运维指南》 一、部署背景 由于业务系统的特殊性&#xff0c;我们需要面向不通的客户安装我们的业务系统&…

element 输入框禁止输入空格以及复制的值进去删除空格(vue自定义指令)开箱即用

实例图&#xff1a; 代码&#xff1a; //输入框禁止输入空格 Vue.directive(noSpace, {bind(el) {//禁止输入空格el.addEventListener("keydown", function (event) {if (event.keyCode 32) {event.preventDefault();}});//复制值时去掉空格el.addEventListener(&q…

探讨欧盟就人工智能监管达成协议

《人工智能法案》是一项具有里程碑意义的立法&#xff0c;它可以创造一个有利的环境&#xff0c;在这种环境中&#xff0c;人工智能的使用将成为一种更优秀的安全和信任的工具&#xff0c;确保整个欧盟的公共和私人机构利益相关者的参与。 历时3天的“马拉松式”谈判圆满结束&…

CCC数字钥匙各版本关系

CCC钥匙规范版本关系 CCC数字钥匙架构Overview

【教学类-55-01】20240511图层顺序挑战(四格长条纸)(4*4)和“手工纸自制参考图”

作品展示 背景需求 空间思维图层挑战2|逻辑推理|空间想象力 - 小红书 (xiaohongshu.com)https://www.xiaohongshu.com/discovery/item/62cbf6c60000000010026aa0?app_platformandroid&ignoreEngagetrue&app_version8.35.0&share_from_user_hiddentrue&typevi…

机器学习第37周周报 GGNN

文章目录 week37 GGNN摘要Abstract一、文献阅读1. 题目2. abstract3. 网络架构3.1 数据处理部分3.2 门控图神经网络3.3 掩码操作 4. 文献解读4.1 Introduction4.2 创新点4.3 实验过程4.3.1 传感器设置策略4.3.2 数据集4.3.3 实验设置4.3.4 模型参数设置4.3.5 实验结果 5. 结论 …

【linux】详解linux基本指令

目录 cat more less head tail 时间 cal find grep zip/unzip tar bc uname –r 关机 小编一共写了两篇linux基本指令&#xff0c;这两篇涵盖了大部分初学者的必备指令&#xff0c;这是第二篇&#xff0c;第一篇详见http://t.csdnimg.cn/HRlVt cat 适合查看小文…

JAVA 标准接口返回与i18n国际化配置

不喜欢废话直接上代码 标准通用返回 package com.luojie.common;import com.luojie.common.inter.ResponseCommon; import lombok.Data;Data public class ResponseCommonImpl implements ResponseCommon {int code;String msg;Object entity; }package com.luojie.common;im…

vue 中的 Vuex

Vuex Vuex是什么&#xff1f; 概念&#xff1a;专门在vue中实现集中式状态&#xff08;数据&#xff09;管理的一个Vue插件&#xff0c;对Vue应用中多个组件的共享状态进行集中式的管理(读/写&#xff09;&#xff0c;也是一种组件间通信的方式&#xff0c;且适用于任意组件间…

【NTN 卫星通信】参考卫星集成场景和架构

1 卫星接入场景 1.1 同一PLMN内的卫星和地面接入网 一个PLMN可以同时具有地面3GPP接入和卫星3GPP接入。在此场景中&#xff0c;单独的N2实例处理单独的访问类型节点。然而&#xff0c;卫星接入网的覆盖范围可以跨越地面接入网的覆盖范围。 图1 同PLMN架构下的卫星和地面3GPP接…

如何在matlab时间序列中X轴标注月-日

一般我们使用的时间序列都是以年为单位&#xff0c;比如下图&#xff1a; 而如果要绘制月尺度的时间变化图&#xff0c;则需要调整X轴的标注。下面代码展示了如何绘制小时尺度的降水数据。 [sname2,lon2,lat2] kml2xy(GZ_.kml); nc_bound2 [lon2,lat2]; area_ind2inpolygon(e…

# 从浅入深 学习 SpringCloud 微服务架构(十六)

从浅入深 学习 SpringCloud 微服务架构&#xff08;十六&#xff09; 一、SpringCloudStream&#xff1a;自定义消息通道 1、在子工程 stream_product &#xff08;子模块&#xff09;中,创建 自定义的消息通道类 MyProcessor.java /*** spring_cloud_demo\stream_product…

【大数据·Hadoop】从词频统计由浅入深介绍MapReduce分布式计算的设计思想和原理

一、引入&#xff1a;词频统计问题 假如我们有一亿份文档&#xff0c;需要统计这一亿份文档的词频。我们会怎么做&#xff0c;有以下思路 使用单台PC执行&#xff1a;能不能存的下不说&#xff0c;串行计算&#xff0c;一份一份文档读&#xff0c;然后进行词频统计&#xff0…

【35分钟掌握金融风控策略23】定额策略

目录 定额策略 定额策略的开发、部署、监控和调优 定额策略开发 定额策略部署 定额策略监控 定额策略调优 定额策略 定额是对授信审批通过的客户给予合适授信额度的过程。如何定额、定多少额度是由定额策略来决定的。定额的多少与客户未来的动支情况、逾期情况和最终的收…

基于鹈鹕优化算法POA的复杂城市地形下无人机避障三维航迹规划,可以修改障碍物及起始点(Matlab代码)

复杂城市地形下无人机避障三维航迹规划是指在城市等高密度区域内&#xff0c;通过无人机的传感器和导航系统来实现飞行路径的规划和调整&#xff0c;从而避免无人机与建筑物、其他无人机、地面障碍物等发生碰撞和冲突。具体来说&#xff0c;无人机需要实时感知周围环境&#xf…

【报错合集】完美解决“虚拟机使用的是此版本 VMware Workstation 不支持的硬件版本”

文章目录 解决方案&#xff1a;更改设置的硬件版本 今天我需要将别人的虚拟机克隆到我的VMware Workstation上运行&#xff0c;结果发生了以下的错误&#xff1a; 刚开始以为是VMware Workstation的版本问题太低导致的&#xff0c;所以我删除了原来的那个版本&#xff0c;下载…

MySQL数据库的初始化(创建库、创建表、向数据库添加测试数据)

MySQL数据库的初始化&#xff08;创建库、创建表、向数据库添加测试数据&#xff09; MySQL数据库简介MySQL创建一个新的数据库MySQL创建一张新的数据表简单&#xff08;设置&#xff09;表复杂&#xff08;设置&#xff09;表 填充测试数据SQL语句mysql>模式下输入的每句sq…

用 Python 和 AkShare 进行个股数据清洗:简易多功能方法

标题:用 Python 和 AkShare 进行个股数据清洗:简易多功能方法 简介: 本文介绍了如何使用 Python 和 AkShare 库对个股数据进行清洗和处理。个股数据经常需要进行清洗以用于分析、建模或可视化。我们将介绍一些简单但功能强大的方法,包括数据加载、缺失值处理、重复值检测和…

后端项目开发笔记

Maven打包与JDK版本不对应解决方法 我这里使用jdk8。 <build><plugins><plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-compiler-plugin</artifactId><version>3.8.1</version><configurat…

未授权访问:MongoDB未授权访问漏洞

目录 1、漏洞原理 2、环境搭建 3、未授权访问 防御手段 今天继续学习各种未授权访问的知识和相关的实操实验&#xff0c;一共有好多篇&#xff0c;内容主要是参考先知社区的一位大佬的关于未授权访问的好文章&#xff0c;还有其他大佬总结好的文章&#xff1a; 这里附上大佬…