基于Huffman编码的字符串统计及WPL计算

一、问题描述

问题概括:
给定一个字符串或文件,基于Huffman编码方法,实现以下功能:

1.统计每个字符的频率

2.输出每个字符的Huffman编码

3.计算并输出WPL(加权路径长度)

这个问题要求对Huffman编码算法进行实现和扩展,具体涉及以下步骤:

1.从键盘输入或文件中读取字符串/内容。

2.统计每个字符的出现频率。

3.根据频率构建Huffman树。

4.为每个字符生成对应的Huffman编码。

5.计算WPL并输出。

此外,还要求能够处理文件输入,这涉及到文件读取和解析的逻辑。解决此问题需要熟练掌握Huffman编码算法,包括如何构建Huffman树如何为字符生成编码以及如何计算WPL。同时,还需要具备基本的文件操作能力,如打开读取解析文件内容


二、分析与设计

(1)设计思想:

数据结构

  1. 二叉树:在这段代码中,我们使用了二叉树作为主要的数据结构。每个节点包含一个字符(数据)、一个频率(权重)以及指向左右子节点的指针。这种数据结构使我们能够有效地进行各种操作,如创建树、生成编码和计算WPL。
  2. 优先队列:我们使用了优先队列(具有自定义比较函数的priority_queue)来帮助创建Huffman树。优先队列能够保证在任何时候,都能以对数时间复杂度获取(并删除)最小元素。
  3. 哈希表:我们使用了哈希表(map)来存储字符到频率的映射(在创建Huffman树时)以及字符到Huffman编码的映射(在生成Huffman编码时)。

算法思想

  1. Huffman编码:Huffman编码是一种用于无损数据压缩的贪心算法。该算法使用字符的频率信息来构建一个最优的前缀编码,使得频率高的字符有更短的编码,频率低的字符有更长的编码,从而达到压缩数据的目的。
  2. 深度优先搜索:在生成Huffman编码和计算WPL时,我们使用了深度优先搜索(DFS)。DFS是一种用于遍历或搜索树或图的算法。这种算法会尽可能深地搜索树的分支。在这里,我们使用DFS来遍历Huffman树,并在遍历过程中生成Huffman编码或计算WPL。
  3. 递归:在多个地方,我们使用了递归的方法,如在DFS中遍历二叉树,以及在计算WPL时递归地计算子树的WPL。递归是一种将问题分解为更小子问题的方法,直到问题可以直接解决为止。

(2)设计表示:

主程序各子函数:

  1. Node(char data, int freq):这是一个构造函数,用于创建一个新的节点。它接受一个字符和一个频率作为参数,并初始化一个新的节点。
  2. generateHuffmanCode(Node* root, string str, map<char, string>& huffmanCode):这是一个私有方法,用于生成Huffman编码。它递归地遍历Huffman树,并在遍历过程中生成Huffman编码。
  3. calculateWPL(Node* root, int depth):这是一个私有方法,用于计算WPL(加权路径长度)。它递归地遍历Huffman树,并在遍历过程中计算WPL。
  4. createHuffmanTree(string text):这是一个公有方法,用于创建Huffman树。它首先统计每个字符出现的频率,然后使用优先队列创建Huffman树。
  5. generateHuffmanCode():这是一个公有方法,用于生成Huffman编码。它调用generateHuffmanCode(Node* root, string str, map<char, string>& huffmanCode)方法来生成Huffman编码。
  6. calculateWPL():这是一个公有方法,用于计算WPL。它调用calculateWPL(Node* root, int depth)方法来计算WPL。

图1 函数调用流程图


三、编码说明

完整代码展示:

#include <iostream>
#include <fstream>
#include <vector>
#include <map>
#include <queue>
using namespace std;

// 定义节点类
class Node {
public:
    char data;  // 字符
    int freq;  // 频率
    Node* left;  // 左子节点
    Node* right;  // 右子节点

    Node(char data, int freq) {
        this->data = data;
        this->freq = freq;
        left = right = nullptr;
    }
};

// 定义比较类
class Compare {
public:
    bool operator()(Node* l, Node* r) {
        return l->freq > r->freq;
    }
};

// 定义Huffman树类
class HuffmanTree {
private:
    Node* root;  // Huffman树的根节点

    // 生成Huffman编码的方法
    void generateHuffmanCode(Node* root, string str, map<char, string>& huffmanCode) {
        if (root == nullptr)
            return;
        if (!root->left && !root->right) {
            huffmanCode[root->data] = str;
        }
        generateHuffmanCode(root->left, str + "0", huffmanCode);
        generateHuffmanCode(root->right, str + "1", huffmanCode);
    }

    // 计算WPL的方法
    int calculateWPL(Node* root, int depth) {
        if (root == nullptr)
            return 0;
        if (!root->left && !root->right)
            return depth * root->freq;
        return calculateWPL(root->left, depth + 1) + calculateWPL(root->right, depth + 1);
    }

public:
    // 创建Huffman树的方法
    map<char, int> createHuffmanTree(string text) {
        map<char, int> freqMap;
        for (char ch : text) {
            freqMap[ch]++;
        }

        priority_queue<Node*, vector<Node*>, Compare> pq;
        for (auto pair : freqMap) {
            pq.push(new Node(pair.first, pair.second));
        }

        while (pq.size() != 1) {
            Node* left = pq.top(); pq.pop();
            Node* right = pq.top(); pq.pop();

            int sum = left->freq + right->freq;
            Node* newNode = new Node('\0', sum);
            newNode->left = left;
            newNode->right = right;
            pq.push(newNode);
        }

        root = pq.top();
        return freqMap;
    }

    // 生成Huffman编码的方法
    map<char, string> generateHuffmanCode() {
        map<char, string> huffmanCode;
        generateHuffmanCode(root, "", huffmanCode);
        return huffmanCode;
    }

    // 计算WPL的方法
    int calculateWPL() {
        return calculateWPL(root, 0);
    }
};

int main() {
    HuffmanTree huffmanTree;
    string text;
    string filename;
    cout << "请输入文件名:";
    cin >> filename;  // 从键盘读取文件名

    // 从文件读取字符串
    ifstream file(filename, ios::binary);
    if (file.is_open()) {
        text = string((istreambuf_iterator<char>(file)), istreambuf_iterator<char>());
        file.close();
    }
    else {
        cout << "无法打开文件" << endl;
        return 1;
    }

    // 创建Huffman树并统计每个字符出现的频率
    map<char, int> freqMap = huffmanTree.createHuffmanTree(text);
    cout << "字符频率:" << endl;
    for (auto pair : freqMap) {
        cout << pair.first << ": " << pair.second << endl;
    }

    // 输出每个字符的Huffman编码
    map<char, string> huffmanCode = huffmanTree.generateHuffmanCode();
    cout << "Huffman编码:" << endl;
    for (auto pair : huffmanCode) {
        cout << pair.first << ": " << pair.second << endl;
    }

    // 计算并输出WPL
    int wpl = huffmanTree.calculateWPL();
    cout << "WPL: " << wpl << endl;

    return 0;
}

在开发这个程序的过程中,我经历了一些挑战,这导致我需要进行多次迭代才能得到一个满足需求的版本。以下是我在这个过程中遇到的主要困难和我是如何解决它们的:

  1. 文件读取:在最初的版本中,我发现程序无法从文件中读取字符串,只能接受键盘输入。这限制了程序的灵活性,因为用户可能希望直接从文件中读取数据,而不是手动输入。
  2. 版本迭代:为了解决上述问题,我进行了第二次迭代,修改了代码以支持从文件中读取字符串。这个改进使得程序能够处理更复杂的情况,提高了其实用性。

通过这两个版本的迭代,我最终得到了一个可以从文件中读取字符串的程序。虽然这个过程中遇到了一些困难,但每一个挑战都使我有机会学习和成长,也使得最终的程序更加强大和灵活。


四、程序分析

图2 运行结果图

时空性能分析如下:

1.时间复杂度创建Huffman树的时间复杂度是O(n log n),其中n是字符的种类数。这是因为我们需要n次插入操作和n-1次删除操作,每次操作的时间复杂度都是O(log n)。生成Huffman编码和计算WPL的时间复杂度都是O(n),因为我们需要遍历整个Huffman树。

2.空间复杂度:在整个过程中,我们需要存储整个Huffman树,所以空间复杂度是O(n)。此外,我们还需要额外的空间来存储字符到频率的映射和字符到Huffman编码的映射,但这些空间的大小都是常数,所以不影响总的空间复杂度。


五、小结

在解决这个问题的过程中,我深刻地体会到了数据结构,尤其是Huffman树,在解决实际问题中的重要性。Huffman树这种特殊的二叉树结构,以其独特的优雅和高效性,给我留下了深刻的印象。通过这个挑战,我对Huffman树的构建、遍历、修改和查找等操作有了更深入的理解。

我要向我的数据结构老师,表达我最深的感谢。是她的悉心教导让我对数据结构有了深入的理解。她充满热情的教学和专业的知识激发了我对数据结构的热爱,并在我解决这个问题的过程中给予了我宝贵的指导。

此外,我要感谢数据结构这门课程。通过学习这门课程,我不仅掌握了如何更有效地组织和处理数据,还学会了如何分析和解决问题。这个过程对我产生了深远的影响,使我对计算机科学有了更深入的理解。

在解决问题的过程中,我也意识到了一些可以改进的地方。例如,我在创建Huffman树的过程中,未能充分考虑到用户可能输入无效的前序序列。未来,我将对我的代码进行改进,增加对用户输入的验证,以确保创建的Huffman树的有效性。

通过解决这个问题,我对Huffman树有了更深的理解,我的编程技能也得到了提升。在未来,我将继续深入学习和探索数据结构,以更好地应对各种实际问题。再次感谢我的数据结构老师和这门课程,让我有机会领略到数据结构的魅力!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/614933.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

在 Kubernetes 上运行 Apache Spark 进行大规模数据处理的实践

在刚刚结束的 Kubernetes Community Day 上海站&#xff0c;亚马逊云科技在云原生分论坛分享的“在 Kunernets 上运行 Apache Spark 进行大规模数据处理实践”引起了现场参与者的关注。开发者告诉我们&#xff0c;为了充分利用 Kubernetes 的高可用设计、弹性&#xff0c;在越来…

FFmpeg常用API与示例(四)——过滤器实战

1.filter 在多媒体处理中&#xff0c;filter 的意思是被编码到输出文件之前用来修改输入文件内容的一个软件工具。如&#xff1a;视频翻转&#xff0c;旋转&#xff0c;缩放等。 语法&#xff1a;[input_link_label1]… filter_nameparameters [output_link_label1]… 1、视…

凸优化理论学习二|凸函数及其相关概念

系列文章目录 凸优化理论学习一|最优化及凸集的基本概念 文章目录 系列文章目录一、凸函数&#xff08;一&#xff09;凸集&#xff08;二&#xff09;凸函数的定义及举例&#xff08;三&#xff09;凸函数的证明1、将凸函数限制在一条直线上2、判断函数是否为凸函数的一阶条件…

[每周一更]-(第96期):Rsync 用法教程:高效同步文件与目录

文章目录 一、引言二、rsync 基本概念三、介绍rsync 是什么&#xff1f;四、安装五、rsync 基本语法常见示例&#xff08;默认ssh协议&#xff09;&#xff1a; 六、常用选项1. -a 或 --archive2. -v 或 --verbose3. -z 或 --compress4. --delete5. --exclude6. --exclude-from…

VR全景技术在养老院的应用优势浅析

随着时代的快速发展&#xff0c;人口老龄化越来越严重&#xff0c;如何利用VR技术提升养老服务的质量&#xff0c;成为了社会各界关注的焦点。为养老院拍摄制作VR全景&#xff0c;不仅能够为养老院的老人子女们跨越空间限制&#xff0c;实现与家人的情感连接&#xff0c;还可以…

做题杂记666

[XYCTF2024] 铜匠 题目描述&#xff1a; from Crypto.Util.number import * from secrets import flagm bytes_to_long(flag) m1 getRandomRange(1, m) m2 getRandomRange(1, m) m3 m - m1 - m2def task1():e 149p getPrime(512)q getPrime(512)n p * qd inverse(e,…

基于fastapi sqladmin开发,实现可动态配置admin

1. 功能介绍&#xff1a; 1. 支持动态创建表、类&#xff0c;属性&#xff0c;唯一约束、外键&#xff0c;索引&#xff0c;关系&#xff0c;无需写代码&#xff0c;快速创建业务对象&#xff1b; 2. 支持配置admin显示参数&#xff0c;支持sqladmin原生参数设置&#xff0c;动…

2203-简单点-ultralytics库解析-data模块

data模块 overview布局\_\_init__.pyfrom .base import BaseDataset\_\_all__ annotator.pyaugment.pyclass BaseTransformclass Composeclass BaseMixTransformclass 未完继续 overview布局 从上往下解析 __init__.py from .base import BaseDataset __init__.py 文件在 Pyt…

nc生成临时凭证配置

nc生成临时凭证配置 要实现的功能&#xff1a; 审批时生成临时凭证弃审时删除临时凭证 前台配置 后台配置 BillReflectorServiceImpl.java package nc.pubimpl.jych.qtsq.voucher;import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; impo…

二、jacoco代码覆盖率工具

jacoco代码覆盖率工具 一、jacoco介绍二、常见的java代码覆盖率工具三、为什么选择jacoco四、jacoco的特点五、Jacoco 支持的覆盖率指标六、那些暂未支持的覆盖率指标七、jacoco技术原理八、Jacoco 下载与配置九、jacoco主要文件十、jacoco使用流程十一、jacoco单元测试实战1、…

用友畅捷通T+ keyEdit sql注入漏洞

产品介绍 畅捷通 T 是一款灵动&#xff0c;智慧&#xff0c;时尚的基于互联网时代开发的管理软件&#xff0c;主要针对中小型工贸与商贸企业&#xff0c;尤其适合有异地多组织机构&#xff08;多工厂&#xff0c;多仓库&#xff0c;多办事处&#xff0c;多经销商&#xff09;的…

记录一次接口优化的过程。接口响应时间从500s下降到5s。

记录一次接口优化的过程。接口响应时间从500s下降到5s。 接口说明&#xff1a; 该接口通过用户导入的一年内每天的厂区用电功率数据来计算用户安装储能设备后的收益情况。 用电功率数据具体为每15分钟一条&#xff0c;一年约有 12*30*24*4 34560 条。 代码循环情况为&…

旅游系统小程序基于Uniapp+FastAdmin+ThinkPHP(源码搭建/上线/运营/售后/更新)

一款基于UniappFastAdminThinkPHP开发的旅游系统&#xff0c;包含消费者端&#xff08;手机端&#xff09;、机构工作人员&#xff08;手机端&#xff09;、机构端&#xff08;PC&#xff09;、平台管理端&#xff08;PC&#xff09;。机构可以发布旅游线路、景点项目&#xff…

ASP.NET一个简单的媒体播放器的设计与实现

摘 要 本论文所描述的播放器是在Microsoft Visual Studio .NET 2003平台下利用Visual Basic.NET语言完成的。使用Visual Basic.NET提供的Windows Media Player控件以及文件处理&#xff0c;最终实现一款别致的&#xff0c;贴近用户操作习惯的媒体播放器。 该播放器实现了对WAV…

excel表格里,可以把百分号放在数字前面吗?

在有些版本里是可以的&#xff0c;这样做&#xff1a; 选中数据&#xff0c;鼠标右键&#xff0c;点击设置单元格格式&#xff0c;切换到自定义&#xff0c;在右侧栏输入%0&#xff0c;点击确定就可以了。 这样设置的好处是&#xff0c;它仍旧是数值&#xff0c;并且数值大小没…

进程间通信(二)

共享内存 当进程A和进程B有一块共享的内存空间时&#xff0c;这两个进程之间的数据交互就会变的很简单&#xff0c;只需要像读取自己内存空间中的元素一样去读取数据即可。实现共享内存进行数据交互的一般步骤&#xff1a; 创建/打开共享内存内存映射数据交换断开与共享内存的…

icap对flash的在线升级

文章目录 一、icap原语介绍&#xff08;针对 S6 系列的 ICap&#xff09;&#xff0c;之后可以拓展到A7、K7当中去二、程序1设计2.1信号结构框图2.2 icap_delay设计2.3 icap_ctrl设计&#xff08;可以当模板使用&#xff0c;之后修改关键参数即可&#xff09; 三、程序2设计四、…

C++中调用python函数(VS2017+WIN10+Anaconda虚拟环境)

1.利用VS创建C空项目 step1 文件——新建——项目 step2 Visual C—— Windows桌面——Windows桌面向导 step3 选择空项目 step4 源文件——新建项——添加 step5 Visual C——C文件&#xff08;.cpp&#xff09; 2.配置环境 Step1. 更换成Release与X64 Step2. 打开项目属性&…

巨坑啊! before-upload返回false 会执行on-remove

通过对on-remove对应参数的打印&#xff0c;发现回调中的file参数有个status&#xff0c;若是是在before-upload中就被过滤了&#xff0c;就是ready&#xff0c;若是已经上传成功了去点击删除&#xff0c;status是success&#xff0c;就他了。 onRemove(file,fileList){if(file…

探索Linux:深入理解各种指令与用法

文章目录 cp指令mv指令cat指令more指令less指令head指令tail指令与时间相关的指令date指令 cal指令find指令grep指令zip/unzip指令总结 上一个Linux文章我们介绍了大部分指令&#xff0c;这节我们将继续介绍Linux的指令和用法。 cp指令 功能&#xff1a;复制文件或者目录 语法…