DS堆的实际应用(10)

文章目录

  • 前言
  • 一、堆排序
    • 建堆
    • 排序
  • 二、TopK问题
    • 原理
    • 实战
      • 创建一个有一万个数的文件
      • 读取文件并将前k个数据创建小堆
      • 用剩余的N-K个元素依次与堆顶元素来比较
      • 将前k个数据打印出来并关闭文件
    • 测试
  • 三、堆的相关习题
  • 总结


前言

  学完了堆这个数据结构的概念和特性后,我们来看看它的实际运用吧!


一、堆排序

建堆

 要学习堆排序,首先要学习堆的向下调整算法,因为要用堆排序,你首先得建堆,而建堆需要执行多次堆的向下调整算法

这是因为我们之前已经学过了,建堆时候向下调整算法时间复杂度为O(N),向上调整算法为O(NlogN)

 建堆有两种,一种是建大堆,另一种就是建小堆,假如我要升序排列,那么是要选择哪一种呢?

出人意料的是,我们选择建立大堆,这听起来很反常,但是没关系,我们后面再讲解~

 我们前面也学了,向下调整对左子树和右子树是有要求的,必须同为小堆或者同为大堆,如果我们从头开始向下调整,就显然不符合这个规律了,于是我们转换策略,从倒数第一个非叶子节点开始向下调整

至于为啥不是最后一个节点,答案是最后一个节点乃至最后一层节点都是度为0的节点,左子树右子树都是空树,也可以理解成同样类型的堆

在这里插入图片描述

//建堆
//注意i的初始值,n-1是因为对应下标要减一
//再减一除二是因为最后一个节点的父节点必是倒数第一个非叶子节点
	for (int i = (n - 1 - 1) / 2; i >= 0; i--)
	{
		AdjustDown(php->a, php->size, i);
	}

排序

建完堆后,排序的思想如下:

  1. 将堆顶数据与堆的最后一个数据交换,然后对根位置进行一次堆的向下调整,但是调整时被交换到最后的那个最大的数不参与向下调整
  2. 完成步骤1后,这棵树除最后一个数之外,其余数又成一个大堆,然后又将堆顶数据与堆的最后一个数据交换,这样一来,第二大的数就被放到了倒数第二个位置上,然后该数又不参与堆的向下调整…反复执行下去,直到堆中只有一个数据时便结束。此时该序列就是一个升序

这个时候,你可能就能理解为什么升序建堆的时候使用的是大堆而不是小堆了,因为如果使用小堆,那么虽然第一个数是最小值,但是剩下的 n - 1 个数堆的结构被破坏了,得重新建堆,再选出次小,依次直到选出最大的那个数,屡次建堆带来的大量消耗是我们接受不了的

//升序 大堆
void HeapSort(int arr[], int size)
{
	assert(arr);
	//1.建堆 向上调整 O(N*logN)
	//for (int i = 1; i < size; i++)
	//{
	//	AdjustUp(arr, i);
	//}
	
	//1.向下调整建堆 O(N)
	//从第一个非叶子结点开始向下调整,一直到根
	for (int i = (size - 1 - 1) / 2; i >= 0; i--)
	{
		AdjustDown(arr, size, i);
	}
	
	//2.向下调整 O(N*logN)
	int end = size - 1;//记录堆的最后一个数据的下标
	while (end > 0)
	{
		Swap(&arr[0], &arr[end]);//将堆顶的数据和堆的最后一个数据交换
		AdjustDown(arr, end, 0);//对根进行一次向下调整
		end--;//堆的最后一个数据的下标减一
	}
}

二、TopK问题

原理

TOP-K问题:即求数据中前K个最大的元素或者最小的元素,一般情况下数据量都比较大

比如:专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等

对于Top-K问题,能想到的最简单直接的方式就是排序,但是,如果数据量非常大,排序就不太可取了(可能数据都不能一下子全部加载到内存中,内存不足的问题)。最佳的方式就是用堆来解决,基本思路如下:

  1. 用数据集合中前K个元素来建堆:
  • 前k个最大的元素,则建小堆
  • 前k个最小的元素,则建大堆
  1. 用剩余的N-K个元素依次与堆顶元素来比较,不满足则替换堆顶元素

经过上述两步后,此时堆中剩余的K个元素就是所求的前K个最小或者最大的元素

其实这里思路跟堆排序大差不差,主要就是利用堆顶的特性,如果需要找出最大值,那么在小堆(都是很大的值)中堆顶就相当于门槛,至少需要被最大中的最小要大才有资格进来,然后重新筛选出来新的最小值当保安

实战

假设我们现在要找出一千万个随机数中的前k个最大的数,数据太大,内存有限,我们先考虑第一步

创建一个有一万个数的文件

 先来回顾一下以下文件函数:

//文件打开
FILE * fopen ( const char * filename, const char * mode );//前面参数为文件名 后面参数为文件打开方式
//文件关闭
int fclose ( FILE * stream );
int fprintf ( FILE * stream, const char * format, ... );//将后面函数写入的信息写入stream
int fscanf ( FILE * stream, const char * format, ... );//将stream的信息写入后面的函数

 随机数的范围为0-32767。最多只有32768个,远小于一千万,为了减少随机数的重复,我们需要将随机数加上一个数,又因为单纯的使用srand不是真正的随机数,我们还需要加上time时间戳

//1.创造随机数到文件中
void CreateNDate()
{
	int n = 10000000;
	srand((unsigned int)time(NULL));
	FILE* pf = fopen("data.txt", "w");//以写的方式打开文件
	if (pf == NULL)
	{
		perror("fopen fail");
		return;
	}
	for (int i = 0; i < n; i++)
	{
		//rand随机数有限制 只有几万个 所以+i
		int x = (rand() + i) % 10000000;
		fprintf(pf, "%d\n", x);//将数据写入文件中
	}
	fclose(pf);//关闭文件
	pf = NULL;//手动置空
}

读取文件并将前k个数据创建小堆

int* minheap = (int*)malloc(sizeof(int) * k);
if (minheap == NULL)
{
	perror("malloc fail");
	return;
}
//1.读取文件前k个建小堆 
for (int i = 0; i < k; i++)
{
	fscanf(pf, "%d", &minheap[i]);
	AdjustUp(minheap, i);
}

用剩余的N-K个元素依次与堆顶元素来比较

//2.读取文件的数据与堆顶数据进行比较 如果大则 向下调整
int x = 0;
while (fscanf(pf, "%d", &x) != EOF)
{
	if (x > minheap[0])
	{
		minheap[0] = x;
		AdjustDown(minheap, k, 0);
	}
}

将前k个数据打印出来并关闭文件

//注意这里前k个数据并不一定成排序
//但是可以肯定这是所有N个数中最大的k个数
//minheap[0]又是这k个数中最小的一个
for (int i = 0; i < k; i++)
{
	printf("%d ", minheap[i]);
}
free(minheap);
fclose(pf);
pf = NULL;

测试

在这里插入图片描述
 虽然我们打印出了前k大值,那我们怎么知道这个算法就是对的呢?

答案是保留原文件,修改原文件的随便一个数,使其刚好等于一千万(因为之前的数最后都会模上一千万,因此原文件中不会有数超过一千万),看下打印出来的数是否会有变化
在这里插入图片描述

此处如果需要升序或者降序打印,进行一个排序算法即可TopK方法的时间复杂度为O(NlogK)

三、堆的相关习题

一、
在这里插入图片描述
二、
在这里插入图片描述


总结

  又要开始新的篇章喽~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/893087.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

DVWA | Files Upload(文件上传)通关笔记

概念 **文件上传漏洞**是网络安全中常见的漏洞之一&#xff0c;攻击者可以利用该漏洞上传恶意文件&#xff0c;进而在服务器上执行恶意代码、绕过权限验证或获取敏感数据。文件上传漏洞主要发生在允许用户上传文件的Web应用程序中&#xff0c;比如图像、文档上传功能等。 ###…

dayjs日期格式化,开发uniapp或unicloud前后端进行时间格式转换

一、 为什么要用日期格式化 因为在开发项目过程中&#xff0c;会遇到各种各样的日期格式&#xff0c;有的显示完整的年-月-日 时:分:秒&#xff0c;而有的场景就只显示月-日等格式&#xff0c;还有就是显示当前时间和注册时间的间隔时长等&#xff0c;场景非常多&#xff0c;如…

学习 Flutter 的最佳路线图

学习 Flutter 的最佳路线图 视频 https://youtu.be/IpKXVq9lP_4 https://www.bilibili.com/video/BV1J92uYDEit/ 前言 原文 Flutter 开发者必看&#xff1a;全面的学习路线图 本文借鉴了 roadmap 的思路&#xff0c;为大家介绍如何有效学习 Flutter。 该路线图提供了从零开…

MySQL-DQL练习题

文章目录 简介初始化表练习题 简介 本节简介: 主要是一些给出一些习题, 关于DQL查询相关的, DQL查询语句是最重要的SQL语句, 功能性最复杂, 功能也最强, 所以本节建议适合以及有了DQL查询基础的食用, 另外注意我们使用的是Navicat, SQL编辑的格式规范也是Navicat指定的默认格式…

uni-app uni.setTabBarBadge 不生效

‘text’属性&#xff0c;类型必须是字符串&#xff0c;而接口返回的是数值&#xff0c;没有注意到&#xff0c;所以怎么都不生效&#xff0c;也不会有报错&#xff01;

基于一个python库tencent的API接口开发有趣应用

这篇博客给大家介绍一个python库 tencent (https://pypi.org/project/tencent/) 以及对应三方API的开发流程&#xff0c;以公众号后台通过服务器接入自动系统回复为例。基于微信公众号后台开发自动回复&#xff0c;或者利用多模态信息回复用户输入&#xff0c;需要自己有独立服…

python爬虫实战案例——从移动端接口抓取微博评论,采用cookie登陆,数据存入excel表格,超详细(15)

文章目录 1、任务目标2、网页分析3、代码编写3.1 代码分析3.2 完整代码1、任务目标 1、目标网站:微博文章(https://m.weibo.cn/detail/4813628149072458),这是微博某一篇博文,用于本文测试 2、要求:爬取该博文下,所有一级评论和二级评论,以及每条评论的作者,最后保存至E…

【Kafka】Kafka源码解析之producer过程解读

从本篇开始 打算用三篇文章 分别介绍下Producer生产消费&#xff0c;Consumer消费消息 以及Spring是如何集成Kafka 三部分&#xff0c;致于对于Broker的源码解析&#xff0c;因为是scala语言写的&#xff0c;暂时不打算进行学习分享。 总体介绍 clients : 保存的是Kafka客户端…

Docker新手必看:快速安装和配置BookStack在线文档系统

文章目录 前言1. 安装Docker2. Docker镜像源添加方法3. 创建并启动BookStack容器4. 登录与简单使用5. 公网远程访问本地BookStack5.1 内网穿透工具安装5.2 创建远程连接公网地址5.3 使用固定公网地址远程访问 前言 本文主要介绍如何在Linux系统使用Docker本地部署在线文档管理…

基于SSM医药垃圾分类管理系统【附源码】

基于SSM医药垃圾分类管理系统 效果如下&#xff1a; 系统登录界面 管理员主界面 公告信息管理界面 垃圾分类管理界面 医院垃圾信息管理界面 用户主界面 留言反馈管理界面 研究背景 随着科学技术发展&#xff0c;计算机已成为人们生活中必不可少的生活办公工具&#xff0c;在…

Java语言-抽象类

目录 1.抽象类概念 2.抽象类语法 3.抽象类特性 4.抽象类作用 1.抽象类概念 在面向对象的概念中&#xff0c;所有的对象都是通过类来描绘的&#xff0c;但是反过来&#xff0c;并不是所有的类都是用来描绘对象的&#xff0c; 如果 一个类中没有包含足够的信息来描绘一个具体…

初阶数据结构【2】--顺序表(详细且通俗易懂,不看一下吗?)

本章概述 线性表顺序表顺序表问题与思考彩蛋时刻&#xff01;&#xff01;&#xff01; 线性表 概念&#xff1a;一些在逻辑上成线性关系的数据结构的集合。线性表在逻辑上一定成线性结构&#xff0c;在物理层面上不一定成线性结构。常见的线性表&#xff1a;顺序表&#xff0…

ICT产业新征程:深度融合与高质量发展

在信息时代的浪潮中&#xff0c;每一场关于技术革新与产业融合的盛会都闪耀着智慧的光芒&#xff0c;引领着未来的方向。9月25日&#xff0c;北京国家会议中心内&#xff0c;一场聚焦全球信息通信业的顶级盛事——第32届“国际信息通信展”&#xff08;PT展&#xff09;隆重拉开…

C++新手入门指南:从基础概念到实践之路

C 继承了 C 语言的高效性和灵活性&#xff0c;同时新增了面向对象编程的特点。这使得 C 既可以进行底层系统编程&#xff0c;又能进行面向对象的软件设计。在面向对象编程方面&#xff0c;C 支持封装、继承和多态三大特性。 &#x1f4af;C 初印象 语言的发展就像是练功打怪…

【Docker】Docker基本操作

目录 一、了解云计算背景 1.1 云计算的三种服务模式 1.2 虚拟机的两种架构 二、Docker 概述 2.1 Docker简述 2.2 Docker 特点 2.3 Docker与虚拟机的区别 2.4 容器技术有哪些 2.4.1 namespace的六项隔离 2.5 Docker核心概念 2.5.1 镜像 2.5.2 容器 2.5.3 仓库 三、…

吴恩达深度学习笔记(6)

正交化 为了提高算法准确率&#xff0c;我们想到的方法 收集更多的训练数据增强样本多样性使用梯度下降将算法使算法训练时间更长换一种优化算法更复杂或者更简单的神经网络利用dropout 或者L2正则化改变网络框架更换激活函数改变隐藏单元个数 为了使有监督机制的学习系统良…

笔试强训10.17

//法一&#xff1a;中点扩散 //法二&#xff1a;动态规划 //法三&#xff1a;hash二分 #include<bits/stdc.h> using namespace std; typedef unsigned long long ull; const int N1e610; const int base131; ull hr[2*N],hl[2*N],p[2*N];//超过ull自动取余 char s[N*2];…

如何优化批处理策略,最大限度地“压榨”GPU性能

新手数据科学家和机器学习工程师常常会问一个关键问题&#xff1a;如何判断他们的深度学习训练过程是否在正常运行&#xff1f;在本文中&#xff0c;我们将学习如何诊断和优化深度学习的性能问题&#xff0c;不论是在单台机器还是多台机器上进行训练。通过这些方法&#xff0c;…

uniapp onPageScroll

子组件有onPageScroll, 首页也要引入onPageScroll, eg: 主页面 sell/detail/index 《子组件》 <script setup> 引入onPageScroll </script> 组件&#xff1a; 引入onPageScroll 别人的比较

阿里 C++面试,算法题没做出来,,,

我本人是非科班学 C 后端和嵌入式的。在我面试的过程中&#xff0c;竟然得到了阿里​ C 研发工程师的面试机会。因为&#xff0c;阿里主要是用 Java 比较多&#xff0c;C 的岗位比较少​&#xff0c;所以感觉这个机会还是挺难得的。 阿里 C 研发工程师面试考了我一道类似于快速…