外排序(C语言实现)

前言

本篇博客讲解一下外排序,看这篇排序你的先去看一下:八大经典排序算法-CSDN博客

💓 个人主页:普通young man-CSDN博客

⏩ 文章专栏:排序_普通young man的博客-CSDN博客

      若有问题 评论区见📝

🎉欢迎大家点赞👍收藏⭐文章

      

目录

快速回忆快速排序和归并排序

函数接口回顾

fscanf/fprintf/sscanf/sprintf

1. fscanf

2. fprintf

3. sscanf

4. sprintf

外排序详解

1. 内存限制

2. 提高效率与可管理性

3. 算法适用性

代码

代码中函数的作用

. 基础函数定义

2. 快速排序算法

3. 文件归并排序

注意


  在本文中,我们将深入探讨如何使用C语言实现快速排序算法,并将其应用于大文件的排序问题上,通过文件归并的方式处理大数据量的排序需求。这不仅是一个理论知识的应用,也是解决实际问题的一个实例。

快速回忆快速排序和归并排序

八大经典排序算法-CSDN博客文章浏览阅读1k次,点赞23次,收藏23次。深入探讨了八大排序算法——冒泡排序、选择排序、插入排序、希尔排序、归并排序、快速排序、堆排序、以及我们刚刚详析的计数排序之后,我们不仅掌握了一系列解决排序问题的有效策略,更深刻理解了算法设计背后的逻辑与权衡。每种算法,如同八音盒中的音符,各有其独特的旋律与应用场景,它们共同编织了计算机科学领域中关于“排序”这一基本问题的华丽乐章。数据结构-堆(带图)详解-CSDN博客。栈(Stack)是一种基本的数据结构,其特点是只允许在同一端进行插入和删除操作,这一端被称为栈顶。_排序算法https://blog.csdn.net/2302_78381559/article/details/139837523?spm=1001.2014.3001.5501这个博客有这两个排序算法的一个讲解

函数接口回顾

fscanf/fprintf/sscanf/sprintf

1. fscanf

fscanf 函数用于从指定的文件中读取数据并根据特定格式解析。它允许你按照预定义的格式从文件中读取各种类型的数据,如整数、浮点数或字符串等。

原型:

int fscanf(FILE *stream, const char *format, ...);
  • 参数:

    • stream: 指向需要读取的文件的文件指针。
    • format: 一个控制字符串,用于指定输入数据的格式。
    • ...: 可变参数列表,对应于格式字符串中定义的数据类型的地址。
  • 返回值: 成功读取并转换的项目数量,如果遇到文件结束或者读取错误则返回EOF。

2. fprintf

fprintf 函数用于将数据按照指定的格式输出到一个文件中。它与printf类似,但输出目标是文件而非标准输出。

原型:

int fprintf(FILE *stream, const char *format, ...);
  • 参数:

    • stream: 指向要写入的文件的文件指针。
    • format: 控制输出格式的字符串。
    • ...: 与格式字符串匹配的变量列表。
  • 返回值: 成功写入的字符数量,若发生错误则返回负值。

3. sscanf

sscanf 函数用于从字符串中读取数据,与fscanf类似,但它的输入源是一个字符串而不是文件。

原型:

int sscanf(const char *str, const char *format, ...);
  • 参数:

  • ...: 存储读取数据的变量地址列表。

    • format: 指定如何解析字符串的格式控制符。
    • str: 要读取的字符串。
    • 返回值: 成功读取的输入项数量。

4. sprintf

sprintf 函数用于将格式化的数据写入到一个字符串中,类似于printf,但是输出目标是一个字符数组。

原型:

int sprintf(char *str, const char *format, ...);
  • 参数:

    • str: 目标字符串的地址,写入格式化后的数据。
    • format: 格式字符串,定义输出数据的格式。
    • ...: 一系列变量,与格式字符串中的占位符对应。
  • 返回值: 写入到字符串中的字符数量,不包括结尾的空字符\0

外排序详解

我们先看一下思想:

通过这个图我们可以看到是我们先要将文件的数据分成10等份将每一个等份的文件里的数据排序,然后再将10个 文件进行归并,这样所有数据就排好了

为什么要分等份排序嘞?

1. 内存限制

最直接的原因是计算机内存的限制。对于非常大的数据集,一次性将所有数据载入内存进行排序通常是不可行的。操作系统为每个进程分配的内存空间有限,超出这个限制会导致内存溢出错误。因此,通过将大文件切分为多个小文件,可以确保每个小文件都能在内存中进行高效排序,利用快速排序等算法完成局部排序。

2. 提高效率与可管理性

  • 减少磁盘I/O操作:频繁的磁盘读写是影响程序性能的主要因素之一。将大文件分割成小文件,使得每个小文件可以较快地被读入内存进行处理,减少了整体的磁盘读写次数,提高了效率。
  • 并行处理机会:分片后的小文件可以并行排序,尤其在多核处理器或多计算机系统中,每个小文件可以由不同的处理器或机器独立处理,大大加快了排序速度。

3. 算法适用性

快速排序、归并排序等高效的排序算法在小规模数据集上表现优异,但在大规模数据集上直接应用会受到内存限制。分块排序后,每一块数据量较小,可以更好地利用这些算法的优势。


代码

#define _CRT_SECURE_NO_WARNINGS 1
#include<assert.h>
#include<stdio.h>
#include<stdlib.h>
#include<string.h>
//交换
void Swap(int* p1,int* p2) {
	int tmp = *p1;
	*p1 = *p2;
	*p2 = tmp;
}

//三数取中
int GetMidIndex(int* a,int left,int right) {
	//计算mid
	int mid = (left + right) / 2;

	//比较
	if (a[left] > a[mid])
	{
		if (a[mid] > a[right]) {
			return mid;
		}
		else if(a[left] < a[right])
		{
			return left;
		}
		else
		{
			return right;
		}
	}
	else  //a[left] < a[mid]
	{
		if (a[mid] < a[right])
		{
			return mid;
		}
		else if(a[left] > a[right])
		{
			return left;
		}
		else
		{
			return right;
		}
	}

}


//快排
void QuickSort(int* a,int left, int right) {
	assert(a);
	if (left >= right)
	{
		return;
	}
	int Midindex = GetMidIndex(a,left,right);

	Swap(&a[Midindex], &a[left]);

	//前后指针
	int prev = left;
	int cur = left+1;
	int keyi = left;

	//循环
	while (cur <= right)
	{
		if (a[keyi] > a[cur] && ++prev != cur)
			Swap(&a[cur],&a[prev]);
		++cur;
	}
	//交换prev和keyi,得出keyi
	Swap(&a[keyi], &a[prev]);

	//分治 [left-keyi-1]  keyi [keyi+1-right]
	keyi = prev;
	QuickSort(a, left, keyi - 1);
	QuickSort(a, keyi+1, right);
}

//文件归并
void _MergeSortFile(const char* file1,const char* file2,const char* mfile) {
	//打开第一个文件
	FILE* four1 = fopen(file1, "r");
	if (four1 == NULL)
	{
		assert("file1:打开文件失败\n");
	}
	//打开第二个文件
	FILE* four2 = fopen(file2, "r");
	if (four2 == NULL)
	{
		assert("file2:打开文件失败\n");
	}
	//创建归并文件
	FILE* fin = fopen(mfile, "w");
	if (fin == NULL)
	{
		assert("mfile:打开文件失败\n");
	}


	//进行归并
	int num1, num2;
	int ret1 = fscanf(four1, "%d\n", &num1);
	int ret2 = fscanf(four2, "%d\n", &num2);

	while (ret1 != EOF && ret2 != EOF)
	{
		if (num1 < num2) {
			fprintf(fin, "%d\n", num1);
			ret1 = fscanf(four1, "%d\n", &num1);
		}
		else //num1 > num2
		{
			fprintf(fin, "%d\n", num2);
			ret2 = fscanf(four2, "%d\n", &num2);
		}
	}
	//将剩余数据放进归并文件
	while (ret1 != EOF)
	{
		fprintf(fin, "%d\n", num1);
		ret1 = fscanf(four1, "%d\n", &num1);
	}
	while (ret2 != EOF)
	{
		fprintf(fin, "%d\n", num2);
		ret2 = fscanf(four2, "%d\n", &num2);
	}
	
	//关闭文件
	fclose(fin);
	fclose(four1);
	fclose(four2);
}
void MergeSortFile(const char* file) {

	//导入文件数据
	FILE* four = fopen(file, "r");
	if (four == NULL)
	{
		assert("MergeSortFile:fopen");
	}

	//定义变量
	int a[10] = {0};//分组数组
	int n = sizeof(a) / sizeof(a[0]);//分组大小
	int num = 0;//指针指向数据
	char subfile[20];//存储文件名的指针
	int filei = 1;//文件名编号
	int i = 0;//数组下标
	while (fscanf(four,"%d\n",&num) != EOF)
	{
		if (i < n-1) {
			a[i++] = num;//进入8个数据
		}
		else
		{
			a[i] = num;
			QuickSort(a, 0, n - 1);
 			sprintf(subfile,"sub\\sub_sort%d", filei++);
			//创建文件
			FILE* sub_fin =  fopen(subfile, "w");
			if (sub_fin == NULL)
			{
				assert("sub_fin:fopen");
			}
			//将数据写入文件
			for (int j = 0; j < n; j++)
			{
				fprintf(sub_fin, "%d\n", a[j]);
			}
			fclose(sub_fin);

			//初始化一些数据,方便下一次数据写入
			i = 0;
			memset(a, 0, sizeof(int)*n);
		}
	}
	
	//对十个文件进行归并操作
	char file1[100] = "sub\\sub_sort1";//第一个文件
	char file2[100] = "sub\\sub_sort2";//第二个文件
	char mfile[100] = "sub\\sub_sort12";//两个文件归并后存放的位置
	for (int k = 2; k <= n; k++)
	{
		//归并
		_MergeSortFile(file1,file2,mfile);
		//改变file1的位置到mfile
		strcpy(file1, mfile);
		//file2向后走
		sprintf(file2, "sub\\sub_sort%d", k+1);
		//改变mfile文件名,使他在下一次循环创建一个新的文件
		sprintf(mfile,"%s%d",mfile, k+1);
	}
	printf("排序成功\n");
	fclose(four);
	
}
int main()
{
	MergeSortFile("SortData.txt");
	//int arr[] = { 3,5,6,8,10,12,58,1,8,7 };
	//int sz = sizeof(arr) / sizeof(arr[0]);
	//QuickSort(arr, 0, sz - 1);
	//for (int i = 0; i < sz; i++)
	//{
	//	printf("%d ", arr[i]);
	//}
	return 0;
}

代码中函数的作用

. 基础函数定义

  • Swap:用于交换两个整型指针所指向的值。
  • GetMidIndex:实现了“三数取中”策略,用于在数组的一段范围内找出中位数的索引,以优化快速排序的性能。它通过比较数组两端和中间三个元素的值来决定返回哪个索引。

2. 快速排序算法

  • QuickSort:实现快速排序的核心逻辑。首先调用GetMidIndex选取基准元素,通过一次遍历来将数组分为两部分,一部分小于基准,另一部分大于基准,然后递归地对这两部分继续进行快速排序。此过程确保了最终数组的升序排列。

3. 文件归并排序

  • _MergeSortFile:负责两个已排序文件的归并操作。它打开两个输入文件,创建一个输出文件,然后逐行读取两个文件中的数字,比较后将较小的数字写入输出文件,直到某个文件读完。之后,将剩余文件的全部内容追加到输出文件末尾,最后关闭所有文件。
  • MergeSortFile:这是主函数,用于处理大文件的排序。它首先打开原始数据文件,然后分批读取数据到数组a中,每满一组就调用QuickSort排序,将排序后的数据写入到名为sub_sortX的小文件中。之后,通过循环调用_MergeSortFile函数,两两归并这些小文件,最终得到一个完全有序的大文件。此过程动态更新文件名,确保每次归并产生的新文件都能正确参与后续归并。

注意

大家看这儿可能会疑惑,为什么要这么写?

你们可能会想为什么我不这样写

其实这样写num会有一个吞数据行为

这个是我在小本本上写的,字比较撇哈,不过能帮大家解决疑惑就行,从这个图我们可以就看出,每一次循环我们的num都会吞掉一个数据,走十次就会吞掉十个数据,这样的话,我们就只会有9个文件

照成这个原因:

1,后置++

2,fscanf每调用一次指针都会向后走

所以改进了一下这个写法

我们先让数据进去8个,最后一个数据在排序之前放进去,就不会出现这种情况了

好了今天的博客就到这里了,希望能给大家解决到问题,哈哈哈

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/735949.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

二叉树的基础讲解

二叉树在遍历&#xff0c;查找&#xff0c;增删的效率上面都很高&#xff0c;是数据结构中很重要的&#xff0c;下面我们来基础的认识一下。(高级的本人还没学&#xff0c;下面的代码用伪代码或C语言写的)我会从树&#xff0c;树的一些专有名词&#xff0c;树的遍历&#xff0c…

【博客719】时序数据库基石:LSM Tree的增删查改

时序数据库基石&#xff1a;LSM Tree的增删查改 LSM结构 LSM树将任何的对数据操作都转化为对内存中的Memtable的一次插入。Memtable可以使用任意内存数据结构&#xff0c;如HashTable&#xff0c;BTree&#xff0c;SkipList等。对于有事务控制需要的存储系统&#xff0c;需要在…

web安全渗透测试十大常规项(一):web渗透测试之JAVA反序列化

渗透测试之PHP反序列化 1. Java反序列化1.1 Java安全-反序列化-原生序列化类函数1.1.1 原生序列化类函数:1.2 Java安全-SpringBoot框架-泄漏&CVE1. Java反序列化 1、序列化与反序列化 序列化:将内存中的对象压缩成字节流 反序列化:将字节流转化成内存中的对象2、为什么…

huggingface官网下载并处理ImageNet2012数据集

文章目录 一、下载imagenet2012数据集二、转换imagenet数据集格式 ImageNet数据集可以直接从ImageNet官方网站获取数据&#xff0c;但通常需要注册并遵守使用协议。另外&#xff0c;由于数据集较大&#xff0c;往往下载需要花费大量的时间空间&#xff0c;而通过huggingface下载…

达梦8 通过SF_INJECT_HINT解决新排序机制下失控语句影响其他SQL执行的问题

达梦数据库有两种排序机制。当SORT_FLAG设置0时&#xff0c;采用旧排序机制&#xff1b;当SORT_FLAG1时&#xff0c;采用新排序机制。详见《达梦新老排序机制的对比》 两种排序机制各有优缺点。 新排序机制引入了全局排序区概念&#xff0c;虽然避免了内存溢出导致系统OOM&am…

[数据概念|方案实操]清华数据大讲堂5-数据要素化治理的理论方法与工程实践

“ 数据要素化是资产化的重要前提和实现路径” 鼹鼠哥公众号链接在 [数据概念|方案实操]清华数据大讲堂5-数据要素化治理的理论方法与工程实践 (qq.com) 2024年6月5日&#xff0c;清华数据大讲堂第五讲开讲。 中国电子信息产业集团副总 陆志鹏 以《数据要素化治理的理论方法与…

扎克伯格2017年哈佛大学毕业典礼演讲:Mark Zuckerberg Harvard Commencement 2017

Facebook Founder Mark Zuckerberg Commencement Address | Harvard Commencement 2017 Link: https://www.youtube.com/watch?vBmYv8XGl-YU 文章目录 Facebook Founder Mark Zuckerberg Commencement Address | Harvard Commencement 2017SummarySummary of Mark Zuckerberg…

[图解]建模相关的基础知识-16

1 00:00:00,350 --> 00:00:04,130 刚才那个&#xff0c;就相当于&#xff0c;12这个我们可以认为是什么 2 00:00:05,020 --> 00:00:11,360 我们用类图来表达就是&#xff0c;员工、电话 3 00:00:13,320 --> 00:00:15,080 多个 4 00:00:15,090 --> 00:00:16,440 …

MySQL 超出月份最大日期(工作总结)

前几天帮同事修改了一个bug&#xff0c;这个bug是怎么造成的呢。先来看需求&#xff0c;系统需要统计某个月份的数据。很简单的一个需求。 同事的写的MySQL语句 SELECTREPLACE(FORMAT(sum(count_value),2), ,, ) as value,<if test"type day">count_date as…

068、PyCharm 关于Live Template模板

在 PyCharm 编辑器中&#xff0c;Live Templates 是一种功能强大的工具&#xff0c;可以帮助我们快速插入常用的代码片段或模板。 以下是在 PyCharm 中添加 Live Templates 的步骤&#xff1a; 添加 Live Templates 步骤&#xff1a; 打开 PyCharm 编辑器。 转到菜单栏中的 …

分布式,容错:10台电脑坏了2台

由10台电脑组成的分布式系统&#xff0c;随机、任意坏了2台&#xff0c;剩下的8台电脑仍然储存着全部信息&#xff0c;可以继续服务。这是怎么做到的&#xff1f; 设N台电脑&#xff0c;坏了H台&#xff0c;要保证上述性质&#xff0c;需要有冗余&#xff0c;总的存储量降低为…

三、MyBatis实践:提高持久层数据处理效率

三、MyBatis实践&#xff1a;提高持久层数据处理效率 目录 一、Mybatis简介 1.1 简介1.2 持久层框架对比1.3 快速入门&#xff08;基于Mybatis3方式&#xff09; 二、MyBatis基本使用 2.1 向SQL语句传参 2.1.1 mybatis日志输出配置2.1.2 #{}形式2.1.3 ${}形式 2.2 数据输入 2…

redis主从复制、哨兵、集群

在实际的生活环境中&#xff0c;如果只使用一个redis进行读写操作&#xff0c;那么面对庞大的访问人群是崩溃的&#xff0c;所以可以有几个redis&#xff0c;一个用来做主机&#xff0c;提供修改数据操作&#xff0c;而这个主机用来控制其他redis&#xff0c;即将更新的发送&am…

【七】【QT开发应用】跨UI发送信号,跨线程发送信号

跨UI发送信号 基本框架 新建窗口 自定义信号 跨线程发送信号 新建线程 查看线程号 完整代码 跨UI发送信号 setdialog.h #ifndef SETDIALOG_H #define SETDIALOG_H#include <QDialog>namespace Ui { class setdialog; }class setdialog : public QDialog {Q_OBJECTpub…

【Python】已解决:ModuleNotFoundError: No module named ‘paddle’

文章目录 一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项 已解决&#xff1a;ModuleNotFoundError: No module named ‘paddle’ 一、分析问题背景 在Python编程中&#xff0c;ModuleNotFoundError是一个常见的错误&#xff0c;它通常发生…

C语言的数据结构:树与二叉树(树篇)

前言 之前所学到的数据结构都是线性结构特征&#xff0c;所谓线性就是在结构上&#xff0c;将节点连接起来时&#xff0c;像一条线一样。如链表则是上一个节点包含下一个节点地址的指针&#xff0c;这样依次下去。而串、队列、栈则实现方式都依赖于链表或顺序表而实现&#xf…

Inception_V2_V3

Inception_V2_V3 CNN卷积网络的发展史 1. LetNet5(1998) 2. AlexNet(2012) 3. ZFNet(2013) 4. VGGNet(2014) 5. GoogLeNet(2014) 6. ResNet(2015) 7. DenseNet(2017) 8. EfficientNet(2019) 9. Vision Transformers(2020) 10. 自适应卷积网络(2021) 上面列出了发展到现在CNN的…

智能优化算法改进策略之局部搜索算子(三)—二次插值法

1、原理介绍 多项式是逼近函数的一种常用工具。在寻求函数极小点的区间&#xff08;即寻查区间&#xff09;上&#xff0c;我们可以利用在若干点处的函数值来构成低次插值多项式&#xff0c;用它作为求极小点的函数的近似表达式&#xff0c;并用这个多项式的极小点作为原函数极…

示例:推荐一个基于第三方开源控件库DataGridFilter封装的FilterColumnDataGrid,可以像Excel拥有列头筛选器

一、目的&#xff1a;基于第三方开源控件库DataGridFilter封装的FilterColumnDataGrid&#xff0c;可以像Excel拥有列头筛选器&#xff0c;感兴趣的可以去下方链接地址查看开源控件库地址。本控件封装的目的在于将第三方库的皮肤和样式封装到皮肤库中可统一设置样式&#xff0c…

Day 31:100334. 包含所有1的最小矩形面积Ⅰ

Leetcode 100334. 包含所有1的最小矩形面积Ⅰ 给你一个二维 **二进制 **数组 grid。请你找出一个边在水平方向和竖直方向上、面积 最小 的矩形&#xff0c;并且满足 grid 中所有的 1 都在矩形的内部。 返回这个矩形可能的 **最小 **面积。 确定首次出现 1 的第一行 top&#xf…