算法通关村-----超大规模数据场景的问题

对20GB文件进行排序

问题描述

假设有一个20GB的文件,每行一个字符串,请说明如何对这个文件进行排序

问题分析

20GB的文件很难一次加载到内存中,可以采用分块策略,先使块内有序,在使块间有序。

实现思路

按照给定的内存要求(假定为1G),进行分块,分为20个块,我们先对每一块进行排序,可以使用快速排序等时间复杂度底的排序算法,然后进行块的合并,使块间有序,合并时,可以使用两两合并的方式,也可以借助堆,按照堆合并K个有序链表的方式使用堆合并K个有序链表进行合并。

超大文本中搜索两个单词的最短距离

问题描述

有一个超大文本,内部是由很多单词组成的,现给定两个单词word1和word2,请找出文件中这两个单词的最短距离
单词

问题分析

双重循环可以实现,但是时间复杂度过高,可以通过两个变量分别指向两个单词在遍历过程中最后出现的位置来实现,如此可在线性时间复杂度,常数空间复杂度情况下完成。

实现思路

最直接的做法就是遍历文件,依次判断遍历到的所有word1与全部word2的距离,这种方式的时间复杂度为O(n^2),为了简化操作,我们可以拼接下标与单词,并将结果存储到List中,即list=[0I,1am,2a…],合并之后查找更方便,一边遍历一边比较就可以了,但是数据量过大的话,list可能会溢出。事实上,不使用list也能够解决。我们定义两个变量index1和index2,index1用于指向当前遍历过程中word1出现的位置,index2用于指向当前遍历过程中word2出现的位置。|index1-index2|即为两个单词之间的最短距离。

问题进阶

寻找过程重复多次,每次寻找不同单词之间的最短距离

实现思路

可以使用map存储单词和所有下标,使用双指针遍历两个单词的下标列表,即可得到两个单词之间的最短距离

从10亿数字中寻找最小的100万个数字

问题描述

设计一个算法,从10亿数字中寻找最小的100万个数字,假设内存足以容纳全部的10亿个数字

问题分析

可以使用快排、选择、和堆三种方式来实现

实现思路

可以使用快速排序的方式使元素按照升序排列,然后取前100万个元素
也可以使用选择的方式,第一次找到最小的数字,第二次找到第二小的数字,以此类推,第100万次找到第100万小的数字
还可以使用大顶堆来实现,设置一个元素容量为100万的大顶堆,堆未满时,直接加入元素,堆满后,只有当当前元素小于堆顶元素时,才移除堆顶元素并加入当前元素,遍历结束后,堆中的元素即为最小的前100万个数字

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/201533.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

鸿蒙开发已成新趋势

随着华为鸿蒙操作系统的快速崭露头角,鸿蒙开发已然成为当前技术领域的热门新趋势。本文将深入探讨鸿蒙开发的重要性和独特优势,并详细介绍一些关键的鸿蒙开发技术和工具,以及它们对开发者个人和整个行业带来的深远影响。 首先,鸿蒙…

JOSEF约瑟 逆功率继电器 GG-21 5a 100v 50hz

系列型号 GG-21逆功率继电器 GG-22过载继电器 1 用途 逆功率继电器GG-21/5A/100V 在出现逆功率时,从电网中断开交流发电机。 2 概述 逆功率继电器是基于感应式原理(具有旋转磁场)而工作。 继电器导磁体由两个磁路系统组成:上磁路系统和下磁路系统…

ubuntu16.04部署gitlab-runner触发gitlab流水线

环境:ubuntu16.04 gitlab服务器:192.168.1.12 runner服务器:192.168.1.11 1.下载 环境:192.168.1.11 cd /usr/local/srcwget https://gitlab-runner-downloads.s3.amazonaws.com/latest/deb/gitlab-runner_amd64.debsudo dpkg …

2023.11.25 python常用数据集信息查看命令

2023.11.25 python常用数据集信息查看命令 在对数据集进行处理前一般需要对数据集先进行一个基本的观察,根据观察结果和经验确定处理方式。以kaggle员工离职数据集为例进行操作。 打印前5条数据 # 导入包 import pandas as pd# 读入数据 df pd.read_csv(HR_comm…

AIoT智能物联网平台技术架构参考

具体来说,AIoT平台能够实现智能终端设备之间、不同系统平台之间、不同应用场景之间的互融互通,进一步推动万物互联的进程。 AIoT智能物联网平台是结合了人工智能(AI)和物联网(IoT)技术的平台。它旨在通过物…

WS2812灯条基于WLED开源项目无门槛使用简介

WS2812灯条基于WLED开源项目无门槛使用简介 📌项目github地址:https://github.com/Aircoookie/WLED📍WLED详情地址:https://kno.wled.ge/🎈网页在线烧录固件地址:https://install.wled.me/ ✨ 仅作为使用的…

Python用itertools.product函数生成10位的0,1组合

需求:有10个指标,每个指标有0、1两种结果,生成所有可能出现的情况。解决:基于数学知识,我们很容易知道总共有组合数为2^101024种 那么使用python我们该如何用代码实现呢? python中的函数为itertools.produ…

初识向量数据库

背景 现在的数据分为20%的传统结构化数据,80%的非结构化数据 结构化数据:主要单元是数值与符号,数据类型高度抽象且易于组织。基于数值运算与关系代数,可以轻松地对结构化数据进行分析。 非结构化数据:常见的类型包括…

代理模式,dk动态代理,cglib动态代理

目录 一、代理模式1、生活中代理案例2、为什么要使用代理3、代理模式在Java中的应用4、什么是代理模式 二、代理的实现方式1、java中代理图示2、静态代理 三、动态代理1、概述2、JDK动态代理jdk动态代理原理分析 3、Cglib动态代理3.1 基本使用3.2 cglib基本原理 一、代理模式 …

常使用的定时任务

常使用的定时任务 一、 linux自带的定时任务 1、crontab 有这样一个需求:我们使用Java写一个工具jar包在系统空闲的时候去采集已经部署在Linux系统上的项目的一 些数据,可以使用 linux 系统的 crontab。 运行crontab -e,可以编辑定时器&…

ZFPlayer 播放视频的时候的视图层级

未播放的时候 首先看正常展示的时候,还没又开始播放 这个时候我们打开图层看一下,发现视频时长和播放按钮都是放在 视频封面图上的 播放的时候 我们看到的播放视频的画面 我们发现,我们之前在未播放状态看到的视图,仍然还在…

Git和Git小乌龟安装

目录 Git简介 Git安装 Git小乌龟简介 Git小乌龟安装 Git简介 Git是一个开源的分布式版本控制系统,可以有效、高速地进行从很小到非常大的项目的版本管理。它最初是由Linux Torvalds为了帮助管理Linux内核开发而开发的一个开放源码的版本控制软件。Git具有速度、…

Pikachu靶场(PHP反序列化漏洞)

查看php反序列化漏洞的概述&#xff0c;了解序列化与反序列化。 构造payload <?php class S{var $test "<script>alert(wjy)</script>"; } $c new S(); echo(serialize($c)); ?>将对象序列化为O:1:"S":1:{s:4:"test";s:…

Ubuntu上的常用软件配置

《立冬》——李白 〔唐代〕 冻笔新诗懒写&#xff0c;寒炉美酒时温。 醉看墨花月白&#xff0c;恍疑雪满前村。 对于Android开发者而言&#xff0c;折腾Android源码那是其乐无穷啊。但是有时候在Linux系统下会很不方便&#xff0c;这里特此记录一下常用的软件配置&#xff0c;希…

华为鸿蒙:安卓,拜拜了您呢!

9 月底&#xff0c;华为举办了今年的秋季全场景新品发布会&#xff0c;接近尾声的时候&#xff0c;华为终端 BG CEO 余承东突然宣布&#xff0c;鸿蒙 HarmonyOS NEXT 即将发布&#xff0c;鸿蒙原生应用全面启动。 不同于之前 HarmonyOS 基于 AOSP&#xff08;Android 开放源代…

Node——事件的监听与触发

Node.js是由事件驱动的&#xff0c;每个任务都可以当作一个事件来处理&#xff0c;本贴将对Node.js中的events模块及其中处理事件的类EventEmitter的使用进行详细讲解。 1、EventEmitter对象 在JavaScript中&#xff0c;通过事件可以处理许多用户的交互&#xff0c;比如鼠标…

C语言进阶指南(15)(函数指针的创建与使用)

*欢迎来到博主的专栏——C语言进阶指南 博主id 文章目录 函数指针函数指针的应用——回调函数函数指针数组 函数指针 函数也有地址&#xff08;函数在调用的时候会占用内存空间&#xff0c;所以函数是有地址的&#xff09;&#xff0c;因此我们也可以用一个指针指向函数 1 函数…

利用数据库的表,生成word文档的表结构注释说明

文章目录 1.场景说明2.解决办法3.生成文档3.1.实现思路3.2.引入Apache POI依赖3.3.获取表及表字段说明Mapper3.4.POI创建文档表格&#xff0c;并填充数据3.5.完整的接口下载代码3.6.效果展示 1.场景说明 在项目中表已经建立好了&#xff0c;但是现在想对外提供一个表的字段的描…

Kong处理web服务跨域

前言 好久没写文章了&#xff0c;大概有半年多了&#xff0c;这半年故事太多&#xff0c;本文写不下&#xff0c;就写写文章标题问题&#xff01; 问题描述 关于跨域的本质问题我这里不过多介绍&#xff0c;详细请看历史文章 跨域产生的原因以及常见的解决方案。 我这边是新…

连锁零售企业如何提高异地组网的稳定性?

随着数字化时代的到来&#xff0c;连锁零售企业面临着日益复杂和多样化的网络挑战。连锁零售企业是在不同地理位置拥有分支机构和零售店&#xff0c;可能同城或异地&#xff0c;需要确保各个地点之间的网络连接稳定和可靠。但由于不同地区的网络基础设施差异、网络延迟和带宽限…