Lab1 论文 MapReduce

目录

🌹前言

🦅2  Programming Model

🌼2.1  Example

🌼2.2  Types

🌼2.3  More Examples

🦅3  Implementation(实现)

🌼3.1 ~ 3.3

🌼3.4 ~ 3.6

🦅4  Refinements(改进)

🌼4.1 ~ 4.5

🌼4.6 ~ 4.9

🦅5 Performance

🦅6 Experience


🌹前言

介绍:nil.csail.mit.edu/6.824/2021/notes/l01.txt

论文:rfeet.qrk (mit.edu)

视频:Lecture 1: Introduction (youtube.com)

中文视频:Lecture 1- Introduction_哔哩哔哩_bilibili

付费视频:simviso-开源分享,传播知识 (simtoco.com)

作业提交:6.824 Lab 1: MapReduce (mit.edu)

先看论文,再看视频,最后做实验

🦅2  Programming Model

🌼2.1  Example

0)伪代码

1)map

// MapReduce 库中的 Map 函数
void map(const string& key, const string& value) {
    // key: document name
    // value: document content
    // ("document1", "hello world hello")
    istringstream iss(value); // 字符串流, 从文本提取单词
    string word;

    while (iss >> word)
        // 输出键值对
        cout << "EmitIntermediate(" 
             << word << ", \"1\")" << endl;
}
EmitIntermediate(hello, "1")
EmitIntermediate(world, "1")
EmitIntermediate(hello, "1")

2)reduce

// MapReduce 库中的 Reduce 函数
void reduce(const string& key, const vector<string>& values) {
    // key: a word
    // value: a list of counts
    // ("hello", {"1", "1"})
    int result = 0; // 单词出现次数

    for (size_t i = 0; i < values.size(); ++i)
        // atoi("..."): "+211" --> 211
        // 字符串转 int
        // c_str 转 C风格字符串
        result += atoi(values[i].c_str());
    
    // 模拟发出最终结果
    cout << "Emit(" << key << ", " << result << ")" << endl;
}
Emit(hello, 2)

🌼2.2  Types

输入的键 / 值(原始数据集) && 输出的键 / 值 ———— 不同域

中间的键 / 值(Map处理后生成) && 输出的键 / 值(Reduce处理后) ———— 相同域

"document1", "hello world hello" // 输入的键/值

"hello", "1" // 中间的键/值
"world", "1" 
"hello", "1"

"hello", "2" // 输出的键/值

Map函数:处理输入数据,生成中间键值对。中间键值对被 MapReduce框架收集并排序,传递给 Reduce 函数

Reduce函数:接受中间键值对,以及与之关联的的中间值列表,然后对这些值进行聚合操作,生成输出键值对

上述结构,允许 MapReduce 框架处理大规模数据集,通过分布式并行处理数据,提高数据处理效率和可扩展性

总而言之,字符串传递给用户所定义的函数,用户所定义的函数负责将字符串转化成合适的类型

🌼2.3  More Examples

1)用户程序 User Program:启动 MapReduce 的程序,定义了 Map 和 Reduce 函数。

2)主节点 Master:将输入数据拆分成多个片段(splits),并将这些 splits 分配给不同的工作节点(workers)。

3)工作节点 workers:实际数据处理的节点。分两种,执行 Map 函数 || 执行 Reduce 函数。每个工作节点从主节点接受任务,并在本地执行

4)输入文件 Input files:存储在分布式系统 GFS。

5)Map 阶段 Map phase:workers 执行 Map 函数,根据输入数据生成中间键值对(Intermediate key/value pairs)。中间键值对会被写入本地磁盘,并按键(key)分区

6)本地写入 Local write:Map 工作节点将中间数据写入本地磁盘。

7)远程读取 Remote read:Reduce 工作节点通过网络从 Map 工作节点的本地磁盘中读取中间数据。

8)Reduce 阶段:Reduce 工作节点执行 Reduce 函数,处理相同键的所有值,并将结果写入输出文件。

🦅3  Implementation(实现)

🌼3.1 ~ 3.3

3.1 Execution Overview 

1,对中间数据排序,是为了让所有具有相同键的值都被聚合到一起。

2,workers 和 Master 都是用户程序启动的多个副本。

3,Map函数产生的中间键/值对在内存中缓冲,这些 缓冲对 在本地磁盘上的位置被传回给主节点,主节点负责将这些位置转发给Reduce工作者

4,当所有的Map任务和Reduce任务都完成后,主节点唤醒用户程序

3.2 Master Data Structures 

1,主节点维护着多个数据结构。对于每个Map任务和Reduce任务,它存储着状态(空闲、进行中或已完成) 

2,主节点是中间文件区域位置从 Map 任务传播到 Reduce 任务的渠道

3,因此,对于每个完成的 Map 任务,主节点存储着该 Map 任务产生的 R 个中间文件的位置和大小

随着 Map 任务的完成,这些位置和大小信息会更新。这些信息会逐渐推送给正在进行Reduce任务的工作者。

3.3 Fault Tolerance

工作者故障:

(1)主节点定期对每个工作者进行 ping 操作。如果在一定时间内没有收到工作者的响应,主节点将该工作者标记为失败

(2)由该工作者完成的任何 Map 任务都会重置回它们的初始空闲状态,因此有资格在其他工作者上调度。

(3)类似地,任何在失败的工作者上进行中的Map任务或Reduce任务也会被重置为空闲,并有资格重新调度。

(4)由于完成的Map任务的输出存储在失败机器的本地磁盘上,因此无法访问,所以失败时需要重新执行。由于完成的Reduce任务的输出存储在全局文件系统中,因此不需要重新执行。 

(5)主节点需要定期写入 checkpoints,以便它 dead 后,可以恢复到最后一个 checkpoint 的状态

Semantics in the Presence of Failures
故障下的语义👇

1,确定性函数和输出一致性

MapReduce 中 Map函数 和 Reduce函数是确定的话,意味着,相同的输入,总是产生相同的输出

那么,无论是否发生故障,最终的输出都一样

2,原子提交和临时文件

(1)“原子”:操作要么完全完成,要么不发生,不会处于中间状态。

(2)MapRedeuce中,以原子提交的方式来保存任务的输出👇

任务的输出数据,首先被写入一个临时文件,然后一次性将该临时文件重命名为最终输出文件

这个重命名操作是原子的(确保的输出文件要么完全不可见,要么完全可见,不会出现输出文件部分更新的情况)

(3) MapReduce 中,每个任务的输出受限被写入一个临时文件(类似草稿纸),在任务完成得最终输出之前,现在 “草稿纸” 打草稿,可以防止数据丢失。

🌼3.4 ~ 3.6

3.4 本地性(Locality):

1)MapReduce 利用 GFS(Goole File System)系统存储数据。

2)GFS系统将大文件切分成一小块一小块,每块约 64 MB 大小,并且会在不同机器上保存这些数据块的副本

3)任务开始时,主节点优先将任务分配给 已经存储了数据块 的机器,如果没有已经存储的数据块的机器,主节点就会将任务优先分配给, 离数据块存储位置比较近 的机器。

4)👆得益于上述策略,数据一般在本地机器读取,所以不需要通过网络来 传输数据 ,节省了网络带宽。

5)本地性,即,尽可能利用本地资源来处理数据,以减少对网络带宽的需求,提高数据处理效率。

3.5 任务粒度(Task Granularity)

MapReduce 中任务粒度,由两个参数决定

任务粒度过大 -- 某些机器很快完成任务变空闲,而其他机器还在忙碌,造成资源浪费

任务粒度过小 --

a. 任务分配更均匀,提高整体效率

b. 某台机器失败后,任务粒度较小,处理的任务量较小,所以可以迅速在其他机器重启

c. 可能导致任务调度开销增加

3.6 备份任务(Backup Tasks):

1)分布式计算环境中,由于 机器故障,资源竞争等原因,某些任务执行非常慢,这些执行缓慢的任务称为 “落后者”。

2)所以 MapReduce 引入了备份任务机制。

3)功能:

a. 识别落后者:执行时间超出平均时间,确定为 “落后者”

b. 调度备份任务:一旦识别出 “落后者”,主节点为 “落后者” 进行备份(除了原本正在执行的任务,相同的任务会在另一台机器执行)

c. 资源利用:开销不大,1000台机器,只需额外的几台机器执行备份

d. 任务完成:原始 OR 备份任务,一个完成 == 完成

e. 👆以上机制,显著减少了 “落后者” 导致的整个任务的拖延,使得大型 MapReduce 操作完成时间减少到 50%

f. 容错性:备份任务的存在,避免了单点故障导致的完全失败

🦅4  Refinements(改进)

🌼4.1 ~ 4.5

4.1  Partitioning Function(分区函数)

1)分区函数:

用来决定如何将 Map 阶段产生的 中间键值对(Intermediate key/value pairs) 分配给不同的 Reduce 任务。

这个过程称为 分区(Partitioning)(将大量数据切分成更小的块,以便并行处理)

2)作用:

a. 负载均衡:使得 Reduce 任务获得大致相同数量的数据,从而避免某些任务过载而其他任务空闲的情况。

b. 数据局部性:合理的分区策略,使得数据在 物理上 更接近于处理它的任务,减少数据在网络中的传输。

3)默认分区函数:

默认分区函数基于哈希。

比如,使用 hash(key) mod R 策略,hash(key) 是键的哈希值,R 是Reduce任务的数量

4.3 Combiner Function

reduce函数的输出被写入最终的输出文件

combiner函数的输出被写入一个中间文件,该文件将被发送到reduce任务

4.4 Input and Output Types

  • 支持多种格式
    MapReduce库支持多种输入数据格式,例如“文本”模式,其中每行作为一个键/值对,键是文件中的偏移量,值是行的内容
  • 输入分割
    每种输入类型知道如何将自己分割成有意义的范围,以便作为单独的Map任务处理,例如文本模式确保仅在行边界分割

4.5 Side-effects

1)确定性:任务的输出只和它的输入有关,和执行顺序和外部环境无关

2)原子性:先将所有数据写入临时文件,成功后,原子性的将临时文件命名为最终输出文件,保证任务过程不会留下损坏的文件

3)幂等性:任务重新执行(多次执行),输出文件一致

🌼4.6 ~ 4.9

4.6 Skipping Bad Records

1)MapReduce库检测哪些记录导致确定性崩溃,并跳过这些记录以取得进展

2)每个工作进程安装了一个信号处理程序,用于捕获段错误和总线错误

3)Map或Reduce操作之前,MapReduce库将参数的序列号存储在全局变量
4)用户代码生成信号,信号处理程序,发送一个包含序列号的“临终”UDP数据包,到MapReduce 主节点

5)主节点记录多次失败后,下次 Map 或 Reduce 任务就会跳过该节点

4.7 Local Execution 

1)Map 或 Reduce 函数很难调试,因为分布式通常有几千台机器

2)所以我们通过一个特殊标志,可以直接使用 gdb 等调试/测试工具

4.8 Status Information 

1)主节点运行一个HTTP服务器,导出一组页面让用户使用

2)页面显示:已完成任务,进行中任务,输入字节数,中间数据字节数,输出字节数,处理速率等信息(以便增加资源 或 优化代码)

3)还显示了:失败工作节点,失败时执行的任务(以便调试代码)

4.9 Counters

1)创建计数器对象,用于统计各种事件的发生次数

2)各个工作节点上的计数器值会定期发送回主节点,并由主节点聚合这些值,避免重复计数,并在作业完成后返回给用户代码

// 声明一个计数器对象指向uppercase
Counter* uppercase; 
// 通过GetCounter函数获取名为"uppercase"的计数器
uppercase = GetCounter("uppercase");
// 定义Map函数处理输入
map(String name, String contents): 
    // 遍历输入内容中的每个单词
    for each word w in contents: 
        // 如果单词是大写开头的
        if (IsCapitalized(w)): 
            // 对应的计数器increment操作,增加计数
            uppercase->Increment(); 
            // 调用EmitIntermediate函数,发出中间键值对
        EmitIntermediate(w, "1");

🦅5 Performance

 (1)

排序 sort 任务需要将中间输出写入本地磁盘是因为Map任务生成的数据量很大,需要在本地磁盘上进行聚合和排序,以便于后续的Reduce任务处理

(2)

而 grep 任务由于其输出数据量小,可以直接在内存中处理或通过网络传输给Reduce任务,无需额外的磁盘I/O操作

(3)

备份是为了解决“落后者”(主节点识别“落后者”,并为它备份--相同任务在另一台机器执行,避免了单点故障导致的完全失败)

(4)

备份后,即使在有意引入机器故障的情况下,MapReduce程序也能够有效地恢复并完成执行,Figure 3(c)就是,即使 kill 了 200 个进程,重新执行这些 Map 任务也很快,只比正常执行时间多了 5%

🦅6 Experience

(1)应用领域

  • 大规模机器学习问题
  • Google新闻和Froogle产品的数据聚类问题
  • 提取用于生成热门查询报告(例如Google Zeitgeist)的数据
  • 提取新实验和产品使用的网页属性(例如从大量网页语料库中提取地理位置以进行本地化搜索)
  • 大规模图计算

(2)成果

MapReduce之所以如此成功,是因为它允许开发人员在半小时内在一千台机器上简单编写并高效运行程序,大大加快了开发和原型设计周期

(3)大规模索引Large-Scale Indexing

        a. 因为处理容错、分布和并行化的代码隐藏在 MapReduce 库中,当使用MapReduce表达时,从 3800 行的 C++ 代码减少到 700 行

        b. 大多数由机器故障、慢机器和网络问题引起的问题都由MapReduce库自动处理,无需操作员干预,极大提高了索引过程的性能

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/787120.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java-Redis-Clickhouse-Jenkins-MybatisPlus-Zookeeper-vscode-Docker-jdbc-xxljob

文章目录 Clickhouse基础实操windows docker desktop 下载clickhousespringboot项目配置clickhouse Redis谈下你对Redis的了解&#xff1f;Redis一般都有哪些使用的场景&#xff1f;Redis有哪些常见的功能&#xff1f;Redis支持的数据类型有哪些&#xff1f;Redis为什么这么快…

爬虫怎么实现抓取的

1.4爬虫工程师常用的库通过图1-3我们了解到&#xff0c;爬虫程序的完整链条包括整理需求、分析目标、发出网络请求、文本解析、数据入库和数据出库。其中与代码紧密相关的有&#xff1a;发出网络请求、文本解析、数据入库和数据出库&#xff0c;接下来我们将学习不同阶段中爬虫…

Proxmox VE 8虚拟机直通USB磁盘

作者&#xff1a;田逸&#xff08;fromyz&#xff09; 今天有个兄弟发消息&#xff0c;咨询怎么让插在服务器上的U盾被Proxmox VE上的虚拟机识别。在很久很久以前&#xff0c;我尝试过在Proxmox VE 5以前的版本创建windows虚拟机&#xff0c;并把插在Proxmox VE宿主机上的银行U…

[ TOOLS ] JFLASH 使用说明

一、使用everything查找JFLASH everything是指这个软件&#xff0c;使用这个方便查找想要的文件 二、创建一个工程并配置 创建完后进行配置&#xff1a; Target devic: 板子的芯片型号&#xff0c;比如R7FA6M4Target interface: 一般是SWDSpeed: 一般是4000kHz, 不能下载则将Sp…

快速将一个网址打包成一个exe可执行文件

一、电脑需要node环境 如果没有下面有安装教程&#xff1a; node.js安装及环境配置超详细教程【Windows系统安装包方式】 https://blog.csdn.net/weixin_44893902/article/details/121788104 我的版本是v16.13.1 二、安装nativefier 这是一个GitHub上的开源项目&#xff1a…

ROS2 分布式 及 ssh远程控制 和 上传下载文件或文件夹

问题1. 多台计算机连接同一wifi后 &#xff0c;运行ROS2的小乌龟案例&#xff0c;自己的计算机&#xff0c;无法控制其他电脑的小乌龟 按照正常的情况来说&#xff0c;ROS2是DDS的自发现通信机制&#xff0c;只要处在同一wifi网络中&#xff0c; A计算机执行启动小乌龟的命…

PHP验证日本免费电话号码格式

首先&#xff0c;您需要了解免费电话号码的格式。 日本免费电话也就那么几个号段&#xff1a;0120、0990、0180、0570、0800等开头的&#xff0c;0800稍微特殊点&#xff0c;在手机号里面有080 开头&#xff0c;但是后面不一样了。 关于免费电话号码的划分&#xff0c;全部写…

2024-07-09 Linux 使用gpio-keyboard标准方式获取按键事件实例代码

一、kernel dts 配置修改&#xff1a; diff --git a/sysdrv/source/kernel/arch/arm/boot/dts/rv1106g-evb1-v11.dts b/sysdrv/source/kernel/arch/arm/boot/dts/rv1106g-evb1-v11.dts index d0d059a3b..584f3a00a 100755 --- a/sysdrv/source/kernel/arch/arm/boot/dts/rv110…

【效率提升】多功能组织和整理软件一Notion

Notion下载地址&#xff1a;https://www.notion.so/desktop Notion 是一款多功能办公软件&#xff0c;非常适合进行知识整理、团队协作、项目整理等。 下面是几个我推荐Notion的关键点&#xff1a; 一、排版高度自由&#xff1a;Notion的页面可以嵌套&#xff0c;在页面中还支…

关于腾讯的那些事(6月新闻纪要)

祝贺&#xff01;深圳市科技进步一等奖 这份文件是关于腾讯云数据库TDSQL获得深圳市科技进步一等奖的详细报道。以下是详细总结分析&#xff1a; 获奖荣誉&#xff1a; 腾讯云数据库TDSQL荣获2022年深圳市科技进步一等奖&#xff0c;成为唯一入选的数据库产品。该奖项由深圳市…

213.贪心算法:跳跃游戏||(力扣)

class Solution { public:int jump(vector<int>& nums) {if (nums.size() 1) return 0; // 如果数组长度为1&#xff0c;已经在终点&#xff0c;不需要跳跃int cur 0; // 当前跳跃能到达的最远位置int flag 0; // 记录跳跃次数int next 0; // 下一次跳跃能到…

JavaScript 闭包

目录 一、前言 二、JavaScript 变量作用域 1、变量作用域 2、如何从函数外部访问内部变量 三、JavaScript 闭包 1、闭包的定义 2、闭包的组成 3、实例说明 四、闭包的优缺点 1、优点 2、缺点 五、一个有趣的实例&#xff08;定时器与闭包&#xff09; 一、前言 先…

OpenCV对图片中的水果进行识别计算其面积长度等

本项目所用到的技术有&#xff1a; OpenCV Python的一些库&#xff1a;sys,openpyxl,numpy,PyQt5,PIL 本文可以做一些课程设计的项目 本文为作者原创&#xff0c;转载请注明出处&#xff0c;如果需要完整的代码&#xff0c;可以关注我私信 上面是用到的样例图片&#xff0c;一张…

如何在OpenFOAM的案例文件夹中确定数据的点和面,确定点和网格之间的关系,从而用于深度学习预测和构建模型呢(分析数据格式及其含义)

在OpenFOAM中&#xff0c;点&#xff08;points&#xff09;和面&#xff08;faces&#xff09;的定义是通过不同的文件来进行的。在案例一级目录下面的constant/polyMesh目录下&#xff0c;会有points, faces, owner, neighbour等文件&#xff0c;来描述网格的几何和拓扑结构。…

最新深度技术Win7精简版系统:免费下载!

在Win7电脑操作中&#xff0c;用户想要给电脑安装上深度技术Win7精简版系统&#xff0c;但不知道去哪里才能找到该系统版本&#xff1f;接下来系统之家小编给大家带来了深度技术Win7系统精简版本的下载地址&#xff0c;方便大家点击下载安装。系统安装步骤已简化&#xff0c;新…

数据解读加密世界的重新定位:全球流动性困境下的转型之痛

全球每一天将会产生50亿次以上的搜索&#xff0c;每一天有491EB的数据出现在我们的生活中&#xff0c;如果这些数据量全部以Email的形式展现&#xff0c;那相当于1个人1天需要处理36亿封电子邮件。随着区块链技术的不断发展&#xff0c;从链下到链上&#xff0c;链上数据构建的…

SVM - 径向基函数核 Radial Basis Function Kernel,简称RBF核或者高斯核

SVM - 径向基函数核 Radial Basis Function Kernel&#xff0c;简称RBF核或者高斯核 flyfish 径向基函数核&#xff08;Radial Basis Function Kernel&#xff0c;简称RBF核&#xff09;&#xff0c;也称为高斯核&#xff0c;是一种常用的核函数&#xff0c;用于支持向量机&a…

百度文心4.0 Turbo开放,领跑国内AI大模型赛道!

百度文心4.0 Turbo开放&#xff0c;领跑国内AI大模型赛道&#xff01; 前言 文心一言大模型 就在7月5日&#xff0c;在2024世界人工智能大会 (WAIC) 上&#xff0c;百度副总裁谢广军宣布文心大模型4.0 Turbo正式向企业客户全面开放&#xff01;这一举动直接引发了业界的关注。那…

国产PLC能否使用无线通讯终端来实现无线通讯?让我们一探究竟

在工业生产车间内&#xff0c;PLC被广泛应用于自动化控制的各个环节。随着智能化工厂的建设&#xff0c;许多PLC仍处于信息孤岛状态&#xff0c;现要将厂区内分散的PLC都建立通讯&#xff0c;如果重新布线工厂量大且不美观&#xff0c;此时就需要用到工业PLC无线通讯设备来解决…

Knife4j的介绍与使用

目录 一、简单介绍1.1 简介1.2 主要特点和功能&#xff1a; 二、使用步骤&#xff1a;2.1 添加依赖&#xff1a;2.2 yml数据源配置2.3 创建knife4j配置类2.4 注解的作用 最后 一、简单介绍 1.1 简介 Knife4j 是一款基于Swagger的开源文档管理工具&#xff0c;主要用于生成和管…