The Quantcast File System——论文泛读

VLDB 2013 Paper 分布式元数据论文阅读笔记整理

问题

在2013年之前,由于网络链路带宽有限,数据在集群中移动速度慢,因此Hadoop尽量将数据留在原来的位置,并将处理代码发送给它。随着网络链路的发展,可以之前更高的数据传输。

且HDFS采用三副本的方法容错,产生大量的存储开销。

本文工作

Quantcast文件系统(QFS)是Hadoop分布式文件系统(HDFS)的有效替代方案。QFS是用C++编写的,与Hadoop MapReduce插件兼容,并提供了相对于HDFS的几个效率改进:

  • 通过Reed-Solomon擦除编码而不是三副本复制,默认采用6+3配置,节省50%的磁盘空间,使写入吞吐量翻倍。

  • 更快的名称节点

  • 通过并发附加功能支持更快的排序和日志记录

  • 比HDFS更快的本地命令行客户端

  • 全局反馈导向的I/O设备管理

  • 通过直接I/O确定I/O设备行为

开源代码:GitHub - quantcast/qfs: Quantcast File System

QFS与Hadoop兼容,将数据从HDFS迁移到QFS只需执行Hadoop-distcp。

元数据服务器

负责块创建、维持空间平衡、保持冗余、块驱逐、节点休眠

使用B+树表示文件系统元数据以最小化随机存储器访问,树有四种类型的节点:内部、文件或目录属性、目录条目、区块信息。树中的所有密钥都是16字节整数:4位节点类型、4位密钥保存节点号(目录id)、60位子密钥保存文件内块位置或目录名哈希。

设计为目录条目节点紧跟在目录属性节点之后以优化目录列表,块信息节点紧跟在文件属性节点之后,以优化打开和读取文件。

总结

设计了QFS文件系统,与HDFS兼容。设计了几个优化点:采用RS编码存储数据,不使用三副本,节省50%存储空间;使用B+树存储元数据,将目录条目节点紧跟在目录属性节点之后以优化目录查询,块信息节点紧跟在文件属性节点之后,以优化打开和读取文件。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/625016.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2024年为什么很多电商商家,都想涌入视频号,究竟是什么原因?

大家好,我是电商糖果 对电商有了解的朋友,在今年肯定发现一个现象,那就是很多商家对视频号比较青睐。 视频号究竟有何魔力,让越来越多的商家都想要入驻。 其实很简单,它让商家看到了市场。 视频号背后是谁&#xf…

SpringBoot集成Curator实现Zookeeper基本操作

系列文章目录 文章目录 系列文章目录前言 前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享给你的码吧。 Zookeeper是一个Ap…

未来想从事营销策划类的工作,需要怎么学习?

从事营销策划类的工作,提升和学习主要从以下三个方面: 一、营销底层逻辑的搭建 二、营销系统知识的构建 三、大量营销案例的积累 营销入门,其实大多数人一直都在入门的道路上,每个人都是终身学习者。虽然从事营销工作十年多了…

PMP考前冲刺攻略,考试前必看

调整心态 考场就像战场一样,不仅仅是实力的较量,更是心理素质的较量。如果感到过于焦虑,可以通过运动等方式来缓解,也可以多与家人、朋友和老师沟通。只有稳定心态才能发挥出最大的实力! 高效学习 课本是基础&#…

C#学习笔记12:Winform网页操作-CefSharp内嵌浏览器

今日学习使用Winform操作网页,先从从窗体内嵌一个浏览器开始吧: 文章提供测试代码讲解、测试效果图、整体测试工程下载 目录 CefSharp介绍与安装: 创建解决方案安装CefSharp: 控件放置: 整体代码贴出: 更改…

上位机图像处理和嵌入式模块部署(树莓派4b的提高版)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 目前人工智能非常火,但是人工智能需要极高的算力和海量的数据,因此相关的关联公司非常吃香,nvidia就是提供算力…

【Pytorch】7.使用Module模块搭建简易神经网络

什么是Moudel模块 torch.nn中的module是PyTorch中用于构建神经网络模型的基本单元。它包含了各种神经网络层、激活函数、损失函数等,可以通过组合不同的module来构建复杂的神经网络模型。每个module都包含了参数和方法,可以进行前向传播和反向传播等操作…

Linux软件RAID:数据冗余与性能提升的完美融合

🐇明明跟你说过:个人主页 🏅个人专栏:《Linux :从菜鸟到飞鸟的逆袭》🏅 🔖行路有良友,便是天堂🔖 目录 一、前言 1、软件RAID的概念 2、软件RAID与硬件RAID的对比…

鱼哥好书分享活动第22期:《数字政府网络安全合规性建设指南》解锁数字政府网络安全新篇章

鱼哥好书分享活动第22期:《《数字政府网络安全合规性建设指南》》解锁数字政府网络安全新篇章 阅读对象:书籍目录:了解更多:赠书抽奖规则: 当今时代,数据已成为新型生产要素,不仅是个人、企业乃至国家的重要…

SystemC学习使用记录

一、概述 对于复杂的片上系统,在进行RTL编码前,需进行深入的系统级仿真,以确认设计的体系结构是否恰当、总线是否能满足吞吐量和实现性要求以及存储器是否浪费,所进行的这些仿真要求在芯片的仿真模型上运行大量的软件&#xff0c…

【软件测试】自动化测试 Selenium 篇(一)

一、什么是自动化测试 1、自动化测试介绍 自动化测试指软件测试的自动化,在预设状态下运行应用程序或者系统,预设条件包括正常和异常,最后评估运行结果。将人为驱动的测试行为转化为机器执行的过程。 自动化就相当于将人工测试手段进行转换…

2024中国(厦门)国际医用消毒及感控设备展览会

2024中国(厦门)国际医用消毒及感控设备展览会 2024 China (Xiamen) International Medical Disinfection And Infection Control Exhibition 致力于打造医用消毒及感控设备产业采购一站式平台 时 间:2024年11月1-3日 November 1-3, 2024 …

6、Qt—Log4Qt使用小记1

开发平台:Win10 64位 开发环境:Qt Creator 13.0.0 构建环境:Qt 5.15.2 MSVC2019 64位 一、Log4Qt简介 Log4Qt是使用Trolltech Qt Framework的Apache Software Foundation Log4j包的C 端口。它旨在供开源和商业Qt项目使用。所以 Log4Qt 是Apa…

智能革新:如何用会话式AI提升您的工作效率?

提升职场竞争力,会话式AI产品助你走在时代前沿 在当今的职场环境中,提高工作效率是每一位人力资源管理者追求的目标。而在效率的背后,往往隐藏着工作方法的正确与否。在众多提升效率的方法中,人工智能技术无疑是一股不可忽视的力量…

Linux-页(page)和页表

本文在页表方面参考了这篇博客,特别鸣谢! 【Linux】页表的深入分析 1. 页帧和页框 页帧(page frame)是内存的最小可分配单元,也开始称作页框,Linux下页帧的大小为4KB。 内核需要将他们用于所有的内存需求&a…

CAN模块开发问题概述

问题一 问题描述 工作环境:ECU外接canoe 操作:使用CANoe模拟发送NM报文,然后停发或者断开CANoe 现象:程序跑死,调用call stack查看压栈情况如下图所示 定位代码如下图所示。可见是由于CAN模块在设置Controller状态时…

视频推拉流/视频直播点播平台EasyDSS使用Mysql数据库接口报错502如何处理?

视频推拉流/视频直播点播EasyDSS互联网直播平台支持一站式的上传、转码、直播、回放、嵌入、分享功能,具有多屏播放、自由组合、接口丰富等特点。平台可以为用户提供专业、稳定的直播推流、转码、分发和播放服务,全面满足超低延迟、超高画质、超大并发访…

MySql初学日记

MySql基础 概述 结构化查询语言(Structure Query Language)简称SQL。 是一种特殊的,标准的数据库编程语言,,一般的数据库管理系统都支持,用于对数据库进行增删改查等操作,实现数据持久化到本地。 使用完整的管理系…

如何判断点在多边形内部:OpenCV--cv2.pointPolygonTest()方法详解

《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ 👍感谢小伙伴们点赞、关注! 《------往期经典推…

【嵌入式模块芯片开发】ADXL345的优化精确测量和角度计算(中断单次测量、卡尔曼滤波)

【嵌入式模块芯片开发】ADXL345的优化精确测量和角度计算(中断单次测量、卡尔曼滤波) 文章目录 ADXL345的一般读取方式ADXL345的中断读取方式(单次测量)角度计算卡尔曼滤波优化后完整代码附录:压缩字符串、大小端格式…