Ceph分布式存储系统优化分析

        Ceph支持多种存储访问接口,现有的多种性能测试工具都可用于Ceph的性能测试,如测试块接口性能的fio,iometer等;测试CephFS接口的filebench,fio等;测试对象接口的cosbench等。Ceph有专用的基准测试集CBT,其包含radosbench,librbdfio,kvmrbdfio和rbdfio。radosbench基准测试使用ceph common软件包附带的rados二进制文件,通过对象接口来访问Ceph集群。剩下的3个工具都是测试块存储性能的。

  • librbdfio基准模块通过用户态librbd库来测试RBD的块存储性能。

  • kvmrbdfio基准测试要求在使用CBT之前创建虚拟机实例,并挂载RBD块设备。

  • rbdfio基准测试使用内核进行驱动并将其映射到块设备的RBD块设备上。Teuthology是一个Ceph自动化测试的框架,可以在指定节点运行测试用例,也可以用于性能的测试。

        对Ceph系统进行持续的性能监控可以了解集群运行状况,及早发现性能瓶颈。Ceph提供了命令行接口输出性能相关的统计数据。OSD以PG为单位收集性能数据并定期发给Monitor节点。Monitor节点汇总性能数据并同步至其他Monitor节点。我们也提出了一种针对Ceph存储系统层进行分层性能监测和采集的框架,以及一种通过Ceph电文来分析系统性能和瓶颈的方法。

1、Ceph存储系统的特点和挑战

本节总结了Ceph分布式存储系统的特点和面临的挑战。

(1)Ceph存储系统的优点

  • 1)高性能。针对并发量大的异步IO场景,随着集群规模的扩大,Ceph可提供近线性的性能增长。

  • 2)高可扩展性。Ceph通过CRUSH算法来实现数据寻址。这种方法避免了元数据访问的瓶颈,使集群的存储容量可以轻易扩展至PB级,甚至EB级。

  • 3)统一存储,适用范围广。Ceph支持块、文件和对象存储,可满足多种不同的需求。底层的RADOS可扩展并支持不同类型的存储服务。

  • 4)支持范围广。自2012年起,Linux内核开始支持Ceph,目前Ceph可以在几乎所有主流的Linux发行版和其他类UNIX系统上运行。自2016年起,Ceph开始支持ARM架构,同时也可适用于移动、低功耗等领域,其应用场景覆盖了当前主流的软硬件平台。

(2)Ceph面临的挑战

  • 1)Ceph底层采用定长的对象存储,为了保证对象级别的原子性,底层存储引擎的写放大问题严重影响了性能。

  • 2)Ceph的数据分布算法CRUSH在实际环境中存在一些问题,包括扩容时数据迁移不可控、数据分布不均衡等。这些问题影响了Ceph性能的稳定性。

  • 3)Ceph对新型存储介质的支持较差。在使用高速存储介质时,软件造成的时延比硬件导致的时延高出数十倍。社区也在开发面向新型存储介质的存储引擎。

  • 4)Ceph的架构复杂,抽象层次多,时延较大。虽然Ceph采用面向对象的设计思想,但其代码内对象间的耦合严重,导致不同版本间的接口不兼容。针对不同版本的性能优化技术和方法也互相不兼容。

  • 5)Ceph是一个通用的分布式存储系统,可应用于云计算、大数据和高性能计算等领域。针对不同的访问负载特征,Ceph还有较大的性能提升和优化空间。

        Ceph是一个通用的分布式文件系统,适用于不同的场景。内部机制的优化对所有的场景都会产生性能的提升,但是优化的难度和复杂度也最高。

2、存储引擎的优化

        在分布式存储系统中,数据被分散在大量的存储服务器上,大部分分布式存储系统都直接使用本地文件系统来存储数据,如HDFS、,Lustre等。高性能、高可靠的分布式存储系统离不开高效、一致、稳定、可靠的本地文件系统。Ceph存储引擎的优化,参考“Ceph分布式存储系统架构研究综述”。

3、网络通信的优化

        在分布式存储系统中,节点间需要通过网络通信来交换状态和数据。Ceph有3种类型的通信模式,分别是Simple,Async和XIO。Simple线程模式对每个网络连接都创建了两个线程,分别用于接收和发送。Ceph集群中OSD、Monitor节点及客户端之间都需要建立连接。随着集群规模的增长,创建的连接数和线程数会呈指数级增长,需要消耗更多的CPU和内存资源。在内存有限的情况下,Simple模式将导致大量线程的频繁切换以致内存耗尽。Async模式将连接和线程分开,通过线程池管理来维护线程的使用,用户可设置线程池中线程的数量。这是目前被广泛采用的方式,自2017年发布Kraken版本后,这已经成为默认的通信模式。XIO模式使用了开源的网络通信库accelio来实现,现今仍处于实验阶段。目前针对网络通信优化的研究都是基于Async通信模式实现的。

        Async模式使用线程池,可兼顾资源和性能的平衡,但早期其设计是基于循环的简单调度方案,未考虑传输数据大小和线程负载。这种早期设计会导致工作线程负载不平衡,在高负荷情况下产生一些性能问题。Han等提出了一种用于Ceph文件系统的动态消息感知通信的调度程序,以解决工作线程调度不平衡的问题,从而提高性能。他提出的调度算法根据传入消息的类型来平衡工作线程的工作量,同时避免了工作线程之间不必要的连接转换。

        一方面,该算法将低优先级消息(例如来自心跳连接的消息)分配给特定线程,以免干扰其他高优先级消息。另一方面,高优先级消息被平均分配给每个工作线程,以平衡线程之间的工作负载。同时其使用遗传算法(GA)来使不必要的连接转换最小化。测试结果表明,在相同的客户端工作负载下,该方法比原始Asyncmessenger的性能高出12.5%,在客户端的随机工作负载下,其性能比原始Asyncmessenger高出24%。

        优化Asyncmessenger还可以通过将多个工作线程分配给单个连接来处理来自该连接的流量。但是,由于多个线程争用访问连接中的共享资源,这种映射结构会引起与锁定维护有关的另一种开销。

        Ceph的Luminous版本将Async网络通信模型作为默认的通信方式。虽然Async实现了IO的多路复用,使用共享的线程池来实现异步发送和接收任务,但是如何平衡Async工作线程的负载也是一个值得关注的问题。下表总结了几种常见的算法的优化方案。

图片

        RDMA是一种低延迟、高性能的网络传输协议,已被广泛应用于高性能计算环境中。为了在Ceph中利用RDMA以实现高速的数据传输,开发社区提出了两种方案。

        第一种方案是降低Ceph对网络层状态的要求,减少Messenger需要实现的逻辑。现在的XioMessenger规定的语义和策略过于复杂,使用新的网络协议实现的难度大;减少Messenger的逻辑则需要增加上层的逻辑。

        第二种方案是基于目前的AsyncMessenger的框架,扩展出支持RDMA的网络后端而无需关心上层的会话逻辑。国内的XSKY公司和Mellanox公司合作提出了基于AsyncMessenger的网络通信引擎。这种修改使用RDMA的双边通信机制,性能提升有限。并且在当前版本的代码实现中,RDMA只可用于客户端与服务器之间、服务器与服务器之间的通信,不能在两个网络中同时被应用,这也限制了该方案的应用。

 

4、数据放置方法的优化

        经典Ceph存储系统在副本模式下选择存储节点时,仅以节点存储容量为唯一选择条件,并没有考虑到网络和节点的负载状况,这影响了系统在网络性能差和节点高负载的情况下的读写性能。为解决这些问题,文献设计了基于软件定义网络技术的Ceph存储系统模型和存储节点选择策略,首先利用软件定义网络技术实时获取网络和负载状况,以简化网络配置和减小测量开销,然后通过建立并求解出综合考虑了多种因素的多属性决策数学模型来确定存储节点的位置。

        在实际环境中对设计的存储节点选择方法进行读写操作的测试,结果表明,与现有的CRUSH算法相比,提出的存储节点选择方法可以在保持与原有Ceph系统相同的写操作性能的同时,针对4KB对象的100%读操作的响应时间比原有的Ceph集群的缩短了10ms左右,针对4096KB对象的100%读操作响应时间相对缩短了120ms左右。这种方法需要获取网络的实时性能以用于数据放置策略的调整,引入了网络负载采集的开销,在大规模集群场景下应用受限。并且由于该方法会频繁更新CRUSH算法的参数,其读取性能会有所下降。

5、配置参数性能调优

        Ceph存储系统的可配置参数有1500多个,参数的调整对系统性能有较大的影响。默认配置针对不同的硬件和应用通常不是最优配置。通过锁优化和系统参数调优技术使系统的吞吐率提升了1.6倍,但其并未讨论修改了哪些配置参数。虽有文献详细介绍了在全闪存环境下需要调整哪些参数(包括内核、文件系统、磁盘缓存、RADOS和RBD等),但是没有给出调整前后的性能对比。

        Intel开发并开源了一个性能优化工具CeTune,该工具可用于Ceph集群的部署、测试、分析和调优。该工具是一个交互性的调优工具,尚不能自动寻找最优配置。分布式存储系统的性能调优仍是一个具有挑战性的问题。参数组合导致问题解空间大,且参数之间会互相影响。在数据库领域已有一些利用机器学习和决策树的方法进行自动调优的成功案例,而在分布式存储系统领域,相关研究仍处于起步阶段。

面向特定硬件环境的优化

        随着3DXpoint和非易失内存等技术的发展与成熟,最快的存储介质性能已接近内存性能。使用新型存储器件的系统中软件已成为瓶颈。如图所示,HDD,SATASSD,NVMe NANDSSD,3 DXPointStorage,3DXPoint Memory系统中的软件造成的延迟分别是0,10%,20%,40%和90%。通过重构软件的体系结构来充分发挥高速存储介质的性能是目前的一个研究热点。

图片

5.1 固态存储

        固态存储设备相比磁盘设备,在性能、功耗和机架密度上具有显著的优势。SATA接口限制了固态存储设备的最大吞吐率。Intel提出的利用PCIE总线来访问固态存储的NVMe接口方法提供了通用的高速存取方案。使用NVMe的固态存储设备在吞吐量和延迟性能上比传统的磁盘高出1-2个数量级,因此在总的IO处理时间中,软件造成的延迟占据更大的比例。现有的存储系统为低速硬件设计了合并写、异步写等机制,但是这些机制并不适用于高速存储设备。随着存储设备性能的进一步提升,存储系统软件栈的性能和效率对存储系统的影响越来越大。存储系统因受制于低效冗余的软件栈而不能充分发挥硬件性能。

        SPDK是Intel提出的使用NVMeSSD作为后端存储的应用软件加速库。该软件库的核心是实现用户态、异步、无锁、轮询方式的NVMe驱动。虽然SPDK等新型驱动可以将NVMeSSD的性能最高提高6倍,但是在Ceph中直接使用SPDK却没有明显的性能提升。其主要原因在于在BlueStore的处理中有很多线程协作,线程间的互斥和切换开销较大。

        在Ceph中,OSD使用异步IO等待IO完成,多线程可以充分利用NVMeSSD多通道的特点来提升性能。由于一个OSD无法充分利用NVMeSSD的带宽,研究人员发现将NVMeSSD进行分区,然后在其上运行多个OSD可显著提高性能。图给出了一个NVMeSSD分别使用1个OSD、2个OSD和4个OSD时的性能,可以看到在1个SSD上运行4个OSD时的随机读,其IOPS增长很快但延迟增长缓慢。

        但是将SSD分区并同时支持多个OSD也有一些缺点,如降低了可靠性、小块随机写延迟增大、需要更多内存和CPU资源等。另一项对于随机写的测试结果如图所示,在1个SSD上运行2个OSD时的IOPS与运行4个OSD时的IOPS相近,且需要的CPU资源更少。使用多个OSD的提升效果与SSD的性能和CPU的性能相关,且需要占用较多的CPU和内存资源,对可用性也有影响,因此不适用于大规模生产环境。

图片

        除了NVMe以外,现在还有一些使用SATASSD来代替HDD的策略,但直接替换存储介质的性能提升有限。Ceph针对HDD设计了很多异步和调整写顺序的机制,但这些机制反而降低了SSD的性能。当使用Ceph集群和全闪存SSD进行4K随机写入/读取的性能测试时,随机写入性能也只能达到16KIOPS。当线程数增加到32个及以上时,IOPS几乎保持不变,且延迟急剧增加。随机读取时,当线程数少于32时,IOPS较低,且延迟较高。

 

5.2 非易失内存

        存储是数据密集型系统中最慢的组件。尽管基于NVMe的固态驱动器提供了更快、更持久的存储,IO性能已大大提高,但其仍然比系统中的其他组件慢。随着NVDIMM产品的出现,可字节寻址的非易失性存储器将提供与内存相近的IO性能。

        Intel将Client端的NVM作为缓存,提出了3个优化方案,大大提升了块存储接口的访问性能。

  • 方案一提出由于Ceph快照中的父对象是只读的,Client端将其缓存在本地SSD中以提高读取性能。但该方案仅缓存特定的不变对象,不具有通用性。

  • 方案二利用Client端的NVM实现了一个写回缓存,写入NVM的数据并将其不定期刷新至OSD中。该方案性能提升的效果明显,能将99.99%的写入延迟缩短到1/10以下。但是因为在客户端发生故障时,保存在NVM中的数据没有写入Ceph后端的OSD,所以会造成数据不一致。

  • 为了解决这个问题,方案三通过RDMA技术为Client节点和OSD节点的NVM空间建立镜像,以避免因Client故障导致的数据丢失。复制写日志机制将数据同时持久化至Client和OSD的NVM中,当Client不发生故障时,OSD仅提供镜像空间,无需额外的CPU等资源。基于客户端的缓存性能提升明显,但为每个客户端配置NVM和RDMA的成本较高,且该方案并未充分利用OSD端的NVM特性。

5.3 混合存储

        在Ceph集群中可以使用SSD作为保存日志或缓存来提高访问性能。Ceph支持使用高速存储设备作为缓存来加速IO性能。目前有两种不同的缓存实现方式:1)在OSD内部使用缓存;2)将高性能节点组成缓存层。

        根据第一种方案,在使用FileStore时,文件系统可以识别并使用异构来存储介质,并将其中的SSD作为缓存,其架构如图7(a)所示。这种方案可以依赖已有的缓存工具(如dm-cache,bcache,FalshCache)来实现该功能,也可以使用现有的多种缓存控制方法。其中,dm-cache作为linux内核的一部分,采用devicemapper机制以允许用户建立混合卷;bcache是linux内核块层缓存,使用SSD作为HDD硬盘的缓存,从而起到加速作用;FlashCache可智能缓存最近读取过的用户数据或元数据,从而加快数据访问。

图片

        第二种方案的实现方式是将独立的设备或节点组成缓存池,在慢速节点保存冷数据,在高性能节点保存热数据。在这种方案中,高速节点被组织成为缓存层,该缓存层也是一个RADOS池,不仅具有持久化的能力,还具有独立的CRUSH策略。该层以下是基于HDD的RADOS池,其可以采用三副本的ReplicatePG作为后端,也可以采用Erasurecoded作为后端。

6、未来展望

        针对前面提到的不同的性能优化方法,本节从Ceph内部机制优化、基于新型硬件和面向不同负载优化这3个方面对性能优化问题的未来研究方向进行了展望。

6.1 Ceph内部机制的优化

        Ceph发展至今,其规模和复杂性不断增大。数据分发、元数据管理和对象一致性保证等方面的逻辑复杂,目前的多线程和加锁机制效率较低。采用新的内存分配机制和高效KV数据来管理子系统可能对性能有所提升。目前内置的性能采集机制不完善,采集内容和方法、性能数据分析这两方面都有改进的空间。

6.2 基于新型特定硬件的优化

        随着新型存储介质的发展,NVM和3D XpointSSD等介质的访问性能比传统HDD提升了2-4个数量级。存储系统优化需通过结合硬件特征来重构存储系统的体系结构,删除冗余抽象和功能,并重新分配软硬件的功能。存储软件中针对传统硬件的优化方法可能会降低性能,如异步写、随机写合并等。SSD的文件转换层的垃圾回收、空间映射与管理功能也可移至软件实现。多种不同性能的介质也将长期共存于存储系统中,根据数据冷热和介质特性自适应实现高性价比的数据分布也是一个研究方向。Ceph虽然已支持RDMA协议,但是双边操作方式性能的提升有限,设计新的通信机制、采用单边操作可进一步提高性能。

 6.3 面向应用场景的自适应优化

        Ceph应用场景众多,不同应用的访问特征和数据分布差异较大。在不同的负载情况下,基于人工制定的存储优化方案不能满足要求。根据不同应用负载的自适应优化技术也是一个挑战,其研究内容包括利用访问标签来实现不同应用的性能服务质量保证以及性能隔离、利用机器学习技术自动寻找最优配置,以及动态的数据预取和迁移。

7、结束语

        本文介绍了Ceph分布式存储系统的发展历史和特点,并从内部优化机制、面向硬件设备和应用场景这3个方面梳理了现有的性能优化方法。作为一个开源的统一存储系统,Ceph提供了高性能、高可扩展性和高可用的块、文件和对象存取功能。Ceph的特点使之被广泛应用于云计算、高性能计算和大数据处理领域。目前,Ceph的性能优化研究工作虽然有一定的进展,但仍有很多问题尚未完全解决。

作者:张 晓、张思蒙、石佳、董聪、李战怀

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/78415.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

web实现酷炫的canvas粒子动画背景

文章目录 前言一、particle-bg1. git地址:2. 安装3. 使用4. 完整demo 二、tsParticles1. 源码地址:2. 安装3. 引入4. 使用5. 几个例子5.1 ts粒子五彩纸屑烟花5.2 多粒子产卵器-用tsParticles制作5.3 ts粒子鼠标吸引力5.4 粒子烟花 源码地址完结 前言 粒…

【RP2040】香瓜树莓派RP2040之自定义的短按、双击、长按按键

本文最后修改时间:2022年09月15日 11:02 一、本节简介 本节介绍如何编写一个可以自己选择引脚的短按、双击、长按三种方式的按键驱动。 二、实验平台 1、硬件平台 1)树莓派pico开发板 ①树莓派pico开发板*2 ②micro usb数据线*2 2)电脑…

【运维】linkis安装dss保姆级教程与踩坑实践

文章目录 一. 安装准备二. 创建用户三. 准备安装包四. 修改配置1. 修改config.sh2. 修改db.sh 五、安装和使用1. 执行安装脚本2. 启动服务3. 查看验证是否成功 六. 报错处理报错一:The user is not logged in报错二:dss接口报错报错三:执行没…

IDEA常用工具配置

IDEA常用工具&配置 如果发现插件市场用不了,可以设置Http Proxy,在该界面上点击”Check connection“并输入的地址:https://plugins.jetbrains.com/ 。 一、常用插件 1、MybatisX Mybaits Plus插件,支持java与xml互转 2、F…

TCP/IP协议组

TCP/IP通信协议是目前最完整、使用最广泛的通信协议。它的魅力在于可使不同硬件结构、不同操作系统的计算机相互通信。TCP/IP协议既可用于广域网,也可用于局域网,它是Internet/Intranet的基石。TCP/IP通信协议事实上是一组协议。 TCP/IP协议可分为5层也可…

日志系统——日志格式化模块设计

一,模块主要成员 该模块的主要作用是对日志消息进行格式化,将日志消息组织成制定格式的字符串。 该模块主要成员有两个:1.格式化字符串。 2.格式化子项数组 1.1 格式化字符串 格式化字符串的主要功能是保存日志输出的格式字符串。其格式化字…

机器学习赋能乳腺癌预测:如何使用贝叶斯分级进行精确诊断?

一、引言 乳腺癌是女性最常见的恶性肿瘤之一,也会发生在男性身上。每年全球有数百万人被诊断出乳腺癌,对患者的生活和健康造成了巨大的影响。早期的乳腺癌检测和准确的诊断对于提高治疗的成功率至关重要。然而,乳腺癌的早期诊断面临着许多挑战…

大语言模型与语义搜索;钉钉个人版启动内测,提供多项AI服务

🦉 AI新闻 🚀 钉钉个人版启动内测,提供多项AI服务 摘要:钉钉个人版正式开始内测,面向小团队、个人用户、高校大学生等人群。该版本具有AI为核心的功能,包括文生文AI、文生图AI和角色化对话等。用户可通过…

整理mongodb文档:find方法查询数据

个人博客 整理mongodb文档:find方法查询数据 求关注,求批评,求指出,如果哪儿不清晰,请指出来,谢谢 文章概叙 如题,本文讲的是如何用find查询数据,如何在数组、字段、对象中查询,以…

Git 常用操作

一、Git 常用操作 1、Git 切换分支 git checkout命令可以用于三种不同的实体:文件,commit,以及分支。checkout的意思就是对于一种实体的不同版本之间进行切换的操作。checkout一个分支,会更新当前的工作空间中的文件,…

Web菜鸟教程 - Springboot接入认证授权模块

网络安全的重要性不言而喻,如今早已不是以前随便弄个http请求就能爬到数据的时代,而作为一个架构师,网络安全必须在产品开发之初就考虑好。因为在产品开发的后期,一方面是客户增多,压力变大,可供利用的时间…

JupyterHub实战应用

一、JupyerHub jupyter notebook 是一个非常有用的工具,我们可以在浏览器中任意编辑调试我们的python代码,并且支持markdown 语法,可以说是科研利器。但是这种情况适合个人使用,也就是jupyter notebook以我们自己的主机作为服务器…

iOS设计规范是什么?都有哪些具体规范

iOS设计规范是苹果为移动设备操作系统iOS制定的设计指南。iOS设计规范的制定保证了苹果应用在外观和操作上的一致性和可用性,从而提高了苹果界面设计的用户体验和应用程序的成功性。本文将从七个方面全面分析iOS设计规范。 1.iOS设计规范完整版分享 由「即时设计」…

容器和云原生(二):Docker容器化技术

目录 Docker容器的使用 Docker容器关键技术 Namespace Cgroups UnionFS Docker容器的使用 首先直观地了解docker如何安装使用,并快速启动mysql服务的,启动时候绑定主机上的3306端口,查找mysql容器的ip,使用mysql -h contain…

设计模式——建造者(Builder)模式

建造者模式(Builder Pattern),又叫生成器模式,是一种对象构建模式 它可以将复杂对象的建造过程抽象出来,使这个抽象过程的不同实现方法可以构造出不同表现的对象。建造者模式是一步一步创建一个复杂的对象,…

Python文件操作教程,Python文件操作笔记

文件的打开与关闭 想一想: 如果想用word编写一份简历,应该有哪些流程呢? 打开word软件,新建一个word文件写入个人简历信息保存文件关闭word软件 同样,在操作文件的整体过程与使用word编写一份简历的过程是很相似的…

使用 BERT 进行文本分类 (01/3)

摄影:Max Chen on Unsplash 一、说明 这是使用 BERT 语言模型的一系列文本分类演示的第一部分。以文本的分类作为例,演示它们的调用过程。 二、什么是伯特? BERT 代表 来自变压器的双向编码器表示。 首先,转换器是一种深度学习模…

【Linux命令详解 | gzip命令】 gzip命令用于压缩文件,可以显著减小文件大小

文章标题 简介一,参数列表二,使用介绍1. 基本压缩和解压2. 压缩目录3. 查看压缩文件内容4. 测试压缩文件的完整性5. 强制压缩6. 压缩级别7. 与其他命令结合使用8. 压缩多个文件9. 自动删除原文件 总结 简介 在Linux中,gzip命令是一款强大的文…

C语言笔试训练【第九天】

文章目录 👿1、下列程序的输出是( )💎2、二维数组X按行顺序存储,其中每个元素占1个存储单元。若 X[4][4] 的存储地址为 Oxf8b82140 , X[9][9] 的存储地址为 Oxf8b8221c ,则 X[7][7] 的存储地址为( &#xf…

交换实验一

题目 交换机上接口配置 SW1 interface GigabitEthernet0/0/1 port hybrid tagged vlan 2 port hybrid untagged vlan 3 to 6 interface Ethernet0/0/2 port hybrid pvid vlan 3 port hybrid untagged vlan 2 to 6 interface Ethernet0/0/3 port link-type access port d…