ALS 2000 Paper 分布式元数据论文阅读笔记整理
问题
Linux集群作为低成本、高性能并行计算平台,但缺乏并行文件系统的支持,它对于此类集群上的高性能I/O至关重要。
本文方法
本文为Linux集群开发了一个并行文件系统,称为并行虚拟文件系统(PVFS),构建在本地文件系统之上,描述了PVFS的设计和实现。并满足以下需求:为从多个进程或线程到公共文件的并发读/写操作提供高带宽;支持多个API:本机PVFS API、UNIX/POSIX I/O API[15]、MPI-IO[13,18]等;支持常见的UNIX shell命令,如ls、cp和rm;使用UNIX I/O API开发的应用程序必须能够访问PVFS文件,而无需重新编译;具有健壮性和可扩展性;便于其他人安装和使用。
PVFS提供了一个集群范围的一致名称空间,允许用户控制不同I/O节点上磁盘之间的数据分条,并允许现有二进制文件在PVFS文件上操作,而无需重新编译。设计为具有多个服务器的客户端-服务器系统,称为I/O守护进程。I/O守护程序通常在群集中的独立节点上运行,这些节点称为I/O节点,并连接有磁盘。每个PVFS文件都跨I/O节点上的磁盘进行条带化。应用程序进程通过客户端库与PVFS交互。PVFS还有一个管理器守护进程,处理元数据操作,如文件创建、打开、关闭和删除操作的权限检查。管理员不参与读/写操作;客户端库和I/O守护进程在没有管理器干预的情况下处理所有文件I/O。
给出了在Argonne Chiba City cluster上的性能结果,包括不同数量的计算节点、I/O节点、I/O请求大小的并发读写工作负载性能结果。MPI-IO的性能结果,包括并发读/写工作负载和BTIO基准测试。比较了在PVFS中使用Myrinet网络和快速以太网进行I/O相关通信时的I/O性能,使用Myrinet获得了高达700兆字节/秒的读写带宽,使用快速以太网获得了225兆字节/秒钟的读写宽带。
总结
对PVFS的介绍,构建在Linux集群上的并行文件系统。应用程序进程通过客户端库与PVFS交互。PVFS在本地文件系统之上构建,通过管理器守护进程,处理元数据操作。管理器守护进程将数据条带化,映射到I/O守护进程,即本地客户端-服务器系统,运行在集群中的独立节点,并连接有磁盘。