- 定义:Hadoop是一个开源框架,用于存储和处理大规模数据集。它通过分布式计算和存储技术,提供了高可靠性和高性能的数据处理能力。
- 核心组件:
- HDFS(Hadoop Distributed File System):分布式文件系统,用于存储大规模数据集。HDFS将文件分割成多个块(默认64MB或128MB),并将这些块分布到多个节点上,以提高可靠性和性能。
- MapReduce:分布式计算模型,用于处理大规模数据集。MapReduce将任务分解为Map和Reduce两个阶段,Map阶段处理数据并生成中间结果,Reduce阶段将中间结果聚合,生成最终输出。
- YARN(Yet Another Resource Negotiator):资源管理和调度器,负责管理集群中的资源,并为应用程序分配资源。