Hadoop包含三大基本组件:HDFS——分布式文件系统,用于数据存储YARN——统一资源管理和调度系统,用于管理集群的计算资源并根据计算框架的需求进行调度,支持包含MapReduce、Spark、Flink等多种计算框架。MRv2(Hadoop2.x)之后的新特性。MapReduce——分布式计算框架,运行于YARN之上这篇文章主要是对Hadoop三大基本组件之一的HDFS进行深入的学习。随着数据量越来越大,在一一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管