【Spark2运算效率】【Spark2运算效率】第五节 影响生产集群运算效率的原因之小文件前言问题概述案例结语跳转
前言
关于小文件的治理方案颇多,可以回归到hdfs底层的block层面看待治理问题。,首先可以通过查询命令(hadoop dfs -count 路径)来查看路径目录下文件夹数目、文件数目及文件总大小(博主曾分享过相关的自动化脚本,有需要的可以去看看,很容易上手【小工具】 hdfs路径信息获取程序),具体可从图3.4的显示效果中查看。也可以采用fsck方法查看具体block数量信息,