最新消息: 关于Git&GitHub 版本控制你了解多少?
您现在的位置是:群英 > 服务器 > 云计算 >
Hadoop DistCp的数据切分都有哪些方式
网络发表于 2020-08-31 18:34 次浏览
大数据近几年毫无疑问已成为科技界的“顶流”,随着大数据被越来越多人认识,应用场景也越来越广泛,全球大数据的储量规模和产业规模不断上升,如何对数据做到更准确,更高效的处理无疑是我们开发者所重点关注以及所期望达成的目标。在数据的并行处理过程中,不是所有情况我们都能保证每个并行处理任务都能按照预期顺利执行,中间就可能出现长尾任务现象。这里笔者想抛出的一个关键词:数据切分。在数据切分不均匀的情况下,是极有可能出现任务执行时间不均等的现象,从而影响到整个Job的完成耗时。本文笔者以Hadoop DistCp任务的内部数据处理过程为例,来聊聊DistCp内部的数据切分方式。
 
 

基于文件数/文件Size的数据切分方式


在分布式计算过程中,我们有专门的名词来定义不同task处理数据量的差异,叫做data skew(数据倾斜)。在DistCp任务中,对应的情况就是其内部map task需要处理(拷贝)的数据量差异比较大。

在笔者内部测试的一个例子中,笔者打算拷贝300w量级的文件目录,最后发现将近200w的目录分布到了一个map task内,然后造成DistCp的结束不了的情况。后来经过进一步分析,才知道原来是DistCp默认按照数据拷贝大小来均分输入数据到各个map内。这种策略在拥有大规模目录的情况下不见得是适用的,因为目录是没有size的,可理解为其size为0。这样就可能出现目录扎堆聚集的情况。

在上面这种情况下,一种更为妥善的办法是根据数据输入文件数来做均衡,我们确保每个map task需要拷贝相同的一个文件数。不过这里可能又有人会说了,我们怎么保证这些文件中个别文件是超大文件的情况,DistCp拷贝这个超大文件耗时比一般的文件要多很长时间怎么办?

上面说的这种情况是有可能出现的,DistCp采用事前打散输入文件path的方式,来减小这种事情发生的概率,避免大size文件聚集在一个map task内的情况。然后再将打散后的文件按照先后顺序写成split文件后供map task处理。

此过程图如下所示:

上面Seq File内部存储的一对对的K-V对,代表DistCp需要拷贝的目录/文件 path以及在目标FileSystem的全路径名。

上图左边显示的是基于固定文件总Size的Split处理,上图右边的则是基于文件数的Split处理。


标签:HadoopDistCp
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。
上一篇:没有了
相关信息推荐
2020-08-31 18:37:09 关键词:hadoopdistcp
摘要:DistCP是Apache Hadoop上下文中的Distributed Copy(分布式拷贝)的缩写。它基本上是一个工具,可以使用在我们需要复制大量的数据/文件在集群内/集群设置。..