ITPub博客

首页 > 大数据 > Hadoop > mapred.job.shuffle.input.buffer.percent(R1)

mapred.job.shuffle.input.buffer.percent(R1)

Hadoop 作者:thamsyangsw 时间:2014-03-11 11:10:55 0 删除 编辑

说明:用来缓存shuffle数据的reduce task heap百分比

Reduce在shuffle阶段对下载来的map数据,并不是立刻就写入磁盘的,而是会先缓存在内存中,然后当使用内存达到一定量的时候才刷入磁盘。

这个内存大小的控制就不像map一样可以通过io.sort.mb来设定了,而是通过另外一个参数来设置:mapred.job.shuffle.input.buffer.percent(default 0.7),

这个参数其实是一个百分比,意思是说,shuffile在reduce内存中的数据最多使用内存量为:0.7 × maxHeap of reduce task。

也就是说,如果该reduce task的最大heap使用量(通常通过mapred.child.java.opts来设置,比如设置为-Xmx1024m)的一定比例用来缓存数据。

默认情况下,reduce会使用其heapsize的70%来在内存中缓存数据。

如果reduce的heap由于业务原因调整的比较大,相应的缓存大小也会变大,这也是为什么reduce用来做缓存的参数是一个百分比,而不是一个固定的值了。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/26613085/viewspace-1107287/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2012-01-12

  • 博文量
    160
  • 访问量
    1176640