task的数据结构和算法
IFile存储格式
考虑到maptask的输出文件需要写到本地磁盘上并被reducetask远程拷贝,为尽量减少数据量以避免不必要的磁盘和络开消,hadoop内部实现了支持行紧缩的数据存储格式:IFile。
Maptask中间输出结果和reducetask远程拷贝结果被寄存在IFile格式的磁盘文件或内存中。为了尽量减少maptask写入磁盘数据量和跨络传输数据量,IFile支持按行紧缩数据记录,当前hadoop提供了Zlib(默许紧缩方式)、BZip2等紧缩算法。如果用户想启用数据压缩功能,则需为作业添加以下两个配置选项。
mapred.
北京白癜风专科医院怎么走郑州白癜风专科医院