mapreduce,python版本配置参数

部分转载自文件分发与打包

(6)numReduceTasks:指定reducer的个数,如果设置-numReduceTasks 0或者-reducer NONE则没有reducer程序,mapper的输出直接作为整个作业的输出。

(7)-jobconf | -D NAME=VALUE:指定作业参数,NAME是参数名,VALUE是参数值,可以指定的参数参考hadoop-default.xml。

   -jobconf mapred.job.name='My Job Name'设置作业名

   -jobconf mapred.job.priority=VERY_HIGH | HIGH | NORMAL | LOW | VERY_LOW设置作业优先级

   -jobconf mapred.job.map.capacity=M设置同时最多运行M个map任务

   -jobconf mapred.job.reduce.capacity=N设置同时最多运行N个reduce任务

   -jobconf mapred.map.tasks 设置map任务个数

   -jobconf mapred.reduce.tasks 设置reduce任务个数  

   -jobconf mapred.compress.map.output 设置map的输出是否压缩

   -jobconf mapred.map.output.compression.codec 设置map的输出压缩方式  

   -jobconf mapred.output.compress 设置reduce的输出是否压缩

   -jobconf mapred.output.compression.codec 设置reduce的输出压缩方式

   -jobconf stream.map.output.field.separator 设置map输出分隔符

    例子:-D stream.map.output.field.separator=: \ 以冒号进行分隔

     -D stream.num.map.output.key.fields=2 \ 指定在第二个冒号处进行分隔,也就是第二个冒号之前的作为key,之后的作为value

(8)-combiner:指定combiner Java类,对应的Java类文件打包成jar文件后用-file分发。

(9)-partitioner:指定partitioner Java类,Streaming提供了一些实用的partitioner实现,参考KeyBasedFiledPartitonerIntHashPartitioner

(10)-inputformat, -outputformat:指定inputformat和outputformat Java类,用于读取输入数据和写入输出数据,分别要实现InputFormat和OutputFormat接口。如果不指定,默认使用TextInputFormat和TextOutputFormat。

(11)cmdenv NAME=VALUE:给mapper和reducer程序传递额外的环境变量,NAME是变量名,VALUE是变量值。

(12)-mapdebug, -reducedebug:分别指定mapper和reducer程序失败时运行的debug程序。

(13)-verbose:指定输出详细信息,例如分发哪些文件,实际作业配置参数值等,可以用于调试

实验一:map输出3个gz压缩,如果不指定reduce个数;结果:reduce只会启动一个,输出明文;

        -jobconf  "mapred.map.tasks=3" \
        -jobconf  "mapred.compress.map.output=true" \
        -jobconf  "mapred.map.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec"

实验二:启动map输出4个gz压缩,reduce指定gz压缩(暂时不指定reduce个数);结果:reduce端输出1个gz压缩文件;

        -jobconf  "mapred.map.tasks=4" \
        -jobconf  "mapred.compress.map.output=true" \
        -jobconf  "mapred.map.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec" \
        -jobconf  "mapred.output.compress=true" \
        -jobconf  "mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec" 

实验三:启动map输出4个gz压缩,reduce指定gz压缩,reduce指定5个;结果:reduce端输出5个压缩文件(2台slave节点显示,reduce先启动了4个,完成后启动了另一个)

        -jobconf  "mapred.map.tasks=4" \
        -jobconf  "mapred.reduce.tasks=5" \
        -jobconf  "mapred.compress.map.output=true" \
        -jobconf  "mapred.map.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec" \
        -jobconf  "mapred.output.compress=true" \
        -jobconf  "mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec"

实验四:map端输入时,输入5个压缩文件,不指定map和reduce个数;结果:自动启动5个map和1个reduce

 -mapper "cat"

实验五:map输入5个压缩文件,指定map个数为3,reduce个数为2;观察结果:启动map个数为5个!!!!reduce个数为2个;所以压缩只会影响到map的个数,reduce的个数乣指定,或者默认为1;

        -jobconf "mapred.map.tasks=3" \
        -jobconf "mapred.reduce.tasks=2"

结论:如果map输入为压缩文件,则压缩文件个数是map的启动个数;

map的压缩输出对reduce的运行个数无影响;

    reduce的压缩输出会产生压缩文件;