mapreduce,python版本配置参数
部分转载自文件分发与打包。
(6)numReduceTasks:指定reducer的个数,如果设置-numReduceTasks 0或者-reducer NONE则没有reducer程序,mapper的输出直接作为整个作业的输出。
(7)-jobconf | -D NAME=VALUE:指定作业参数,NAME是参数名,VALUE是参数值,可以指定的参数参考hadoop-default.xml。
-jobconf mapred.job.name='My Job Name'设置作业名
-jobconf mapred.job.priority=VERY_HIGH | HIGH | NORMAL | LOW | VERY_LOW设置作业优先级
-jobconf mapred.job.map.capacity=M设置同时最多运行M个map任务
-jobconf mapred.job.reduce.capacity=N设置同时最多运行N个reduce任务
-jobconf mapred.map.tasks 设置map任务个数
-jobconf mapred.reduce.tasks 设置reduce任务个数
-jobconf mapred.compress.map.output 设置map的输出是否压缩
-jobconf mapred.map.output.compression.codec 设置map的输出压缩方式
-jobconf mapred.output.compress 设置reduce的输出是否压缩
-jobconf mapred.output.compression.codec 设置reduce的输出压缩方式
-jobconf stream.map.output.field.separator 设置map输出分隔符
例子:-D stream.map.output.field.separator=: \ 以冒号进行分隔
-D stream.num.map.output.key.fields=2 \ 指定在第二个冒号处进行分隔,也就是第二个冒号之前的作为key,之后的作为value
(8)-combiner:指定combiner Java类,对应的Java类文件打包成jar文件后用-file分发。
(9)-partitioner:指定partitioner Java类,Streaming提供了一些实用的partitioner实现,参考KeyBasedFiledPartitoner和IntHashPartitioner。
(10)-inputformat, -outputformat:指定inputformat和outputformat Java类,用于读取输入数据和写入输出数据,分别要实现InputFormat和OutputFormat接口。如果不指定,默认使用TextInputFormat和TextOutputFormat。
(11)cmdenv NAME=VALUE:给mapper和reducer程序传递额外的环境变量,NAME是变量名,VALUE是变量值。
(12)-mapdebug, -reducedebug:分别指定mapper和reducer程序失败时运行的debug程序。
(13)-verbose:指定输出详细信息,例如分发哪些文件,实际作业配置参数值等,可以用于调试
实验一:map输出3个gz压缩,如果不指定reduce个数;结果:reduce只会启动一个,输出明文;
-jobconf "mapred.map.tasks=3" \ -jobconf "mapred.compress.map.output=true" \ -jobconf "mapred.map.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec"
实验二:启动map输出4个gz压缩,reduce指定gz压缩(暂时不指定reduce个数);结果:reduce端输出1个gz压缩文件;
-jobconf "mapred.map.tasks=4" \ -jobconf "mapred.compress.map.output=true" \ -jobconf "mapred.map.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec" \ -jobconf "mapred.output.compress=true" \ -jobconf "mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec"
实验三:启动map输出4个gz压缩,reduce指定gz压缩,reduce指定5个;结果:reduce端输出5个压缩文件(2台slave节点显示,reduce先启动了4个,完成后启动了另一个)
-jobconf "mapred.map.tasks=4" \ -jobconf "mapred.reduce.tasks=5" \ -jobconf "mapred.compress.map.output=true" \ -jobconf "mapred.map.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec" \ -jobconf "mapred.output.compress=true" \ -jobconf "mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec"
实验四:map端输入时,输入5个压缩文件,不指定map和reduce个数;结果:自动启动5个map和1个reduce
-mapper "cat"
实验五:map输入5个压缩文件,指定map个数为3,reduce个数为2;观察结果:启动map个数为5个!!!!reduce个数为2个;所以压缩只会影响到map的个数,reduce的个数乣指定,或者默认为1;
-jobconf "mapred.map.tasks=3" \ -jobconf "mapred.reduce.tasks=2"
结论:如果map输入为压缩文件,则压缩文件个数是map的启动个数;
map的压缩输出对reduce的运行个数无影响;
reduce的压缩输出会产生压缩文件;