mapreduce，python版本配置参数

2023-11-09 00:52•python•阅读 287

部分转载自文件分发与打包。

（6）numReduceTasks：指定reducer的个数，如果设置-numReduceTasks 0或者-reducer NONE则没有reducer程序，mapper的输出直接作为整个作业的输出。

（7）-jobconf | -D NAME=VALUE：指定作业参数，NAME是参数名，VALUE是参数值，可以指定的参数参考hadoop-default.xml。

　　 -jobconf mapred.job.name='My Job Name'设置作业名

　　 -jobconf mapred.job.priority=VERY_HIGH | HIGH | NORMAL | LOW | VERY_LOW设置作业优先级

　　 -jobconf mapred.job.map.capacity=M设置同时最多运行M个map任务

　　 -jobconf mapred.job.reduce.capacity=N设置同时最多运行N个reduce任务

　　 -jobconf mapred.map.tasks 设置map任务个数

　　 -jobconf mapred.reduce.tasks 设置reduce任务个数　　

　　 -jobconf mapred.compress.map.output 设置map的输出是否压缩

　　 -jobconf mapred.map.output.compression.codec 设置map的输出压缩方式　　

　　 -jobconf mapred.output.compress 设置reduce的输出是否压缩

　　 -jobconf mapred.output.compression.codec 设置reduce的输出压缩方式

　　 -jobconf stream.map.output.field.separator 设置map输出分隔符

　　　　例子：-D stream.map.output.field.separator=: \ 以冒号进行分隔

　　　　 -D stream.num.map.output.key.fields=2 \ 指定在第二个冒号处进行分隔，也就是第二个冒号之前的作为key，之后的作为value

（8）-combiner：指定combiner Java类，对应的Java类文件打包成jar文件后用-file分发。

（9）-partitioner：指定partitioner Java类，Streaming提供了一些实用的partitioner实现，参考KeyBasedFiledPartitoner和IntHashPartitioner。

（10）-inputformat, -outputformat：指定inputformat和outputformat Java类，用于读取输入数据和写入输出数据，分别要实现InputFormat和OutputFormat接口。如果不指定，默认使用TextInputFormat和TextOutputFormat。

（11）cmdenv NAME=VALUE：给mapper和reducer程序传递额外的环境变量，NAME是变量名，VALUE是变量值。

（12）-mapdebug, -reducedebug：分别指定mapper和reducer程序失败时运行的debug程序。

（13）-verbose：指定输出详细信息，例如分发哪些文件，实际作业配置参数值等，可以用于调试

实验一：map输出3个gz压缩，如果不指定reduce个数；结果：reduce只会启动一个，输出明文；

        -jobconf  "mapred.map.tasks=3" \
        -jobconf  "mapred.compress.map.output=true" \
        -jobconf  "mapred.map.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec"

实验二：启动map输出4个gz压缩，reduce指定gz压缩（暂时不指定reduce个数）；结果：reduce端输出1个gz压缩文件；

        -jobconf  "mapred.map.tasks=4" \
        -jobconf  "mapred.compress.map.output=true" \
        -jobconf  "mapred.map.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec" \
        -jobconf  "mapred.output.compress=true" \
        -jobconf  "mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec"

实验三：启动map输出4个gz压缩，reduce指定gz压缩，reduce指定5个；结果：reduce端输出5个压缩文件（2台slave节点显示，reduce先启动了4个，完成后启动了另一个）

        -jobconf  "mapred.map.tasks=4" \
        -jobconf  "mapred.reduce.tasks=5" \
        -jobconf  "mapred.compress.map.output=true" \
        -jobconf  "mapred.map.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec" \
        -jobconf  "mapred.output.compress=true" \
        -jobconf  "mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec"

实验四：map端输入时，输入5个压缩文件，不指定map和reduce个数；结果：自动启动5个map和1个reduce

 -mapper "cat"

实验五：map输入5个压缩文件，指定map个数为3，reduce个数为2；观察结果：启动map个数为5个！！！！reduce个数为2个；所以压缩只会影响到map的个数，reduce的个数乣指定，或者默认为1；

        -jobconf "mapred.map.tasks=3" \
        -jobconf "mapred.reduce.tasks=2"

结论：如果map输入为压缩文件，则压缩文件个数是map的启动个数；

map的压缩输出对reduce的运行个数无影响；

　　　 reduce的压缩输出会产生压缩文件；

上一篇 »window2012 R2，64位 IIS+php多版本配置PHPManagerForIIS
下一篇 »非root用户安装java版本

mapreduce，python版本配置参数

相关推荐

Linux Apache Rewrite模块配置

php-fpm 启动参数及重要配置详解

Linux 配置selenium + webdriver 环境

java环境配置为1.7jdk为什么cmd java -version查看版本是1.8？

PHP 5.3版本上MS SQL Server的连接配置

vscode conda 配置python环境，windows

php配置php-fpm启动参数及配置详解

[转]php-fpm - 启动参数及重要配置详解