python操作hdfs总结

1、java通过hdfs远程连接hdfs,不需要在客户端机配置ip映射。

2、python利用hdfs库通过webhdfs操作hdfs,必须在客户端机配置ip映射

3、阿里云配置hadoop,/etc/hosts要设置内网ip,namenode才能正常运行。但是java、python通过外网ip访问hdfs时,总提示连不上。后面我在虚拟机配置hadoop,用java、python连接一切正常。所以如果使用阿里云配置hadoop,远程连接hadoop的程序应该运行在同一个服务器,或者另外的阿里内网服务器,然后通过内网连接

详细见:https://blog.csdn.net/fuck487/article/details/80859581

hdfs命令详解:https://blog.csdn.net/love666666shen/article/details/78261335