R语言读取Hive数据表

2024-03-17 09:06•移动端•阅读 2409

R通过RJDBC包连接Hive

目前Hive集群是可以通过跳板机来访问 HiveServer，将Hive 中的批量数据读入R环境，并进行后续的模型和算法运算。

1. 登录跳板机后需要首先在Linux下进行配置

从root权限切换到bzsys用户，才能够通过验证读取Hive。首先需要配置Hadoop的临时环境变量CLASSPATH路径

su bzsys

export CLASSPATH=$CLASSPATH:/etc/hadoop/conf

2. 下载并安装RJDBC包

Linux下直接运行R的install 函数通常不成功，建议下载预编译的包通过命令行安装，如下载文件 RJDBC_0.2-6.tar.gz (http://www.rforge.net/RJDBC/)

切换到下载包所在的文件夹下，如 /etc/usr/R-patched/packages (替换为自己的目录)，在终端运行R的命令行，完成安装。

RCMD INSTALL RJDBC_0.2-6.tar.gz

3. 进入R环境

library(RJDBC)# 载入RJDBC包

# 设置R连接时类的路径 CLASSPATH，注意一定要引hive/hadoop这三个路径下的所有包才可以通过认证

cp= c(list.files("/usr/lib/hive/lib", pattern ="[.]jar", full.names=TRUE, recursive=TRUE),

list.files("/usr/lib/hadoop", pattern ="[.]jar", full.names=TRUE, recursive=TRUE),

list.files("/etc/hadoop/conf", full.names=TRUE, recursive=TRUE),

recursive=TRUE

)

# 新建RJDBC的 Driver

drv <- JDBC(driverClass ="org.apache.hive.jdbc.HiveDriver", classPath =cp)

# 建立连接Connection

# 常见错误: 注意路径是jdbc:hive2:而不是jdbc:hive:, 因为新版Hive启用了 HiveServer2，替代了之前的HiveServer变量

# "hadoop-jy-backupserver:10000" 为济阳集群的URL和默认端口PORT 10000, "principal=" 为需要的特殊认证Authentication

hiveconnection <- dbConnect(drv,"jdbc:hive2://hadoop-jy-backupserver:10000/default;principal=hive/hadoop-jy-backupserver@HADOOP.QIYI.COM",user="*******", password="*******")# *** 替换为相应用户名和密码

4. R操作 Hive数据表范例

library(RJDBC)

cp= c(list.files("/usr/lib/hive/lib", pattern ="[.]jar", full.names=TRUE, recursive=TRUE),

list.files("/usr/lib/hadoop", pattern ="[.]jar", full.names=TRUE, recursive=TRUE),

list.files("/etc/hadoop/conf", full.names=TRUE, recursive=TRUE),

recursive=TRUE

)

drv = JDBC(driverClass ="org.apache.hive.jdbc.HiveDriver", classPath =cp)

hiveconnection = dbConnect(drv,"jdbc:hive2://hadoop-jy-backupserver:10000/default;principal=hive/hadoop-jy-backupserver@HADOOP.QIYI.COM",user="*******", password="*******")# *** 替换为相应用户名密码

# 从BAIDU_INDEX 表中查询记录的个数，存入DataFrame

count = dbGetQuery(hiveconnection,"SELECT count(*) FROM cpr.baidu_index")# 开始执行MapReduce任务

# 非查询Query的语句,如创建表CREATE, dbSendUpdate 函数执行所有非查询Query的语句

sqlCreateTbl = "CREATE TABLE IF NOT EXISTS cpr.person_correlation_graph_temp(rownames STRING,ibao_person_id_x STRING, ibao_person_id_y STRING,

cor_index DOUBLE,start_date STRING,end_date STRING)"

result=dbSendUpdate(hiveconnection,sqlCreateTbl)

# 将数据写入Hive数据库

dfToLoad = data.frame(rownames=c('1','2'),ibao_person_id_x=c('盗墓笔记','盗墓笔记'),

ibao_person_id_y=c('李易峰','杨洋'),cor_index=c(0.8900,0.5100))

dbWriteTable(hiveconnection,"cpr.person_correlation_graph", dfToLoad, overwrite=TRUE)

# R中执行其他Hive SQL的函数

dbListTables(hiveconnection,"%qiyu%")

df = dbReadTable(hiveConn,"iris")

上一篇 »PHP获取mysql数据表的字段名称和详细信息的方法
下一篇 »Python版的数据库查询构造器、ORM及动态迁移数据表。

R语言读取Hive数据表

相关推荐

Python-将数据表中数据导出到excel

python 脚本删除mysql数据表的操作

ORACLE基本的sql语句

利用Matlab对Excel数据表参数进行频谱分析，FFT的方法 - tuxinbang

jQuery 数据表： 将单个列导出到 Excel

统计mysql数据库中数据表/字段等数量的sql

统计mysql数据库中数据表/字段等数量的sql - 幕码人

oracle sql developer数据表注释为乱码问题---解决

jQuery 数据表：将单个列导出到 Excel