使用apache下pig的一点总结

今天下午在公司用PIG来实现一种数据分析的算法,感觉很不错,在这里做一个记录,主要是实现一种逻辑关系。

兴例来说就是用户买了一件物品,除了这个物品外还买了哪些物品 ,可以对类似的用户做推荐。如下有一组数据结构:

X1 Y1

X2 Y2

X3 Y3

X1 Y4

X5 Y5

X表示用户,Y表示用户所买的物品

首先可以做一次JOIN关联:(对数据自己本身做一关联JOIN操作)

X1 Y1 X1 Y1

X1 Y1 X1 Y4

X2 Y2 X2 Y2

X3 Y3 X3 Y3

X5 Y5 X5 Y5

然后我们只保留两列Y

对Y做group和count操作就能获得物品和物品之间的关系了,就可以根据排行推荐给用户了。

是不是很简单啊,这可花了一两个小时才想出来的算法啊,感觉还不错,在此记录一下,希望对其它人也有帮助。