2021中国胡润百富榜
前几天看到一个有意思的榜单“中国胡润百富榜单”,今年是胡润研究院自1999年以来连续第23次发布“胡润百富榜”,上榜门槛连续第九年保持20亿元。今天带你们分析看看中国都有哪些大牛!python
数据采集
数据来源:https://www.hurun.net/zh-CN/Rank/HsRankDetails?pagetype=rich
web
打开页面以下
咱们须要采集前 2000 名榜单人员的基本信息,分析过程十分简单:F12
打开开发者工具。CTRL + R
刷新页面,就能够看到抓到的数据包。
https://www.hurun.net/zh-CN/Rank/HsRankDetailsList?num=YUBAO34E&search=&offset=0&limit=20
json
采集的连接中包含两个主要参数,app
offset
:0,页码limit
:20,限制数据量最多 20 条
代码抓取的的时候暴力点,直接设置 limit=2000
,即一次请求 2000 条用户数据,不用分页请求,思路有了,开始撸代码!svg
import requests
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.54 Safari/537.36'
}
params = {
'num': 'YUBAO34E',
'offset': 0,
'limit': 2000
}
url = 'https://www.hurun.net/zh-CN/Rank/HsRankDetailsList'
page_text = requests.get(url=url, headers=headers, params=params).json()
page_text
有数据输出,而且数据量看起来也没问题,下一步开始解析须要的字段。代码较多这里就不展现了,文末有完整源码获取方式
!工具
因为数据包中的信息确实较多,我只提取了部分须要的字段,大体以下:
因为后面须要作地图,须要省份信息,因此对出生地字段切割一下,将省份提取出来,图片字段一样也要作一些处理,主要是因为我用 Tableau
作图的缘由,若是你们可视化方式不一样,彻底能够跳过这一步!ui
df['birth_place_split'] = df['birth_place'].str.split('-')
df['birth_place_split'] = df['birth_place_split'].apply(lambda x:'' if len(x) == 1 else x[1])
df['photo_split'] = df['photo'].apply(lambda x:x.split('/')[-1])
df.head()
最后将处理好的数据集保存到本地。url
可视化
可视化工具:Tableau 2021.3
。spa
百富榜TOP10
因为平时不怎么关注这些内容,第一次看这个结果竟发现前十的只认识 五、6 个。我一直还觉得首富应该是“两马”中的一个,如今一看确实是我跟很多时代了。。.net
百富榜年龄分布
榜单上的 74% 大佬年龄分布在45~70岁之间,其中58岁的有125人,大部分都是中年。
百富榜出生地分布
出生地分布前三名分别是:浙江、广州、江苏。
百富榜热门产业
热门产业主要仍是房地产、投资、医药、食品、化工等,确实都是大佬们玩的东西。
合成看板
最后作个汇总性的看板,加点联动效果。