python:3种爬虫的优缺点

性能对比

爬取方法

性 能

使用难度

安装难度

正则表达式

困难

简单(内置模块)

BeautifulSoup

简单

简单

Lxml

简单

相对困难

当网页结构简单并且想要避免额外依赖(不需要安装库),使用正则表达式更为合适。当需要爬取数据量较少时,使用较慢的BeautifulSoup也可以的。当数据量大时,需要追求效益时,Lxml时最好选择。