Python3 Scrapy爬虫框架-使用

2024-03-28 13:40•python•阅读 846

创建Scrapy项目

1 # https://github.com/My-Sun-Shine/Python/tree/master/Python3/Scrapy_Learn/Scrapy_A
2 scrapy startproject Scrapy_A

项目结构：

scrapy.cfg：Scrapy项目的配置文件，定义了项目文件路径、不算
Scrapy_A：项目的模块，需要从这里引入

spiders：其中包括一个个Spider的实现，每个Spider都有一个文件
items.py：定义Item数据结构，存放所有的Item的定义，定义爬取的数据结构
middlewares.py：定义爬取时的中间件，定义Spider Middlewares和Downloader Middlewares的实现
pipelines.py：定义数据管道，定义Item Pipeline的实现，存放所有的Item Pipeline的实现
settings.py：定义项目的全局配置

创建爬虫：进入到Scrapy_A文件中，使用命名行创建一个Spider

 1 # 创建quotes.py这个Spider
 2 scrapy genspider quotes quotes.toscrape.com 
 3 # quotes.py
 4 # -*- coding: utf-8 -*-
 5 import scrapy
 6 
 7 class QuotesSpider(scrapy.Spider):
 8     name = 'quotes'                # 项目的唯一名字，区分不同的Spider
 9     allowed_domains = ['quotes.toscrape.com']     # 允许爬取的域名，如果初始或后续的请求链接不是这个域名下的，则请求链接会被过滤掉
10     start_urls = ['http://quotes.toscrape.com/'] # 爬虫启动时爬取的url列表，初始请求由它来定义
11     
12     def parse(self, response):    # 该方法负责解析返回的响应、提取数据或者进一步生成要处理的请求
13         """默认情况下，在start_urls里面的链接构成的请求完成下载执行后，返回的响应就会作为唯一参数传给该函数"""
14         pass

创建Item：Item是保存爬取数据的容器

1 # items.py
2 import scrapy
3 
4 class QuoteItem(scrapy.Item):
5     """创建Item需要继承scrapy.Item类，定义类型scrapy.Field字段"""
6     text = scrapy.Field()
7     author = scrapy.Field()
8     tags = scrapy.Field()

进行爬虫解析，编写QuotesSpider

 1 # quotes.py
 2 import scrapy
 3 from Scrapy_A.items import QuoteItem
 4 
 5 class QuotesSpider(scrapy.Spider):
 6     name = 'quotes'
 7     allowed_domains = ['quotes.toscrape.com']
 8     start_urls = ['http://quotes.toscrape.com/']
 9     
10     def parse(self, response):
11         """response是start_urls里面的链接爬取后的结果，使用parse()方法进行解析，使用CSS选择器或者XPath选择器"""
12         quotes = response.css('.quote')
13         for quote in quotes:
14             item = QuoteItem() # 声明数据类Item
15             # extract_first()方法获取第一个元素；extract()方法获取所有结果组成的列表
16             item['text'] = quote.css('.text::text').extract_first()
17             item['text'] = quote.css('.author::text').extract_first()
18             item['tags'] = quote.css('.tags .tag::text').extract()
19             yield item
20             
21         next_page = response.css('.pager .next a::attr("href")').extract_first() # 获取下一页
22         url = response.urljoin(next_page)
23         # url：请求链接；callback：回调函数，当得到url响应的时候，回调parse()方法
24         yield scrapy.Request(url=url, callback=self.parse)

运行爬虫

 1 scrapy crawl quotes    　　　　　　　　　　 # 爬取结果显示到控制台上
 2 scrapy crawl quotes -o quotes.json       # 爬取结果保存在JSON文件中
 3 scrapy crawl quotes -o quotes.jl         # 每一个Item输出一行JSON，jl是jsonlines的缩写
 4 scrapy crawl quotes -o quotes.jsonlines  # 每一个Item输出一行JSON
 5 scrapy crawl quotes -o quotes.csv        # 爬取结果保存在CSV文件中
 6 scrapy crawl quotes -o quotes.xml        # 爬取结果保存在XML文件中
 7 scrapy crawl quotes -o quotes.pickle     # 爬取结果保存在Pickle文件中
 8 scrapy crawl quotes -o quotes.marshal    # 爬取结果保存在marshal格式文件中
 9 # ftp远程输出，需要配置用户名，密码，地址，输出路径
10 scrapy crawl quotes -o ftp://user:pass@ftp.example.com/path/to/quotes.csv

使用Item Pipeline：Item Pipeline为项目管道，当Item生成后，它会自动被传送到Item Pipeline进行处理（清理HTML数据、验证爬取数据、检测爬取字段、查重并丢弃重复内容、将爬取结果保存到数据库）

 1 # pipelines.py
 2 # -*- coding: utf-8 -*-
 3 from scrapy.exceptions import DropItem
 4 import pymongo
 5 
 6 class TextPipeline(object):
 7     def __init__(self):
 8         self.limit = 50
 9         
10     def process_item(self, item, spider):
11         """该方法必须返回包含数据的字典或Item对象或者抛出异常；item：每次爬虫生成的Item对象；spider：爬虫实例"""
12         if item['text']:
13             if len(item['text']) > self.limit:
14                 item['text'] = item['text'][0:self.limit].strip() + '...'
15             return item
16         else:
17             return DropItem("Missing Text")
18         
19 class MongoPipeline(object): # 存入数据库
20     def __init__(self, mongo_uri, mongo_db):
21         self.mongo_uri = mongo_uri  # 链接
22         self.mongo_db = mongo_db  # 数据库名
23         
24     @classmethod  # 标识这是一个依赖注入的方式
25     def from_crawler(cls, crawler):
26         """:param crawler: 得到全局配置的每个配置信息来自settings.py"""
27         return cls(
28             mongo_uri=crawler.settings.get('MONGO_URI'),
29             mongo_db=crawler.settings.get('MONGO_DB')
30         )
31     
32     def open_spider(self, spider): # 当爬虫开启的时候，这个方法被调用
33         self.client = pymongo.MongoClient(self.mongo_uri)
34         self.db = self.client[self.mongo_db]
35         
36     def process_item(self, item, spider): # 实现数据插入
37         name = item.__class__.__name__
38         self.db[name].insert(dict(item))
39         return item
40     
41     def close_spider(self, spider): # 爬虫关闭的时候，该方法被调用
42         self.client.close()

配置对应Item Pipeline的settings.py

1 # settings.py
2 # 键名是Pipeline的类名称，键值是调用优先级，数字越小则对应的Pipeline越先被调用
3 ITEM_PIPELINES = {
4     'Scrapy_A.pipelines.TextPipeline': 300,
5     'Scrapy_A.pipelines.MongoPipeline': 400,
6 }
7 MONGO_URL = 'localhost'
8 MONGO_DB = 'Scrapy_A'

再次运行爬虫

Spider运行流程：Spider类定义了如何爬取某个网站的流程和解析方式

以初始的URL初始化Request，并设置回调函数，当Request成功请求并返回时，Response生成并作为参数传给该回调函数
在回调函数中分析返回的网页内容，返回的结果有两种形式：一种是解析到的有效结果返回字典或Item对象，它们可以经过处理或者直接保存；另外一种就是解析得到下一页的链接，可以利用该链接构造Request并设置新的回调函数，返回Request等待后续流程
如果返回的是字典或Item对象，通过Feed Exports等组件将返回结果存入到文件，如果设置了Pipline的话，可以使用Pipline处理(如过滤、修正)并保存
如果返回的是Request，那么Request执行成功得到Response之后，Response会被传递给Request中定义的回调函数，在回调函数中可以使用选择器来分析新得到的网页内容，并根据分析的数据生成Item

上一篇 »搜索引擎–基于Django/Scrapy/ElasticSearch的搜索引擎的实现
下一篇 »python3爬虫再探之EXCEL，续

Python3 Scrapy爬虫框架-使用

相关推荐

python3爬虫初探，四之文件保存

python3爬虫初探，二之requests

python3爬虫爬取网页思路及常见问题，原创

python3爬虫初探，一之urllib.request

python3爬虫再探之豆瓣影评数据抓取

python3 scrapy 爬取腾讯招聘

python3 爬虫4--解析链接

python3 爬虫5--分析Robots协议