python3爬虫初探，一之urllib.request

2024-05-10 13:23•python•阅读 3864

---恢复内容开始---

#小白一个，在此写下自己的python爬虫初步的知识.如有错误，希望谅解并指出。

#欢迎和大家交流python爬虫相关的问题

#2016/6/18

#----第一把武器-----urllib.request---------

　　urllib.request是python3自带的库（python3.x版本特有），我们用它来请求网页，并获取网页源码。话不多说，上代码。

import urllib.request  #调入要使用的库

url = 'http://www.baidu.com'
data = urllib.request.urlopen(url)  #urlopen用来打开一个网页
data = data.read()   #这里的rend()是必须的，否则不能打印源码。
print(data)     #在python3里面print是要加括号的
#b'<!DOCTYPE html><!--STATUS OK--><html><head><meta http-equiv="content-type" content="text/html;charset=utf-8"><meta http-equiv="X-UA-Compatible" content="IE=Edge"><meta content="always" name="referrer"><meta name="theme-color" content="#2932e1"><link rel="shortcut icon" href="/favicon.ico" type="image/
#这是部分源码，现在已经成功走出第一步了，之后就是解析网页了。

上一篇 »爬虫1：html页面+beautifulsoap模块+get方式+demo
下一篇 »python3爬虫再探之EXCEL，续

python3爬虫初探，一之urllib.request

相关推荐

爬虫3：html页面+webdriver模块+demo

我与python3擦肩而过，三—— 我去。。又是编码问题——urllib.parse.unquote

python 使用requests 请求 https 接口 ,取消警告waring

python3爬虫再探之EXCEL

python3爬虫初探，四之文件保存

python3爬虫初探，二之requests

14-python基础—python3中的defaultdict，

python3 进行接口测试