一个简单的Python爬虫+写入文本

2024-04-02 12:41•python•阅读 2244

import os


import requests


from bs4 import BeautifulSoup


# 获取HTML文档


def get_html(url):


    response = requests.get(url)


    response.encoding = 'uft-8'


    return response.text


# 获取笑话


def get_joke(html):


    soup = BeautifulSoup(html,'lxml')


    abc = ''


    num = 0


    for link in soup.find_all("div", class_="content"):


# for i in range(10):


    #     joke_content = soup.select('div.content')[i].get_text()


        num = num + 1


        abc += "--------" + str(num) + link.get_text()


return abc


# 将笑话写入txt


# ls = os.linesep


def writeJoke(joke):


while True:


        filename = input('文件名：')


if os.path.exists(filename):


print("错误:'%s' 该文件已存在" % filename)  # 是否存在


        else:


break


    fobj = open(filename, 'w') #写入文本


    fobj.write(joke)


# fobj.writelines(['%s%s' % (x, ls) for x in all])  #每一个字符后面都会换行


    fobj.close()


print('写入成功！')


url_joke = "https://www.qiushibaike.com"


html = get_html(url_joke)


joke = get_joke(html)


writeJoke(joke)


# print(joke)

上一篇 »爬虫1：html页面+beautifulsoap模块+get方式+demo
下一篇 »python3爬虫再探之EXCEL，续

一个简单的Python爬虫+写入文本

相关推荐

python3爬虫再探之EXCEL

python3爬虫初探，四之文件保存

python3爬虫初探，二之requests

Python实现对文件夹内文本文件递归查找

python3爬虫爬取网页思路及常见问题，原创

python3爬虫初探，一之urllib.request

python3爬虫再探之豆瓣影评数据抓取

Python网络爬虫与信息提取[request库的应用]，单元一