TestDuBoKu.pyPython爬虫爬取电影网站--独播库，原代码爬虫的主要流程构造url

文件名称: TestDuBoKu.py

所属分类: Python

开发工具:

文件大小: 4kb

下载次数: 0

上传时间: 2020-02-02

提供者: weixin_********

下载 (4kb)

不能下载？报告错误

详细说明：Python爬虫爬取电影网站--独播库，原代码爬虫的主要流程构造url 爬虫要爬的数据，绝不仅仅是一个网页那么简单，有时候我们需要爬的是整个网站的数据，如果我们一个一个网页来获取url，那效率肯定太低了。所以在写爬虫程序之前，需要先知道url地址的规律，这样子才可以构造url列表，再从url列表中去url去爬我们需要的数据。发送请求，获取响应通过HTTP库向目标站点发起请求，也就是发送一个Request等待服务器响应，如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能是HTML,Json字符串，二进制数据（图片或者视频）等类型。提取数据返回的数据时html时，我们可以用正则表达式，或者是lxml模块配合xpath提取数据；返回的是json字符串时，我们可以用json模块进行数据解析；返回的是二进制数据时，可以做保存或者进一步的处理。保存数据保存形式多样，可以存为文本，也可以保存到数据库，或者保存特定格式的文件。

(系统自动生成,下载前可以参看下载内容)