前段时间自学了一段时间的Python,想着浓一点项目来练练手。看着大佬们一说就是爬了100W+的数据就非常的羡慕,不过对于我这种初学者来说,也就爬一爬图片。
我相信很多人的第一个爬虫程序都是爬去贴吧的图片,嗯,我平时不玩贴吧,加上我觉得豆瓣挺良心的,我就爬了豆瓣首页上面的图片。其实最刚开始是想爬全站,后来一想我这简直是脑子犯抽,全站的图片爬下来得有多少,再说这个只是练一下手,所以就只爬取了首页上的图片。废话不多说 开始代码。
首先是主文件的代码:
import re
from html
本文仅限于技术学习,不能用于商业用途。
与网上众多的爬取图片程序不同,我对网站的图片类型,网页数量,
作品页数,去重处理都做了规则的操作,确保了质量
直接上代码,
import requests
import re
import os
import random
import time
from lxml import etree
from bs4 import BeautifulSoup
iplist=open(r'C:\Users\MrQ\Desktop\资料\Python\爬虫程序\IP.