文章目录一、一般小型爬虫(单个文件)1.查看网页类型,(动态还是静态)使用requests发送请求,建议使用会话静态用bs,动态用json2.是否需要登录,cookies,或传递参数,headers,或者使用代理3.解析网页,查找元素,bs,json,或正则表达式,pyquery,lxml推荐bs,json,正则4.效率控制:单进程/多协程/多线程5.数据存储txt,excel,二进制文件,csv或者数据库二、难以破译的爬虫使用selenium1.模拟打开浏览器2.获取网页源码3.进行模拟点击4