python模拟爬虫抓取网页内容采集网页.rar python爬虫模拟抓取网页内容，采集网页的内容

文件名称: python模拟爬虫抓取网页内容采集网页.rar

所属分类: 其它

开发工具:

文件大小: 112kb

下载次数: 0

上传时间: 2019-07-10

提供者: weixin_********

下载 (112kb)

不能下载？报告错误

详细说明： python爬虫模拟抓取网页内容，采集网页的内容，这里主要是模拟抓取新浪微博中的内容，里面包括了[源码] 爬取客户端微博信息、[源码] 爬取移动端个人信息关注id和粉丝id (速度慢)、[源码] 爬取移动端微博信息 (强推)等多个例子，关于运行本例子的几点说明：　　1.先安装Python环境，作者是Python 2.7.8 　　2.再安装PIP或者easy_install 　　3.通过命令pip install selenium安装selenium，它是自动测试、爬虫的工具　　4.然后修改代码中的用户名和密码，填写你自己的用户名和密码　　5.运行程序，自动调用Firefox浏览器登陆微博　　注意：手机端信息更加精致简单，而且没有动态加载的一些限制，但是如微博或粉丝id只显示20页，这是它的缺点；而客户端可能存在动态加载，如评论和微博，但是它的信息更加完整。　　注意事项：　　输入：　　明星用户id列表，采用URL 用户id进行访问（这些id可以从一个用户的关注列表里面获取）　　SinaWeibo_List_best_1.txt 　　输出：　　微博信息及用户基本信息　　SinaWeibo_Info_best_1.txt 　　Megry_Result_Best.py 　　该文件用户整理某一天的用户微博信息，如2018年4月23日　　爬取客户端信息，但是评论是动态加载，还在研究中　　weibo_spider2.py

(系统自动生成,下载前可以参看下载内容)