您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. c#多线程抓取网页内容

  2. 在《爬虫/蜘蛛程序的制作(C#语言)》一文中,已经介绍了爬虫程序实现的基本方法,可以说,已经实现了爬虫的功能。只是它存在一个效率问题,下载速度可能很慢。这是两方面的原因造成的: 1. 分析和下载不能同步进行。在《爬虫/蜘蛛程序的制作(C#语言)》中已经介绍了爬虫程序的两个步骤:分析和下载。在单线程的程序中,两者是无法同时进行的。也就是说,分析时会造成网络空闲,分析的时间越长,下载的效率越低。反之也是一样,下载时无法同时进行分析,只有停下下载后才能进行下一步的分析。问题浮出水面,我想大家都会想到
  3. 所属分类:C#

    • 发布日期:2010-12-18
    • 文件大小:6144
    • 提供者:mfr625
  1. Sosoo 1.0网络爬虫程序.doc

  2. Sosoo 1.0网络爬虫程序 ---用户开发手册 编写人:王建华(rimen/jerry) 编写目的:基于sosoo定制web spider程序的编程人员。 目录 一:安装sosoo 2 二:功能定制 2 1.基本功能参数的设置。 2 2.配置机器人对url的检查 3 3:实现文件管理。 4 4.定制html文档下载规则。 4 5.设置对下载后http文档的过滤处理 5 6.启用机器人运行期监控。 5 7.启用对http协议分析的监控。 5 三:sosoo描述 6 四:应用开发指南 6 1.
  3. 所属分类:Web开发

    • 发布日期:2010-12-18
    • 文件大小:39936
    • 提供者:mfr625
  1. 用多线程实现的Java爬虫程序

  2. 本程序用到了多线程(静态变量和同步),泛型,文件操作,URL类和连接,Hashtable类关联数组,正则表达式及其相关类。运行时需使用命令行参数,第一个参数应使用http://开头的有效URL字符串作为爬虫的主页,第二个参数(可选)应输入可转换为int型的字符串(用Integer.parseInt(String s)静态方法可以转换的字符串,如3)作为爬虫深度,如果没有,则默认深度为2。
  3. 所属分类:Java

  1. 史上最简单第一只爬虫

  2. 用url类实现的爬虫,初学者的第一只爬虫。
  3. 所属分类:Java

    • 发布日期:2012-02-17
    • 文件大小:2048
    • 提供者:chago_
  1. hadoop中文文档

  2. hadoop 中文文档index Prefetch chain 预处理链 Pre selector Precondition Enforcer Fetch chain 提取链 Fetch DNS Fetch Http Extractor chain抽取链 Extractor HTML Extractor JS Write Chain 写链 ARC Writer Processor Post process Chain Crawl State Updater Post selector 范围部件
  3. 所属分类:Java

    • 发布日期:2012-03-14
    • 文件大小:28672
    • 提供者:sxm530325138
  1. PHP函数库,PHP函数大全,PHP函数实例,PHP函数手册,PHP5函数库实例

  2. PHP函数库,PHP函数大全,PHP函数实例,PHP函数手册,PHP5函数库实例 PHP函数库,PHP函数大全,PHP函数实例,PHP函数手册,PHP5函数库实例 curl获取远程文件内容 GD显示中文 PHP GIF动画生成类 PHP HTML转UBB函数 PHP XML转数组函数 PHP 缓存函数 PHP 设置COOKIE,并且加密COOKIE函数 PHP不缓存数据头 PHP伪造IP PHP全角半角转换函数 PHP农历函数 PHP分页函数 PHP判断字符串是否UTF8格式 php判断爬虫函
  3. 所属分类:PHP

    • 发布日期:2012-10-16
    • 文件大小:226304
    • 提供者:a8892882
  1. snoics-reptile 网页爬虫2.0

  2. 1、snoics-reptile是什么? 是用纯Java开发的,用来进行网站镜像抓取的工具,可以使用配制文件中提供的URL入口, 把这个网站所有的能用浏览器通过GET的方式获取到的资源全部抓取到本地,包括网页和各 种类型的文件,如:图片、flash、mp3、zip、rar、exe等文件。可以将整个网站完整地下传至 硬盘内,并能保持原有的网站结构精确不变。只需要把抓取下来的网站放到web服务器 (如:Apache)中,就可以实现完整的网站镜像。 2、现在已经有了其他的类似的软件,为什么还要开发s
  3. 所属分类:Java

    • 发布日期:2006-06-05
    • 文件大小:4194304
    • 提供者:chenxh
  1. 网络爬虫Java实现原理.doc

  2. 网络爬虫(Spider)Java实现原理 收藏 “网络蜘蛛”或者说“网络爬虫”,是一种能访问网站并跟踪链接的程序,通过它,可快速地画出一个网站所包含的网页地图信息。本文主要讲述如何使用Java编程来构建一个“蜘蛛”,我们会先以一个可复用的蜘蛛类包装一个基本的“蜘蛛”,并在示例程序中演示如何创建一个特定的“蜘蛛”来扫描相关网站并找出死链接。 Java语言在此非常适合构建一个“蜘蛛”程序,其内建了对HTTP协议的支持,通过它可以传输大部分的网页信息;其还内建了一个HTML解析器,正是这两个原因使J
  3. 所属分类:Java

    • 发布日期:2013-03-21
    • 文件大小:64512
    • 提供者:yangdong0906
  1. WebMagic 0.4.0 发布,Java爬虫框架

  2. 此次更新主要对下载模块进行了优化 并增加了同步下载的API 同时对代码进行了一些重构 一 Downloader部分更新: 升级HttpClient到4 3 1 重写了HttpClientDownloader的代码 #32 在http请求中主动开启gzip 降低传输开销 #31 修复0 3 2及之前版本连接池不生效的问题 #30 使用HttpClient 4 3 1新的连接池机制 实现连接复用功能 经测试 下载速度可达到90%左右的提升 测试代码:Kr36NewsModel java 二 增加同
  3. 所属分类:Java

    • 发布日期:2013-11-08
    • 文件大小:269312
    • 提供者:aqtata
  1. vaadin之书(book-of-vaadin中文版)

  2. vaadin的中文资料很少,在网上找了很久,发现了这本书,与大家分享一下。打开的时候请选择正确的编码(UTF-8)。大概目录如下: 前言 I. 简介 1. 简介 1.1. 概述 1.2. 示例程序一瞥 1.3. 对 Eclipse IDE 的支持 1.4. Vaadin 的目标与哲学 1.5. 背景 2. 开始使用 Vaadin 2.1. 概述 2.2. 设置开发环境 2.2.1. 安装 Java SDK 2.2.2. 安装 Eclipse IDE 2.2.3. 安装 Apache Tomca
  3. 所属分类:Java

    • 发布日期:2014-09-22
    • 文件大小:26214400
    • 提供者:lsh370190322
  1. 精易模块[源码] V5.15

  2. 精易模块 V5.15 what’s new:(2015XXXX) 1、新增“线程_枚举”枚举指定进程ID中所有线程列表,成功返回线程数量,失败返回零。 2、删除“文件_取图标”与"文件_取图标句柄"功能重复。 3、优化“系统_创建桌面快捷方式”流程代码,感谢易友[ds9660]反馈。 4、修正“IP_10进制转IP”与“IP_16进制转IP”命令反向的问题,感谢易友[@humanbean ]反馈。 5、改善“网页_访问”死循环代码,感谢易友[@67564226]反馈。 6、优化“文本_取随机数
  3. 所属分类:其它

    • 发布日期:2015-03-21
    • 文件大小:586752
    • 提供者:qq598888903
  1. Mini-Search-Engine

  2. Mini-Search-Engine 迷你搜索引擎项目,后台程序在Linux环境下用C/C++开发,前台页面在windows环境下用PHP实现。 关键技术 1.网络爬虫爬网页 从配置文件中读取初始url 将初始url存入一个用于广度遍历的队列中 开始广度优先遍历队列 对每个出队的url提取需要的信息(怎么解析HTML) 对从网页中爬取到的每一个url判断是否重复,若不重复则入列。(怎么url去重) 2.初始化系统 从配置文件中读系统信息,例如服务器ip、端口号、页面文件位置、停用词文件位置等。
  3. 所属分类:C++

    • 发布日期:2016-10-11
    • 文件大小:1048576
    • 提供者:q6115759
  1. 最新Python3.5零基础+高级+完整项目(28周全)培训视频学习资料

  2. 最新Python3.5零基础+高级+完整项目(28周全)培训视频学习资料;本资料仅用于学习。 【课程内容】 第1周 开课介绍 python发展介绍 第一个python程序 变量 字符编码与二进制 字符编码的区别与介绍 用户交互程序 if else流程判断 while 循环 while 循环优化版本 for 循环及作业要求 第2周 本节鸡汤 模块初识 pyc是什么 python数据类型 bytes数据类型 列表的使用 元组与购物车程序练习 购物车程序练习实例 字符串常用操作 字典的使用 三级菜单
  3. 所属分类:Python

    • 发布日期:2018-06-13
    • 文件大小:94
    • 提供者:jihaichen
  1. web爬虫Heritrix.zip

  2. Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。 Heritrix是一个爬虫框架,其组织结构如图2.1所示,包含了整个组件和抓取流程: Heritrix采用的是模块化的设计,各个模块由一个控制器类(CrawlController类)来协调,控制器是整体的核心。控制器结构图如图2.2所示:   图2.
  3. 所属分类:其它

    • 发布日期:2019-07-19
    • 文件大小:2097152
    • 提供者:weixin_39840650
  1. Scrapy爬虫框架.pdf

  2. 通过对scrapy框架的几大组成模型通俗细致的讲解,让大家可以非常清楚地理解scrapy框架的整体工作流程。Scheduler nternet 调度器) (网络) Requests (请求) Item Pipeline Scrap Engine Downloader (数据管道) (引擎) (下载器) Downloader Middlewares Requests (下载中间件) (请求) Items 数据) Spider Middlewares 爬虫中间件) Responses (回应) Sp
  3. 所属分类:Python

    • 发布日期:2019-07-01
    • 文件大小:1038336
    • 提供者:yanyu95
  1. scrapy1.5中文文档

  2. scrapy1.5中文文档,自己翻译,github账号:https://github.com/v5yangzai/scrapy1.5-chinese-documentScrape 教程( Scrap Tutorial) 在这个教程,我们将假定你的系统上面已经安装好了 Scrap。如果不是这种情况,参考安装指导 我们将继续解剖quotes.scrape.com,一个列出许多名人引用的网站 这个教程将指导你一步一步完成以下任务: 1.创建一个新的 Scrap项目 2.写一个爬虫去爬取网站和提取数据
  3. 所属分类:Python

    • 发布日期:2019-03-23
    • 文件大小:5242880
    • 提供者:qq_36255965
  1. node.js基础模块http、网页分析工具cherrio实现爬虫

  2. 一、前言       说是爬虫初探,其实并没有用到爬虫相关第三方类库,主要用了node.js基础模块http、网页分析工具cherrio。 使用http直接获取url路径对应网页资源,然后使用cherrio分析。 这里我主要学习过的案例自己敲了一遍,加深理解。在coding的过程中,我第一次把jq获取后的对象直接用forEach遍历,直接报错,是因为jq没有对应的这个方法,只有js数组可以调用。 二、知识点     ①:superagent抓去网页工具。我暂时未用到。     ②:cherrio
  3. 所属分类:其它

    • 发布日期:2020-12-23
    • 文件大小:71680
    • 提供者:weixin_38501916
  1. 多线程实现的Java爬虫程序

  2. 以下是一个Java爬虫程序,它能从指定主页开始,按照指定的深度抓取该站点域名下的网页并维护简单索引。   参数:private static int webDepth = 2;//爬虫深度。   主页的深度为1,设置深度后超过该深度的网页不会抓取。     private int intThreadNum = 10;//线程数。开启的线程数。   抓取时也会在程序源文件目录下生成一个report.txt文件记录爬虫的运行情况,并在抓取结束后生成一个fileindex.txt文件维护网页文件
  3. 所属分类:其它

    • 发布日期:2020-12-22
    • 文件大小:56320
    • 提供者:weixin_38745859
  1. 《用python写网络爬虫》第二章,看不懂你打我。

  2. 正则表达式 Xpath BeautifulSoup 1、本章学习路径:正则表达式–>Xpath–>BeautifulSoup 2、Requests最核心的两个类: request(对HTTP请求的封装) response(对HTTP返回结果的封装) 一次HTTP请求其实就是:(1)构造request类、(2)发送HTTP请求、(3)等待服务器并获得服务器响应结果、(4)解析响应结果,并构造response类。 以上这四个步骤,只需一行代码即可实现:response=request.g
  3. 所属分类:其它

    • 发布日期:2020-12-22
    • 文件大小:494592
    • 提供者:weixin_38731075
  1. TextClassification:基于scikit-learn实现对新浪新闻的文本分类,数据集为100w篇文档,总计10类,测试集与训练集1:1划分。分类算法采用SVM和Bayes,其中Bayes作为基线-源码

  2. 新浪新闻文本分类 语料库重建 本项目的语料来源新浪新闻网,通过spider.py爬虫模块获得全部语料,总计获得10类新闻文本,每一类新闻文本有10条。 采纳新浪新闻网的一个api获取新闻文本,api的url为 使用进度池并发执行爬虫,加快抓取速度。 数据预处理 本项目的数据预处理包括:分词处理,去噪,向量化,由stopwords.py模块,text2term.py模块,vectorizer.py模块实现。 本项目借助第三方库解霸完成文本的分词处理。 通过停用词表移除中文停用词,通过正则表达式消除
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:100352
    • 提供者:weixin_42128270
« 12 »