您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. Lucene+Nutch搜索 光盘源码

  2. 1.光盘中所附代码的运行环境 操作系统Microsoft Windows 2000/XP及以上 服务器Tomcat 5.5版本 数据库SQL Server 2000以上版本 Java 支持环境JDK 1.6.0版本 2.本书所附光盘范例 代码安装说明:在Eclipse环境下直接选取“import->Existing Project”,导入希望调试的工程。为了测试方便,每个工程保持独立,能够独立编译和运行,部分工程需要引入Lucene相应的Jar包支持。 光盘内文件列表说明: Eclips
  3. 所属分类:Java

    • 发布日期:2009-04-28
    • 文件大小:22020096
    • 提供者:luzhaoneng
  1. C#网络蜘蛛源程序及搜索引擎技术揭密

  2. 网络 蜘蛛基本原理 网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网页的 内容 ,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一 个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。 对于搜索引擎来说,要抓取互联网上所有的网页几乎
  3. 所属分类:网络基础

    • 发布日期:2009-07-28
    • 文件大小:268288
    • 提供者:wang3c
  1. 搜索引擎原理.pdf

  2. 前言 随着互联网的不断发展和日益普及,网上的信息量在爆炸性增长,在2004年4月,全球Web页面的数目已经超过40亿,中国的网页数估计也超过了3亿。目前人们从网上获得信息的主要工具是浏览器,而通过浏览器得到信息通常有三种方式。第一,直接向浏览器输入一个关心的网址(URL),例如http://net.pku.edu.cn,浏览器返回所请求的网页,根据该网页内容及其包含的超链文字(anchor text)的引导,获得自己需要的内容;第二,登录到某个知名门户网站,例如http://www.yahoo
  3. 所属分类:网络基础

    • 发布日期:2010-02-22
    • 文件大小:3145728
    • 提供者:fan7hoo
  1. c#多线程抓取网页内容

  2. 在《爬虫/蜘蛛程序的制作(C#语言)》一文中,已经介绍了爬虫程序实现的基本方法,可以说,已经实现了爬虫的功能。只是它存在一个效率问题,下载速度可能很慢。这是两方面的原因造成的: 1. 分析和下载不能同步进行。在《爬虫/蜘蛛程序的制作(C#语言)》中已经介绍了爬虫程序的两个步骤:分析和下载。在单线程的程序中,两者是无法同时进行的。也就是说,分析时会造成网络空闲,分析的时间越长,下载的效率越低。反之也是一样,下载时无法同时进行分析,只有停下下载后才能进行下一步的分析。问题浮出水面,我想大家都会想到
  3. 所属分类:C#

    • 发布日期:2010-12-18
    • 文件大小:6144
    • 提供者:mfr625
  1. java网络爬虫小程序

  2. 设计并实现crawler 程序 对 crawler 的功能要求如下,但不限于此: (1) 能够搜集本站内的所有网页,能提取出其中的URL 并加入到待搜集的URL 队列 中,对非本网站域名的URL,只允许搜集首页,记录发现的URL 即可;对搜集的结果,产 生2 个URL 列表:站内搜集URL、非站内(站外)发现URL; (2)使用User-agent 向服务器表明自己的身份; (3)能对HTML 网页进行解析,提取出链接URL,能判别提取的URL 是否已处理过, 不重复下载和解析已搜集过的网页;
  3. 所属分类:Java

  1. 彗星小助手,编程人员的好伴侣

  2. 窗口SPY,探测、操作外部窗口 基于 Win32 的实用工具,它提供系统的进程、线程、窗口和窗口消息的图形视图。使用窗口SPY可以执行下列操作: 显示系统对象(包括进程、线程和窗口)之间关系的图形树。 搜索指定的窗口、线程、进程或消息... 网页SPY,探测资源、解除限制网页 在线分析和修改器,它可以分析Microsoft Internet Explorer或是嵌套在应用程序中的浏览器窗口中正在浏览的网页内容,在保持连线状态下实时地修改它。通过使用网页SPY,你可以针对网页内每一个元素做修改,
  3. 所属分类:其它

    • 发布日期:2011-07-24
    • 文件大小:1048576
    • 提供者:ymghg
  1. 彗星小助手

  2. 窗口SPY,探测、操作外部窗口 基于 Win32 的实用工具,它提供系统的进程、线程、窗口和窗口消息的图形视图。使用窗口SPY可以执行下列操作: 显示系统对象(包括进程、线程和窗口)之间关系的图形树。 搜索指定的窗口、线程、进程或消息... 网页SPY,探测资源、解除限制网页 在线分析和修改器,它可以分析Microsoft Internet Explorer或是嵌套在应用程序中的浏览器窗口中正在浏览的网页内容,在保持连线状态下实时地修改它。通过使用网页SPY,你可以针对网页内每一个元素做修改,
  3. 所属分类:其它

    • 发布日期:2011-10-05
    • 文件大小:1048576
    • 提供者:pglsgh
  1. 彗星小助手

  2. 您是一个程序员?那彗星小助手肯定对您有用,它是一款程序开发、制作软件必备工具,用来分析窗口SPY,探测、操作外部窗口的一个小东东。 彗星小助手是基于Win32的实用工具,它提供系统的进程、线程、窗口和窗口消息的图形视图。使用窗口SPY可以执行下列操作: 显示系统对象(包括进程、线程和窗口)之间关系的图形树。 搜索指定的窗口、线程、进程或消息…网页SPY,探测资源、解除限制网页 在线分析和修改器,它可以分析Microsoft Internet Explorer或是嵌套在应用程序中的浏览器窗口中正
  3. 所属分类:网络监控

    • 发布日期:2011-11-15
    • 文件大小:1048576
    • 提供者:zhongguoren666
  1. 网址提取器

  2. 提取网页上网址.方便整理。群发。 软件使用方法: 1、本软件用于从百度搜索引擎或者具体网页上提取链接,主要用途是搜索留言本、论坛、blog等地址 2、在文本框内输入关键词或网址,点击“开始提取”即可,软件自动在搜索引擎结果里提取符合条件的链接 3、如果从搜索引擎里提取,就填写关键词。比如 签写留言(提取留言本) 、Powered by Discuz(提取discuz类型的论坛)等;如果是从某页面提取,就填写完整的网址,比如 http://www.sina.com.cn/ 3、双击提取结果内的链
  3. 所属分类:其它

    • 发布日期:2011-11-23
    • 文件大小:227328
    • 提供者:wanchabei
  1. java网络爬虫,网络检索作业

  2. 实现了一下功能: (1) 能够搜集本站内的所有网页,能提取出其中的URL并加入到待搜集的URL队列中,对非本网站域名的URL,只允许搜集首页,记录发现的URL即可;对搜集的结果,产生2个URL列表:站内搜集URL、非站内(站外)发现URL; (2)使用User-agent向服务器表明自己的身份; (3)能对HTML网页进行解析,提取出链接URL,能判别提取的URL是否已处理过,不重复下载和解析已搜集过的网页; (4)能够对crawler的一些基本参数进行设置,包括:搜集深度(depth)、文件
  3. 所属分类:Java

    • 发布日期:2012-05-21
    • 文件大小:838656
    • 提供者:alex_ti20705
  1. 网页页面图片批量下载

  2. 运行环境 .NET Framework2.0 开发工具 Microsoft Visual Studio 2005 二. 部分代码说明(主要讲解异步分析和下载): 异步分析下载采取的策略是同时分析同时下载,即未等待数据全部分析完毕就开始把已经分析出来的图片链接开始下载。下载成功的均在List框链接前面划上了√ ,未能下载的图片有可能是分析错误或者是下载异常。 1. 异步分析部分代码 /// /// 异步分析下载 /// private void AsyncAnalyzeAndDownload
  3. 所属分类:其它

    • 发布日期:2012-06-19
    • 文件大小:12288
    • 提供者:wubianyouxia
  1. 搜索引擎——原理、技术与系统

  2. 本书以我们设计、实现并维护运行北大“天网”搜索引擎的经验,介绍大规模搜索引擎的工作原理和实现技术。我们要向读者揭示,为什么向搜索引擎输入一个关键词或者短语,就能够在秒钟内得到那么多相关的文档及其摘要,而点击其中的链接就能够被引导到文档的全文,且其中相当一部分可能正是用户需要的。 我们按照上、中、下三篇展开相关的内容。上篇讲搜索引擎的基本工作原理,要解决的是为什么搜索引擎能提供如此信息查找服务的问题,以及它在功能上有什么本质的局限性。这一篇的内容包括网页的搜集过程,网页信息的提取、组织方式和索引
  3. 所属分类:网络基础

    • 发布日期:2008-08-28
    • 文件大小:3145728
    • 提供者:littlefang
  1. 网络爬虫小程序

  2. 设计并实现crawler 程序 对 crawler 的功能要求如下,但不限于此: (1) 能够搜集本站内的所有网页,能提取出其中的URL 并加入到待搜集的URL 队列 中,对非本网站域名的URL,只允许搜集首页,记录发现的URL 即可;对搜集的结果,产 生2 个URL 列表:站内搜集URL、非站内(站外)发现URL; (2)使用User-agent 向服务器表明自己的身份; (3)能对HTML 网页进行解析,提取出链接URL,能判别提取的URL 是否已处理过, 不重复下载和解析已搜集过的网页;
  3. 所属分类:Java

  1. 提取网页内的所有超链接例程

  2. 提取网页超链接 有两个例程 一个是提取本地静态网页的所有超链接 第二个是通过ie的接口获得当前ie的网页内的所有超链接 用mfc编写
  3. 所属分类:C/C++

    • 发布日期:2013-04-12
    • 文件大小:2097152
    • 提供者:lilang66
  1. 网页链接提取

  2. 这是一款可以提取任意网页内所有链接的工具。 搭配火车头等采集软件可以大大提高站长做内容的效率。 因此,资源分设置为10分。 大家不要有意见哟~ 需要采集软件的可以私信我。
  3. 所属分类:其它

    • 发布日期:2013-09-19
    • 文件大小:102400
    • 提供者:a0311223
  1. 链接提取工具

  2. 就是一个网页内所有链接提取的工具 简单好用绝对值得信赖
  3. 所属分类:C

    • 发布日期:2015-01-18
    • 文件大小:48128
    • 提供者:qq_25422353
  1. 一把抓网页抓取工具

  2. 一把抓是一款可以帮助用户提取完整网站内容的工具。用户可以下载网站单个页面或多个页面,包括JS、CSS、图片、背景图片、音乐、Flash 一把抓 特点: 1、一键下载页面所有内容,并自动更换网络链接为本地链接 2、一键下载多个页面所有内容,并自动更换网络链接为本地链接 3、选择性下载单张页面的任意图片,包括JS、CSS图片 4、内置丰富的网站模板库,任您选择。 5、内置丰富的图片素材模板库,任您选择。 6、有版本更新自动更新,无需重新下载。 7、无弹窗、无插件。
  3. 所属分类:互联网

    • 发布日期:2015-05-17
    • 文件大小:25165824
    • 提供者:yz18605506346
  1. 智动网页内容采集器 v1.92.zip

  2. 智动网页内容采集器可用多任务多线程方式采集任何网页上的任何指定文本内容,并进行你需要的相应过滤和处理,可以用搜索关键词方式采集需要的指定搜索结果。 1、采用底层HTTP方式采集数据,快速稳定,可建多个任务多线程采同时采集多个网站数据   2、用户可以随意导入导出任务  3、任务可以设置密码,并具有N页采集暂停,采集遇特殊标记暂停等多种破解防采集功能  4、可以直接输入网址采,或Javascr ipt脚本生成网址,或以关键词搜索方式采集  5、可以用登录采集方式采集需要登录帐号才能查看的
  3. 所属分类:其它

    • 发布日期:2019-07-15
    • 文件大小:408576
    • 提供者:weixin_39840515
  1. Python爬虫获取页面所有URL链接过程详解

  2. 如何获取一个页面内所有URL链接?在Python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL。 什么是Beautiful Soup? Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换
  3. 所属分类:其它

    • 发布日期:2020-12-17
    • 文件大小:47104
    • 提供者:weixin_38731979
  1. 网页图片批量获取(Python教程)

  2. 推荐自己的专栏:玩一玩爬虫咯 文章中的许多代码都有对于路径的操作,代码中所给路径仅作参考,请根据自身情况进行适配 本文仅作敲砖引玉之用,所讲解知识点有限,只讲解了文本代码中用到的知识点 文章目录图片下载(知识点)正则表达式(知识点)图片链接提取(例题)文本内容分析(例题)图片批量下载(例题) 图片下载(知识点) urllib 库 我们首先了解一下 urllib 库,它是 Python 内置的 HTTP 请求库,也就是说我们不需要额外安装即可使用,它包含四个模块: 第一个模块 request,它
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:184320
    • 提供者:weixin_38538950
« 12 3 4 5 6 »