您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. Sosoo 1.0网络爬虫程序.doc

  2. Sosoo 1.0网络爬虫程序 ---用户开发手册 编写人:王建华(rimen/jerry) 编写目的:基于sosoo定制web spider程序的编程人员。 目录 一:安装sosoo 2 二:功能定制 2 1.基本功能参数的设置。 2 2.配置机器人对url的检查 3 3:实现文件管理。 4 4.定制html文档下载规则。 4 5.设置对下载后http文档的过滤处理 5 6.启用机器人运行期监控。 5 7.启用对http协议分析的监控。 5 三:sosoo描述 6 四:应用开发指南 6 1.
  3. 所属分类:Web开发

    • 发布日期:2010-12-18
    • 文件大小:39936
    • 提供者:mfr625
  1. java网络爬虫小程序

  2. 设计并实现crawler 程序 对 crawler 的功能要求如下,但不限于此: (1) 能够搜集本站内的所有网页,能提取出其中的URL 并加入到待搜集的URL 队列 中,对非本网站域名的URL,只允许搜集首页,记录发现的URL 即可;对搜集的结果,产 生2 个URL 列表:站内搜集URL、非站内(站外)发现URL; (2)使用User-agent 向服务器表明自己的身份; (3)能对HTML 网页进行解析,提取出链接URL,能判别提取的URL 是否已处理过, 不重复下载和解析已搜集过的网页;
  3. 所属分类:Java

  1. 网络爬虫的设计与实现+毕业论文

  2. 网络爬虫是一种自动搜集互联网信息的程序。通过网络爬虫不仅能够为搜索引擎采集网络信息,而且可以作为定向信息采集器,定向采集某些网站下的特定信息,如招聘信息,租房信息等。 本文通过JAVA实现了一个基于广度优先算法的多线程爬虫程序。本论文阐述了网络爬虫实现中一些主要问题:为何使用广度优先的爬行策略,以及如何实现广度优先爬行;为何要使用多线程,以及如何实现多线程;系统实现过程中的数据存储;网页信息解析等。 通过实现这一爬虫程序,可以搜集某一站点的URLs,并将搜集到的URLs存入数据库。
  3. 所属分类:Java

  1. 用多线程实现的Java爬虫程序

  2. 本程序用到了多线程(静态变量和同步),泛型,文件操作,URL类和连接,Hashtable类关联数组,正则表达式及其相关类。运行时需使用命令行参数,第一个参数应使用http://开头的有效URL字符串作为爬虫的主页,第二个参数(可选)应输入可转换为int型的字符串(用Integer.parseInt(String s)静态方法可以转换的字符串,如3)作为爬虫深度,如果没有,则默认深度为2。
  3. 所属分类:Java

  1. 网络爬虫论文23

  2. 2007/07/26 12:43 110,532 Internet搜索引擎索引数据库的设计与实现.pdf 2007/07/26 12:38 750,492 Spider系统中LRU算法的使用和实现.pdf 2007/07/26 12:39 185,931 ε_贪婪策略在网络蜘蛛搜索策略中的应用.pdf 2007/07/26 12:41 404,462 一个增量搜集中国W eb的系统模型及其实现.pdf 2007/07/26 12:31 506,144 一种知识型网络爬虫的设计与实现.pdf 2
  3. 所属分类:数据库

    • 发布日期:2011-09-21
    • 文件大小:5242880
    • 提供者:john213
  1. Java初学者基础

  2. 1.数的进制之间的转换 2 2.打印等腰三角形 3 3.获取一个随机字符 4 4.运算符运用 4 5、String 5 6、集合 9 7、时间类 15 8、IO流 16 9、反射 26 10、网络编程(TCP/UDP) 28 多线程聊天程序(基于UDP) 28 TCP通信 33 文件上传(基于TCP) 36 实验测试浏览器与服务器之间的信息格式 40 简单HTTP服务器实现 41 简易网络爬虫 44
  3. 所属分类:Java

    • 发布日期:2011-11-19
    • 文件大小:560128
    • 提供者:huqiao1220
  1. 自己动手写网络爬虫(全).pdf

  2. 《自己动手写网络爬虫》介绍了网络爬虫开发中的关键问题与Java实现。主要包括从互联网获取信息与提取信息和对Web信息挖掘等内容。《自己动手写网络爬虫》在介绍基本原理的同时注重辅以具体代码实现来帮助读者加深理解,书中部分代码甚至可以直接使用。   《自己动手写网络爬虫》此书代码清晰,但是对初学者不太合适,因为完全没有介绍开发平台和配置环境,以及在程序中所用到的jar包,初学者的动手能力有限,使得程序很难调通,高手倒是可以挑战一下 第1章 全面剖析网络爬虫 3   1.1 抓取网页   1.1.1
  3. 所属分类:专业指导

    • 发布日期:2011-12-17
    • 文件大小:2097152
    • 提供者:usenamer
  1. java网络爬虫

  2. 用多线程实现的Java网络爬虫程序,它能从指定主页开始,按照指定的深度抓取该站点域名下的网页并维护简单索引。
  3. 所属分类:Java

    • 发布日期:2012-07-01
    • 文件大小:1048576
    • 提供者:datasyman
  1. 自己用java做的一个类似网页爬虫的东西

  2. 能实现整个网站的抓取,暂时还不支持javascr ipt形式的连接 能抓取网页,网页中的所有的URL重新生成,图片,文件,包括所有格式的文件,全部都能保持原有的路径结构 抓取下的网页,通过apache搭建成网站,能在本地保持成一个完整的网站的形式 能直接使用,也能支持二次开发使用,不过暂时还会存在比较多的不完善的地方. 提供内置线程,能控制抓取操作执行的时间,循环执行 东西还不是很完善,欢迎大家提出意见
  3. 所属分类:Java

    • 发布日期:2006-02-24
    • 文件大小:783360
    • 提供者:chenxh
  1. java网络爬虫 多线程

  2. 用多线程实现的Java爬虫程序 非本人所写,但认为代码不错,可以学习和借鉴
  3. 所属分类:Java

    • 发布日期:2012-12-19
    • 文件大小:51200
    • 提供者:jsjhxqh
  1. 网络爬虫小程序

  2. 设计并实现crawler 程序 对 crawler 的功能要求如下,但不限于此: (1) 能够搜集本站内的所有网页,能提取出其中的URL 并加入到待搜集的URL 队列 中,对非本网站域名的URL,只允许搜集首页,记录发现的URL 即可;对搜集的结果,产 生2 个URL 列表:站内搜集URL、非站内(站外)发现URL; (2)使用User-agent 向服务器表明自己的身份; (3)能对HTML 网页进行解析,提取出链接URL,能判别提取的URL 是否已处理过, 不重复下载和解析已搜集过的网页;
  3. 所属分类:Java

  1. 简单Java搜索引擎实现——豆瓣主题搜索

  2. 这是信息检索课程的一个课后大作业,实现简单的搜索引擎功能,有多线程爬虫,中文分词,倒排索引,查询模型等内容。后台用Java实现,前台是一个简单的jsp界面。后粗糙,须建一个数据库,可从程序中Page类看出,就一张表,很简单。在运行前,需要先运行crawler类,保证从网页爬取数据,存在raws文件夹内。
  3. 所属分类:Java

    • 发布日期:2013-06-25
    • 文件大小:1048576
    • 提供者:jul324
  1. vaadin之书(book-of-vaadin中文版)

  2. vaadin的中文资料很少,在网上找了很久,发现了这本书,与大家分享一下。打开的时候请选择正确的编码(UTF-8)。大概目录如下: 前言 I. 简介 1. 简介 1.1. 概述 1.2. 示例程序一瞥 1.3. 对 Eclipse IDE 的支持 1.4. Vaadin 的目标与哲学 1.5. 背景 2. 开始使用 Vaadin 2.1. 概述 2.2. 设置开发环境 2.2.1. 安装 Java SDK 2.2.2. 安装 Eclipse IDE 2.2.3. 安装 Apache Tomca
  3. 所属分类:Java

    • 发布日期:2014-09-22
    • 文件大小:26214400
    • 提供者:lsh370190322
  1. Python入门网络爬虫之精华版

  2. Python入门网络爬虫之精华版 Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 另外,比较常用的爬虫框架Scrapy,这里最后也详细介绍一下。 首先列举一下本人总结的相关文章,这些覆盖了入门网络爬虫需要的基本概念和技巧:宁哥的小站-网络爬虫 当我们在浏览器中输入一个url后回车,后台会发生什么?比如说你输入http://www.lining0806.com/,你就会看到宁哥的小站首页。 简单来说这段过程发生了以下四个步骤: 查找域名对应的IP地址。 向IP对应的服务器发送请求
  3. 所属分类:Python

    • 发布日期:2016-11-04
    • 文件大小:5120
    • 提供者:q6115759
  1. httpclient + jsoup java爬虫DEMO

  2. java爬虫,代码写的有点丑,反正是能用。 今天给大家分享一个多线程的知识点,和线程池,最近任务是写爬虫,五百个网址,循环很慢,然后考虑用多线程,今天看了一下多线程,氛围继承thread 和实现runnuble接口,差不多这么拼写的,区别在于runnuble接口可以共享资源,当然,也就考虑到了线程安全问题,都知道,for循环中的int i 是非线程安全的,先不聊原子性的,直说多线程,实现runnble接口,刚开始会导致数据重复,查询资料,说事因为线程不安全导致,因为涉及到征用乱七八招的东西,然
  3. 所属分类:Java

    • 发布日期:2018-08-02
    • 文件大小:57671680
    • 提供者:yichen01010
  1. 主题网络爬虫

  2. 网络爬虫是一种能够自动采集互联网信息的程序。网络爬虫不但能够作为搜索引擎的采集器,而且可以用于特定信息的采集,根据某些特定的要求采集网站中的信息,如就业,租房信息等。本文设计并实现了一种基于主题的网络爬虫程序。网络爬虫采用何种搜索策略和如何评价当前页面的主题相关度是基于主题的网络爬虫需要解决的关键问题。本文设计的网络爬虫采用广度优先搜索,对url进行解析、去重等。并应用Java多线程,使爬虫在抓取网页的过程中更有效率。通常评价页面相关度是采用基于内容评价的搜索策略,本文实现了三个常用的相关度评
  3. 所属分类:Java

    • 发布日期:2018-08-18
    • 文件大小:35840
    • 提供者:qq_43000290
  1. 黑马57期黑马最新资源来咯

  2. 黑马57期 视频 下载 黑马57期.jpg 资料目录: 黑马57期 |____27 |____软件测试相搭配的测试工具 |____软件测试教程讲义 |____9.QC管理学习(类禅道)学习 |____8.性能测试LoadRunner |____7.接口视频Jmeter |____6.移动端项目测试视频appium |____5.web自动化测试视频selenium |____4.编程数据结构python6学习教程 |____3.深入了解软件测试基础视频 |____2.Linux和数据库SQL
  3. 所属分类:Java

    • 发布日期:2019-04-28
    • 文件大小:116
    • 提供者:qq_32718315
  1. python 2.5 学习笔记

  2. NULL 博文链接:https://shixm.iteye.com/blog/381884abstract Python is an easy to learn, powerful programming language. It has efficient high-level data structures and a simple but effective approach to ohject-oriented programming. Python's elegant syntax a
  3. 所属分类:其它

    • 发布日期:2019-03-16
    • 文件大小:1048576
    • 提供者:weixin_38669628
  1. 多线程实现的Java爬虫程序

  2. 以下是一个Java爬虫程序,它能从指定主页开始,按照指定的深度抓取该站点域名下的网页并维护简单索引。   参数:private static int webDepth = 2;//爬虫深度。   主页的深度为1,设置深度后超过该深度的网页不会抓取。     private int intThreadNum = 10;//线程数。开启的线程数。   抓取时也会在程序源文件目录下生成一个report.txt文件记录爬虫的运行情况,并在抓取结束后生成一个fileindex.txt文件维护网页文件
  3. 所属分类:其它

    • 发布日期:2020-12-22
    • 文件大小:56320
    • 提供者:weixin_38745859