您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 应用Web挖掘的主题元搜索引擎的设计与实现

  2. 本论文介绍了应用Web数据挖掘,基于开源搜索引擎Nutch 0.9及相关软件包,结合主题搜索引擎和元搜索引擎的特点,设计和实现一个主题元搜索引擎TSMSE,借以改善通用全文搜索引擎的查全率和查准率。 论文首先开发了主题提取器TopicDistiller,应用Web内容挖掘和Web链接分析,从通用搜索引擎检索结果网页集中提取主题词集和种子站点用于主题表示,为后续主题元搜索引擎的主题判断和主题度计算提供了依据。 论文接着提出了具有独立数据库的主题元搜索引擎TSMSE的设计思想,将元搜索引擎综合各个
  3. 所属分类:Web开发

    • 发布日期:2010-01-10
    • 文件大小:4194304
    • 提供者:yangdanbo1975
  1. Nutch入门学习 搜索引擎

  2. Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。
  3. 所属分类:Java

    • 发布日期:2010-04-19
    • 文件大小:1048576
    • 提供者:wangjianli007
  1. Linux下Nutch分布式配置和使用

  2. Linux下Nutch分布式配置 使用:分布式爬虫、索引、Nutch搜索本地数据、Nutch搜索HDFS数据。
  3. 所属分类:Linux

    • 发布日期:2010-05-28
    • 文件大小:518144
    • 提供者:zklth
  1. 基于lucene的搜索引擎的设计与实现

  2. 对网络搜索引擎技术进行简要研究,学习搜索引擎完成搜索工作的整个流程中涉及的各种技术,并采用开源工具Nutch、Lucene实现一个简单的搜索引擎,具体功能如下: 1、熟悉网络爬虫程序,采用开源的爬虫工具采集指定网站的网页。 2、采用Nutch、Lucene工具包对采集到的信息进行分词、索引、排序、生成摘要等。 3、设计搜索引擎门户页面,为用户提供搜索服务。
  3. 所属分类:其它

    • 发布日期:2011-06-29
    • 文件大小:1048576
    • 提供者:kh12345
  1. nutch 入门教程

  2. Nutch是一个开源的、Java实现的搜索引擎。它提供了我们运行自己的搜 索引擎所需的全部工具。 本教程主要讲述nutch如何使用,以及运行原理和用到的关键技术,比较适合初学者使用。
  3. 所属分类:Java

    • 发布日期:2011-12-22
    • 文件大小:1048576
    • 提供者:ren50486
  1. nutch入门教程

  2. 1.1 什么是 nutch Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜 引擎所需的全部工具。 1.2 研究 nutch的原因 可能有的朋友会有疑问,我们有 google,有百度,为何还需要建立自己的搜索 擎呢?这里我列出 3 点原因: (1) 透明度:nutch 是开放源代码的,因此任何人都可以查看他的排序算法 是如何工作的。商业的搜索引擎排序算法都是保密的,我们无法知道为 什么搜索出来的排序结果是如何算出来的。更进一步,一些搜索引擎允 许竞价排名,比如百度,
  3. 所属分类:Web开发

    • 发布日期:2013-09-23
    • 文件大小:939008
    • 提供者:wjs123456789
  1. Nutch公开课从搜索引擎到网络爬虫

  2. 课程背景:Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。在Nutch的进化过程中,产生了Hadoop、Tika和Gora三个Java开源项目。如今这三个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开
  3. 所属分类:Java

    • 发布日期:2013-09-24
    • 文件大小:2097152
    • 提供者:yangshangchuan
  1. Web Crawling and Data Mining with Apache Nutch

  2. Learn to run your application on single as well as multiple machines Customize search in your application as per your requirements Acquaint yourself with storing crawled webpages in a database and use them according to your needs
  3. 所属分类:Java

    • 发布日期:2014-03-01
    • 文件大小:2097152
    • 提供者:whlgh
  1. Nutch:从搜索引擎到网络爬虫

  2. Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目。在Nutch的进化过程中,产生了Hadoop、Tika和Gora三个Java开源项目。如今这三个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。
  3. 所属分类:讲义

    • 发布日期:2014-05-29
    • 文件大小:19922944
    • 提供者:fat1
  1. nutch ,爬虫

  2. Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行
  3. 所属分类:硬件开发

    • 发布日期:2016-09-21
    • 文件大小:1048576
    • 提供者:liuxuuebin
  1. Apache Nutch v1.15

  2. Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。 在Nutch的进化过程中,产生了Hadoop、Tika、Gora和Crawler Comm
  3. 所属分类:Java

    • 发布日期:2018-08-14
    • 文件大小:7340032
    • 提供者:qq_37847802
  1. Nutch相关框架视频教程 讲义 杨尚川

  2. 1、 通过nutch,诞生了hadoop、tika、gora。 2、 nutch通过ivy来进行依赖管理(1.2之后)。 3、 nutch是使用svn进行源代码管理的。 4、 lucene、nutch、hadoop,在搜索界相当有名。 5、 ant构建之后,生成runtime文件夹,该文件夹下面有deploy和local文件夹,分别代表了nutch的两种运行方式。 6、 nutch和hadoop是通过什么连接起来的?通过nutch脚本。通过hadoop命令把apache-nutch-1.6.j
  3. 所属分类:算法与数据结构

    • 发布日期:2018-10-24
    • 文件大小:77824
    • 提供者:panpanxuhebei
  1. Nutch入门.rar

  2. Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 目 录 1. nutch简介...1 1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置......5 3. nutch初体验7 3.1 爬行
  3. 所属分类:其它

    • 发布日期:2019-07-09
    • 文件大小:935936
    • 提供者:weixin_39840387
  1. xmg-gecco-demo-master.zip

  2. 一个gecco爬虫框架,简单易用,使用jquery风格的选择器抽取元素 支持爬取规则的动态配置和加载 支持页面中的异步ajax请求 支持页面中的javascr ipt变量抽取 利用Redis实现分布式抓取,参考gecco-redis 支持结合Spring开发业务逻辑,参考gecco-spring 支持htmlunit扩展,参考gecco-htmlunit 支持插件扩展机制 支持下载时UserAgent随机选取 支持下载代理服务器随机选取 Gecco是一款用java语言开发的轻量化的易用的网络爬
  3. 所属分类:互联网

    • 发布日期:2020-04-23
    • 文件大小:5242880
    • 提供者:qq_35100963
  1. nutch入门.pdf

  2. NULL 博文链接:https://qidaoxp.iteye.com/blog/1072832入门学习 概述 文件系统语法 文件系统设计 系统的可用性 文件系统工作架构 应用 修改源码 插件机制 什么是 使用的好处 工作原理 编 接口 使用 使用 的应用前景 附录一 的相关网站 附录二参考文献 北京邮电大学一李阳 入门学习 简介 什么是 是一个开源的、实现的搜索引擎。它提供了我们运行自己的搜 索引擎所需的全部工具。 研究 的原因 可能有的朋友会有疑问我们有 有百度为何还需要建立自己的搜索 引
  3. 所属分类:其它

    • 发布日期:2019-03-23
    • 文件大小:1048576
    • 提供者:weixin_38669628
  1. apache-nutch-1.16.rar 已编译好的版本,可以直接导入eclipse、idea

  2. 已编译好的版本,可以直接导入eclipse、idea。Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
  3. 所属分类:其它

    • 发布日期:2020-07-17
    • 文件大小:737148928
    • 提供者:shehuan320_
  1. Apache Nutch Java网络爬虫 v1.15

  2. Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引
  3. 所属分类:其它

    • 发布日期:2020-10-10
    • 文件大小:7340032
    • 提供者:weixin_38592455
  1. Apache Nutch Java网络爬虫系统 v2.3.1

  2. Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引
  3. 所属分类:其它

    • 发布日期:2020-11-26
    • 文件大小:7340032
    • 提供者:weixin_38731479
  1. Apache Nutch Java网络爬虫系统 v1.14

  2. Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引
  3. 所属分类:其它

    • 发布日期:2020-11-26
    • 文件大小:8388608
    • 提供者:weixin_38662327
  1. 通过网络爬虫采集大数据

  2. 网络数据采集是指通过网络爬虫或网站公开 API 等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。 在互联网时代,网络爬虫主要是为搜索引擎提供最全面和最新的数据。 在大数据时代,网络爬虫更是从互联网上采集数据的有利工具。目前已经知道的各种网络爬虫工具已经有上百个,网络爬虫工具基本可以分为 3 类。 分布式网络爬虫工具,如 Nutch。 Java 网络爬虫工具,
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:250880
    • 提供者:weixin_38529293
« 12 »