您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 应用Web挖掘的主题元搜索引擎的设计与实现

  2. 本论文介绍了应用Web数据挖掘,基于开源搜索引擎Nutch 0.9及相关软件包,结合主题搜索引擎和元搜索引擎的特点,设计和实现一个主题元搜索引擎TSMSE,借以改善通用全文搜索引擎的查全率和查准率。 论文首先开发了主题提取器TopicDistiller,应用Web内容挖掘和Web链接分析,从通用搜索引擎检索结果网页集中提取主题词集和种子站点用于主题表示,为后续主题元搜索引擎的主题判断和主题度计算提供了依据。 论文接着提出了具有独立数据库的主题元搜索引擎TSMSE的设计思想,将元搜索引擎综合各个
  3. 所属分类:Web开发

    • 发布日期:2010-01-10
    • 文件大小:4194304
    • 提供者:yangdanbo1975
  1. Nutch入门学习 搜索引擎

  2. Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。
  3. 所属分类:Java

    • 发布日期:2010-04-19
    • 文件大小:1048576
    • 提供者:wangjianli007
  1. Linux下Nutch分布式配置和使用

  2. Linux下Nutch分布式配置 使用:分布式爬虫、索引、Nutch搜索本地数据、Nutch搜索HDFS数据。
  3. 所属分类:Linux

    • 发布日期:2010-05-28
    • 文件大小:518144
    • 提供者:zklth
  1. hadoop开发者第二期发布版v3.pdf

  2. 目录 1、Hadoop 业界资讯......................................... - 1 - 2、Nutch + Hadoop 构建商用分布式搜索引擎的问题探究 ........... - 5 - 3、支持自定义爬虫的Nutch segment文件存储接口改写........... - 11 - 4、Nutch中mapreduce应用的几个特殊点 ...................... - 14 - 5、Java RMI + Lucene 构建分布式检索
  3. 所属分类:Web开发

    • 发布日期:2010-06-04
    • 文件大小:2097152
    • 提供者:tanglihui
  1. hadoop开发者第二期发布版v3

  2. 目录:1、Hadoop 业界资讯......................................... - 1 - 2、Nutch + Hadoop 构建商用分布式搜索引擎的问题探究 ........... - 5 - 3、支持自定义爬虫的Nutch segment文件存储接口改写........... - 11 - 4、Nutch中mapreduce应用的几个特殊点 ...................... - 14 - 5、Java RMI + Lucene 构建分布式检索
  3. 所属分类:Web开发

  1. Hadoop开发者第二期

  2. 1、Hadoop 业界资讯 2、Nutch + Hadoop 构建商用分布式搜索引擎的问题探究 3、支持自定义爬虫的Nutch segment文件存储接口改写 4、Nutch中mapreduce应用的几个特殊点 5、Java RMI + Lucene 构建分布式检索应用初探 6、一对多的表关联在mapreduce中的应用(续) 7、InputSplit文件格式分析 8、短评:HDFS、MapReduce和HBase三者相辅相成、各有长处 9、HDFS在web开发中的应用 10、Mapreduc
  3. 所属分类:Web开发

    • 发布日期:2010-07-23
    • 文件大小:2097152
    • 提供者:ccgang
  1. hadoop开发者第二期发布版v3.pdf

  2. 1、Hadoop 业界资讯......................................... - 1 - 2、Nutch + Hadoop 构建商用分布式搜索引擎的问题探究 ........... - 5 - 3、支持自定义爬虫的Nutch segment文件存储接口改写........... - 11 - 4、Nutch中mapreduce应用的几个特殊点 ...................... - 14 - 5、Java RMI + Lucene 构建分布式检索应用初
  3. 所属分类:Web开发

    • 发布日期:2010-11-04
    • 文件大小:2097152
    • 提供者:jeasonchen
  1. nutch 入门教程

  2. Nutch是一个开源的、Java实现的搜索引擎。它提供了我们运行自己的搜 索引擎所需的全部工具。 本教程主要讲述nutch如何使用,以及运行原理和用到的关键技术,比较适合初学者使用。
  3. 所属分类:Java

    • 发布日期:2011-12-22
    • 文件大小:1048576
    • 提供者:ren50486
  1. nutch入门教程

  2. 1.1 什么是 nutch Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜 引擎所需的全部工具。 1.2 研究 nutch的原因 可能有的朋友会有疑问,我们有 google,有百度,为何还需要建立自己的搜索 擎呢?这里我列出 3 点原因: (1) 透明度:nutch 是开放源代码的,因此任何人都可以查看他的排序算法 是如何工作的。商业的搜索引擎排序算法都是保密的,我们无法知道为 什么搜索出来的排序结果是如何算出来的。更进一步,一些搜索引擎允 许竞价排名,比如百度,
  3. 所属分类:Web开发

    • 发布日期:2013-09-23
    • 文件大小:939008
    • 提供者:wjs123456789
  1. Nutch公开课从搜索引擎到网络爬虫

  2. 课程背景:Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。在Nutch的进化过程中,产生了Hadoop、Tika和Gora三个Java开源项目。如今这三个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开
  3. 所属分类:Java

    • 发布日期:2013-09-24
    • 文件大小:2097152
    • 提供者:yangshangchuan
  1. Web Crawling and Data Mining with Apache Nutch

  2. Learn to run your application on single as well as multiple machines Customize search in your application as per your requirements Acquaint yourself with storing crawled webpages in a database and use them according to your needs
  3. 所属分类:Java

    • 发布日期:2014-03-01
    • 文件大小:2097152
    • 提供者:whlgh
  1. Nutch:从搜索引擎到网络爬虫

  2. Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目。在Nutch的进化过程中,产生了Hadoop、Tika和Gora三个Java开源项目。如今这三个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。
  3. 所属分类:讲义

    • 发布日期:2014-05-29
    • 文件大小:19922944
    • 提供者:fat1
  1. nutch ,爬虫

  2. Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行
  3. 所属分类:硬件开发

    • 发布日期:2016-09-21
    • 文件大小:1048576
    • 提供者:liuxuuebin
  1. Nutch相关框架视频教程 讲义 杨尚川

  2. 1、 通过nutch,诞生了hadoop、tika、gora。 2、 nutch通过ivy来进行依赖管理(1.2之后)。 3、 nutch是使用svn进行源代码管理的。 4、 lucene、nutch、hadoop,在搜索界相当有名。 5、 ant构建之后,生成runtime文件夹,该文件夹下面有deploy和local文件夹,分别代表了nutch的两种运行方式。 6、 nutch和hadoop是通过什么连接起来的?通过nutch脚本。通过hadoop命令把apache-nutch-1.6.j
  3. 所属分类:算法与数据结构

    • 发布日期:2018-10-24
    • 文件大小:77824
    • 提供者:panpanxuhebei
  1. nutch入门.pdf

  2. NULL 博文链接:https://qidaoxp.iteye.com/blog/1072832入门学习 概述 文件系统语法 文件系统设计 系统的可用性 文件系统工作架构 应用 修改源码 插件机制 什么是 使用的好处 工作原理 编 接口 使用 使用 的应用前景 附录一 的相关网站 附录二参考文献 北京邮电大学一李阳 入门学习 简介 什么是 是一个开源的、实现的搜索引擎。它提供了我们运行自己的搜 索引擎所需的全部工具。 研究 的原因 可能有的朋友会有疑问我们有 有百度为何还需要建立自己的搜索 引
  3. 所属分类:其它

    • 发布日期:2019-03-23
    • 文件大小:1048576
    • 提供者:weixin_38669628
  1. apache-nutch-1.16.rar 已编译好的版本,可以直接导入eclipse、idea

  2. 已编译好的版本,可以直接导入eclipse、idea。Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
  3. 所属分类:其它

    • 发布日期:2020-07-17
    • 文件大小:737148928
    • 提供者:shehuan320_
  1. Apache Nutch Java网络爬虫 v1.15

  2. Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引
  3. 所属分类:其它

    • 发布日期:2020-10-10
    • 文件大小:7340032
    • 提供者:weixin_38592455
  1. Apache Nutch Java网络爬虫系统 v2.3.1

  2. Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引
  3. 所属分类:其它

    • 发布日期:2020-11-26
    • 文件大小:7340032
    • 提供者:weixin_38731479
  1. Apache Nutch Java网络爬虫系统 v1.14

  2. Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引
  3. 所属分类:其它

    • 发布日期:2020-11-26
    • 文件大小:8388608
    • 提供者:weixin_38662327
  1. 通过网络爬虫采集大数据

  2. 网络数据采集是指通过网络爬虫或网站公开 API 等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。 在互联网时代,网络爬虫主要是为搜索引擎提供最全面和最新的数据。 在大数据时代,网络爬虫更是从互联网上采集数据的有利工具。目前已经知道的各种网络爬虫工具已经有上百个,网络爬虫工具基本可以分为 3 类。 分布式网络爬虫工具,如 Nutch。 Java 网络爬虫工具,
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:250880
    • 提供者:weixin_38529293
« 12 »