您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. Lucene的资源包

  2. Lucene 是一个用于开发搜索引擎的工具包,他提供了实现爬虫、分词、索引摘要等重要功能的接口
  3. 所属分类:Java

    • 发布日期:2010-03-30
    • 文件大小:1026048
    • 提供者:w81298487
  1. 一个例子学懂搜索引擎(lucene)

  2. lucene是一个很容易上手的搜索引擎框架,传统的搜索引擎,涉及到爬虫,也就是爬取网页,然后对网页进行加工,也就是索引,最后用于搜索,lucene这个框架可以很方便的帮你做到后面两个步骤,也就是索引和搜索!本文尝试通过一个例子,使大家掌握lucene的使用核心方法,包括分词、索引、搜索不同的目录、搜索不同的域,希望大家通过这个实例,对lucene和搜索引擎能有比较全面的认识!
  3. 所属分类:Java

    • 发布日期:2011-06-22
    • 文件大小:6291456
    • 提供者:Aginstallodds
  1. 基于lucene的搜索引擎的设计与实现

  2. 对网络搜索引擎技术进行简要研究,学习搜索引擎完成搜索工作的整个流程中涉及的各种技术,并采用开源工具Nutch、Lucene实现一个简单的搜索引擎,具体功能如下: 1、熟悉网络爬虫程序,采用开源的爬虫工具采集指定网站的网页。 2、采用Nutch、Lucene工具包对采集到的信息进行分词、索引、排序、生成摘要等。 3、设计搜索引擎门户页面,为用户提供搜索服务。
  3. 所属分类:其它

    • 发布日期:2011-06-29
    • 文件大小:1048576
    • 提供者:kh12345
  1. Baioogle-SearchEngine(百歌搜索引擎)

  2. 关于信息检索系统——“Baioogle-SearchEngine(百歌搜索引擎)”的说明: (注:本程序的tomcat集成版即精简了配置操作,另见下载地址 http://download.csdn.net/source/3332605) =============================================================================== 一、系统简介: 1.本系统为B/S结构的web应用系统,是基于Apache lucene(全文检索功
  3. 所属分类:Web开发

    • 发布日期:2008-06-04
    • 文件大小:1048576
    • 提供者:wudazhg
  1. 《自己动手写搜索引擎》罗刚——doc版

  2.  《自己动手写搜索引擎》是猎兔企业搜索开发团队的软件产品研发和项目实践的经验汇总。《自己动手写搜索引擎》全方位展现出一个商用级别的Lucene搜索解决方案,主要包括爬虫、自然语言处理和搜索实现部分。爬虫部分介绍了网页遍历方法和从网页提取主要内容的方法。   自然语言处理部分包括了中文分词从理论到实现以及在搜索引擎中的实用等细节。   其他自然语言处理的经典问题与实现包括:文档排重、文本分类、自动聚类、语法解析树、拼写检查、拼音转换等理论与实现方法。   在实现搜索方面,《自己动手写搜索引擎》用
  3. 所属分类:Web开发

  1. Lucene_in_ Action

  2. Lucene是apache旗下用java写的开源搜索引擎,这个pdf文档是Lucene的开发文档,其中包括了搜索引擎的原理介绍(网页爬虫、建索引等),还有就是Lucene的使用文档,相信对搜索引擎爱好者会有一些帮助。
  3. 所属分类:Java

    • 发布日期:2008-07-30
    • 文件大小:9437184
    • 提供者:hjl80420
  1. Lucene(搜索)Demo

  2. 本Demo实现了lucene分词和查询,Dao中实现了lucene的几个基本方法.
  3. 所属分类:Java

    • 发布日期:2013-02-24
    • 文件大小:1048576
    • 提供者:jiayen
  1. 自己动手写搜索引擎

  2. 自己动手写搜索引擎全方位展现出一个商用级别的Lucene搜索解决方案,主要包括爬虫、自然语言处理和搜索实现部分。爬虫部分介绍了网页遍历方法和从网页提取主要内容的方法。
  3. 所属分类:Java

    • 发布日期:2013-05-25
    • 文件大小:6291456
    • 提供者:shenshen123jun
  1. nutch入门教程

  2. 1.1 什么是 nutch Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜 引擎所需的全部工具。 1.2 研究 nutch的原因 可能有的朋友会有疑问,我们有 google,有百度,为何还需要建立自己的搜索 擎呢?这里我列出 3 点原因: (1) 透明度:nutch 是开放源代码的,因此任何人都可以查看他的排序算法 是如何工作的。商业的搜索引擎排序算法都是保密的,我们无法知道为 什么搜索出来的排序结果是如何算出来的。更进一步,一些搜索引擎允 许竞价排名,比如百度,
  3. 所属分类:Web开发

    • 发布日期:2013-09-23
    • 文件大小:939008
    • 提供者:wjs123456789
  1. 基于Lucene4.6+Solr4.6+S2SH实战开发垂直搜索引擎

  2. 整个课程,按照一个从无到有的过程来展开。所有的数据,来自于互联网,用heritrix去抓取。对于抓取的数据,进行去重,去标签,然后利用lucene 和 solr 进行索引和搜索。 课程的最大特点是内容新颖全面而又通俗易懂。对于实际搜索引擎所涉及的各种核心技术都有全面细致的介绍,除了作为搜索系统核心的网络爬虫、索引系统、排序系统、链接分析及用户分析外,还包括网页反作弊、缓存管理、网页去重技术等实际搜索引擎必须关注的技术,同时用相当大的篇幅讲解了云计算与云存储的核心技术原理及实现。 整个项目的构建
  3. 所属分类:Java

    • 发布日期:2014-05-22
    • 文件大小:42991616
    • 提供者:misuoduo
  1. 测试爬虫+lunence的一些jar文件

  2. 测试爬虫+lunence 但是jar文件找了好久 都不全,这里放了一些常用的jar文件,希望能帮到需要的人,一下为jar文件列表htmlparser-1.6.jar、IKAnalyzer2012FF_u1.jar、lucene-highlighter-4.7.2.jar、lucene-queryparser-4.7.2.jar、lucene-analyzers-common-4.7.2.jar、lucene-core-4.7.2.jar、htmlparser.jar、com.springsou
  3. 所属分类:Java

    • 发布日期:2015-06-26
    • 文件大小:4194304
    • 提供者:hnbian
  1. 解密搜索引擎lucene & java

  2. 介绍了解密搜索引擎中所用到的技术,例如爬虫,中文分词,文本分类、文本聚类等
  3. 所属分类:Java

    • 发布日期:2015-12-29
    • 文件大小:15728640
    • 提供者:zhang_amao
  1. 小旋风垂直搜索平台,快速拱建垂直搜索引擎

  2. 小旋风垂直搜索平台 源代码共享计划 小旋风是什么? 小旋风是一款集多任务、多线程智能网络爬虫、基于xml / xpath的路径规则的数据抽取系统、无缝集成lucene.net2.3全文索引系统,高性能中文分词组件、多数据库支持的综合垂直搜索引擎平台。 它帮您快速搭建任何一个您期望中的垂直搜索平台,比如酷讯(kuxun.cn),比如去哪儿,比如搜职网,比如爱帮网等等。 为什么小旋风是客户端,它是基于什么平台开发的? 从程序使用的方便性及性能上考虑,我们为发挥客户端强大的权限优势,为您提供一个最容
  3. 所属分类:C#

    • 发布日期:2008-12-26
    • 文件大小:2097152
    • 提供者:u011080034
  1. 基于Lucene_Heritrix的垂直搜索引擎的研究与应用

  2. Lucene是一个用Java写的全文索引引擎工具包,访问索引时间快,支持多用户访问,可以跨平台使用。Heritrix是一个由Java开发的、开源的Web网络爬虫,用户可以使用它从网络上抓取想要的资源。探讨了Lucene和Heritrix在构建垂直搜索引擎中的应用。 1、垂直搜索引擎的基本介绍 2、基于Java 的全文检索引擎—Jakarta Lucene 3、网络爬虫Heritrix 4、Lucene和Heritrix在构建垂直搜索引擎中的应用(含代码) 5、结论总结 6、参考文献
  3. 所属分类:网络基础

    • 发布日期:2009-03-09
    • 文件大小:424960
    • 提供者:luoye120
  1. lucene新闻搜索引擎的实现

  2. 研究www搜索引擎的系统结构,并重点对网络机器人、索引与搜索程序以及用于查询的Web服务器三个方面进行详细分析。 在这些研究的基础上利用Java TM相关技术和一些开源工具包实现一个简单的搜索引擎——新闻搜索引擎
  3. 所属分类:Web开发

    • 发布日期:2018-06-29
    • 文件大小:1048576
    • 提供者:cangwanji5805
  1. Nutch相关框架视频教程 讲义 杨尚川

  2. 1、 通过nutch,诞生了hadoop、tika、gora。 2、 nutch通过ivy来进行依赖管理(1.2之后)。 3、 nutch是使用svn进行源代码管理的。 4、 lucene、nutch、hadoop,在搜索界相当有名。 5、 ant构建之后,生成runtime文件夹,该文件夹下面有deploy和local文件夹,分别代表了nutch的两种运行方式。 6、 nutch和hadoop是通过什么连接起来的?通过nutch脚本。通过hadoop命令把apache-nutch-1.6.j
  3. 所属分类:算法与数据结构

    • 发布日期:2018-10-24
    • 文件大小:77824
    • 提供者:panpanxuhebei
  1. Apache Nutch Java网络爬虫 v1.15

  2. Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引
  3. 所属分类:其它

    • 发布日期:2020-10-10
    • 文件大小:7340032
    • 提供者:weixin_38592455
  1. Apache Nutch Java网络爬虫系统 v2.3.1

  2. Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引
  3. 所属分类:其它

    • 发布日期:2020-11-26
    • 文件大小:7340032
    • 提供者:weixin_38731479
  1. Apache Nutch Java网络爬虫系统 v1.14

  2. Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引
  3. 所属分类:其它

    • 发布日期:2020-11-26
    • 文件大小:8388608
    • 提供者:weixin_38662327
  1. Lucene全文检索(一)

  2. Lucene实现全文检索的流程 创建索引 获得文档 原始文档:要基于那些数据来进行搜索,那么这些数据就是原始文档。 搜索引擎:使用爬虫获得原始文档 站内搜索:数据库中的数据。 本地搜索:直接使用io流读取磁盘上的文件。 * 分析文档(每个文档拆分成不同的域,再把每个域进行分词) 构建Trem对象 每个关键词都封装成一个Term对象中(Term中包含两部分内容:关键词所在的域(字段名)、关键词本身(字段值) 把Trem根据空格进行字符串分词,得到一个单词列表,把单词统一转换成小写,去除标点符号,去
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:156672
    • 提供者:weixin_38711778
« 12 3 »