您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 基于Heritrix与Lucene的垂直搜索引擎研究

  2. 垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定 向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。该文结合使用Heritrix与Lucene对学校新闻网站网页进行抓取 并建立索引,建立相对应的新闻垂直搜索引擎系统。
  3. 所属分类:Java

    • 发布日期:2010-11-29
    • 文件大小:459776
    • 提供者:sduwangkai
  1. myeclispe Heritrix完整的项目

  2. Heritrix和myeclipse创建的一个java project 运行其中的Heritrix.java,在浏览器中输入http://127.0.0.1:10086,密码是admin,admin,可是实现爬虫
  3. 所属分类:互联网

    • 发布日期:2011-05-17
    • 文件大小:12582912
    • 提供者:l475021377
  1. 整合资源jsmartco_zh_CN+je-analysis-1.4.0+lucene-core-2.0.0+heritrix.14.4.

  2. 搜索引擎工具包,集成了 jsmartco ,je-analysis1.4.0,lucene-core-2.0.0,heritrix,14.4
  3. 所属分类:Java

    • 发布日期:2012-06-12
    • 文件大小:23068672
    • 提供者:wd541230722
  1. Lucene4.6+Solr4.6实战开发垂直搜索引擎视频课程

  2. 课程目录: 00.说在前面的话 01.heritrix环境搭建 02.如何进行主题抓取 03.heritrix优化 04.解析html网页 05.中文分词(1) 06.中文分词(2) 07.中文分词(3) 08.中文分词(4) 09.中文分词(5) 10.中文分词(6) 11.中文分词(7) 12.中文分词(8) 13.网页去重(1) 14.网页去重(2) 15.网页去重(3) 16.网页去重(4) 17.lucene4.6快速搭建 18.lucene4.6索引的相关操作 19.lucene4
  3. 所属分类:Java

    • 发布日期:2016-01-15
    • 文件大小:2048
    • 提供者:unmbnw
  1. 搜索引擎的开发论文(毕业设计)

  2. 系统使用Eclipse和Dreamweaver作为开发环境。系统后台的手机信息是由某IT门户网站提供的,经过分析网站内容,准备好Heritrix的抓取清单,然后提交给Heritrix处理。网页抓取到后使用HTMLParser解析,将手机详细信息插入MySQL数据库,然后建立用来检索关键字的手机信息词库和Lucene的索引,最后搭建一个Web平台,采用JSP技术对建立的索引和数据库进行整合,为用户提供真正的搜索服务。
  3. 所属分类:Web开发

    • 发布日期:2008-12-26
    • 文件大小:1048576
    • 提供者:zly__sportboy
  1. 专用Web信息收集系统的设计和实现

  2. Heritrix是由Java开发的开源Web网络爬虫,HTMLParser技术对抓取后网页内容进行高效率解析,对信息进行再一次整合,很好的解决了专业搜索引擎所需数据来源问题。文章探讨了基于Heritrix和HTMLParser构建Web信息收集系统的设计和实现。
  3. 所属分类:其它

    • 发布日期:2020-07-04
    • 文件大小:151552
    • 提供者:weixin_38663733