您好,欢迎光临本网站![请登录][注册会员]  
文件名称: lucene的20万网页负载完整案例,源于门户网站实际项目
  所属分类: Java
  开发工具:
  文件大小: 5mb
  下载次数: 0
  上传时间: 2009-04-03
  提 供 者: cl5****
 详细说明: 程序简介: 该程序是从我的CMS系统中剥离出来的,所以并不完整.但还是可以运行的. 主要提供给我这样的初学者,仅供参考. 某些地方是很需要改进的,如线程的自我修复,异常处理等.欢迎交流. 如果大侠看后能将其修改为高级的版本,发给我一份啊.当感激万分... 一.程序中用到的开源项目: 1.lucene 2.Paoding Analyzer 3.IkAnalyzer 4.trove 5.nekohtml(原来用的是JTidy,后来发现有乱码且速度慢,扔了) 6.concurrent 二.主要功能: 1.HTML解析,可纠错. 2.支持中英文检索. 3.命令行索引优化与重建. 4.在线索引增量更新. 5.多关键字,多目录范围查询. 6.集成庖丁分词,IkAnalyzer分词两大主流分词工具. 7.可承受10万页面以上的门户网站的索引负载. 8.该程序经测试稳定运行至今已经半年. 9.万一程序崩溃,则程序具备自我修复能力. 测试1秒内人为促使程序崩溃20次(加入除零代码),全部自我修复. 10.支持爆发模式,必要时用CPU资源换取速度. 三.程序说明: util包: Pa rse.java=工具类.解决编码问题,如中文路径等. InstancePool.java=工具类.单例对象池.用反射实现,参考了Spring的源码. RuntimeConstants.java=工具类.读取并管理多个配置文件.不放入单例对象池 CollectionFactory.java=工具类.生成Java 集合类的高效替代品,主要用于解决线程安全问题. search包: SearchResult.java=搜索结果,bean. SearchCondition.java=搜索条件,bean. SearchManager.java=核心类,用于搜索.支持分页查询. index包: IndexRequest.java=索引更新任务,bean. IndexRequestPool.java=核心类,索引增量更新任务缓冲池,用户增删改html后,将发出索引增量更新请求, 该请求将进入缓冲池等待.采用生产者-消费者模式,同时也使用了观察者模式与单例模式. 为了提高效率,放弃先来先服务的算法. IndexThread.java=核心类.主要完成索引的更新,重建,优化,爆发模式切换等. 实现内存索引与硬盘索引的混合使用, 能自我修复. filetype包: IFileHandler.java=接口,用于扩展. HTMLHandler.java=核心类.实现IFileHandler.用于HTML解析,从HTML中提取文本,以备索引分析. 四.配置说明: dic包=分词词库,不含程序. sysconf.properties=程序最重要的配置. lucene.properties=lucene配置,可启用或禁用索引增量更新,可设置不被索引分析的文件或目录. 你的web应用中的某些目录中文件是不可以被索引的,如js,images,WEB-INF等,在此可以配置.这样可以大大加快速度. 五.题外话 1.程序很简单.一个原因是我刚毕业,没经验;另一个原因是对我的公司的系统来说,这个小程序够用了. 2.程序里有些地方的算法很土气. 别骂我啊!程序员给别人看代码时,就是他最脆弱的时候(自己恶寒一个先^_^). 3.如果你需要功能全面的索引程序,建议你参考openCMS,liferay等.liferay5.2在这方面做的很好很强大,惭愧. 龚刚提供 欢迎访问我的博客:http://javafun.yo2.cn javafun,java is fun 认真做软件 仔细听潮流 大胆跟时代 小心写文章 ...展开收缩
(系统自动生成,下载前可以参看下载内容)

下载文件列表

相关说明

  • 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
  • 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度
  • 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
  • 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
  • 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
  • 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.
 输入关键字,在本站1000多万海量源码库中尽情搜索: