全文索引引擎Lucene简单教程开源的。Lucene自带了几个分词器WhitespaceAnaly

文件名称: 全文索引引擎Lucene简单教程

所属分类: Java

开发工具:

文件大小: 288kb

下载次数: 0

上传时间: 2013-01-30

提供者: zhou19******

下载 (288kb)

不能下载？报告错误

详细说明：开源的全文索引引擎Lucene简单教程。Lucene自带了几个分词器WhitespaceAnalyzer， SimpleAnalyzer， StopAnalyzer， StandardAnalyzer， ChineseAnalyzer， CJKAnalyzer等。前面三个只适用于英文分词，StandardAnalyzer对可最简单地实现中文分词，即二分法，每个字都作为一个词，这样分出来虽然全面，但有很多缺点，比如，索引文件过大，检索时速度慢等。ChineseAnalyzer是按字分的,与StandardAnalyzer对中文的分词没有大的区别。 CJKAnalyzer是按两字切分的, 比较武断,并且会产生垃圾Token，影响索引大小。以上分词器过于简单，无法满足现实的需求，所以我们需要实现自己的分词算法。现有的中文分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。基于字符串匹配的分词方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功（识别出一个词）。

(系统自动生成,下载前可以参看下载内容)