您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 中英文发现系统的转接层子系统、索引子系统的设计与实现_雷鸣_北京大学硕士论文

  2. 中国于1994年进入INTERNET,之后INTERNET在中国得到了迅速的发展,中文的WWW信息也迅速增加。这使得在搜索中文信息时也需要一定的搜索工具。由于世界上现有的搜索引擎大部分都是针对英文设计的,它们或支持中文的能力很差,或根本不支持中文。个别支持中文搜索的搜索引擎,它们的数据库中所包含的中文信息的数量十分小,搜索的结果非常不理想。对于日益增长的中国INTERNET来说,实现一个具有大量中文信息数据库,能够良好支持中文检索的搜索引擎已是一种迫切的需求。 本论文所描述的系统即是作者参与设
  3. 所属分类:专业指导

    • 发布日期:2009-07-08
    • 文件大小:573440
    • 提供者:rockychan1206
  1. Lucene分词查询

  2. 非常珍贵的Lucene入门实例,让你在最短时间内掌握Lucene快速创建索引,中文分词查询的技巧。 内赠送lucene驱动包,物超所值哦!!
  3. 所属分类:Java

    • 发布日期:2009-07-15
    • 文件大小:606208
    • 提供者:zepqxjava
  1. 基于分词索引全文检索介绍

  2. 基于中文分词索引全文检索介绍,简单易懂,文档是PDF格式的
  3. 所属分类:Java

    • 发布日期:2009-07-22
    • 文件大小:1048576
    • 提供者:tangjianft
  1. 庖丁分词程序2.0.4,很好的分词程序

  2. 庖丁分词程序,很好的分词程序."庖丁解牛" 使用指南 1、准备 1)将二进制包paoding-analyis.jar放到自己的classpath下 2)将字典文件安装(也就是拷贝)到某个目录下,比如/data/paoding/dic下 3)把配置文件paoding-analysis.properties放到自己的classpath下 4)打开paoding-analysis.properties,把paoding.dic.home属性设置为字 典的安装目录,比如paoding.d ic.hom
  3. 所属分类:Java

    • 发布日期:2009-07-22
    • 文件大小:5242880
    • 提供者:jiutianzhifeng
  1. 汉语分词技术综述.pdf

  2. [摘要]首先介绍汉语自动分词技术及基于词索引的中文全文检索技术,接着分别从文献自动标引、文摘自动生成、文本自动 分类、文本信息过滤,自然语言检索接口和智能检索等方面详细地阐述汉语自动分词技术在中文全文检索中的应用,并对目前 汉语自动分词技术存在的局限性进行分析,提出发展思路,最后对汉语自动分词技术在中文全文检索中的应用前景进行预测。 [关键词]汉语自动分词中文全文检索文献自动标引 自然语言检索
  3. 所属分类:专业指导

    • 发布日期:2009-12-14
    • 文件大小:608256
    • 提供者:shan_xue_xib
  1. 汉语分词技术综述 文档 论文

  2. 首先介绍汉语自动分词技术及基于词索引的中文全文检索技术,接着分别从文献自动标引、文摘自动生成、文本自动 分类、文本信息过滤、自然语言检索接口和智能检索等方面详细地阐述汉语自动分词技术在中文全文检索中的应用,并对目前 汉语自动分词技术存在的局限性进行分析,提出发展思路,最后对汉语自动分词技术在中文全文检索中的应用前景进行预测。
  3. 所属分类:专业指导

    • 发布日期:2010-01-17
    • 文件大小:57344
    • 提供者:tberg
  1. 搜索引擎技术原理 主要介绍爬虫技术,索引技术,分词技术

  2. 搜索引擎技术原理 主要介绍爬虫技术,索引技术,分词技术
  3. 所属分类:专业指导

    • 发布日期:2010-02-01
    • 文件大小:3145728
    • 提供者:naughty610
  1. 非常好用的中文分词,直接能用

  2. 目前的搜索引擎,大多是基于一种称为倒排索引的结构[1]。以什么做为索引的Key值,直接影响到整个搜索引擎的准确度、召回率[2]、速度。我们先看看不使用中文分词的情况。 如果不使用中文分词,可以采用单个汉字索引方式。例如,雅虎,先索引'雅'字,然后再索引'虎'字。同样,对于一篇文章,先把所有的汉字都单独索引一次,并记录他们的位置。搜索过程中,也是先找'雅'字的所有文档,再找'虎'字的所有文档,然后做交叉'与'运算,即包含这两个字,而且位置连续的文档才会做为符合要求的结果。这种方式是最基本的索引方
  3. 所属分类:其它

    • 发布日期:2010-03-06
    • 文件大小:4194304
    • 提供者:pkuluck
  1. 中文自动分词&全文检索@统计工具(GBK版

  2. 本系统具备中文自动分词、全文检索、统计等基本功能,具体介绍如下: 1、中文自动分词 1)能对给定的中文文本进行自动分词、词性一级、词性二级标注; 2)支持大批量文本的自动分词及词性标注处理,可处理各级子文件夹下的文件; 3)能根据待分词及标注文本的类别,加挂用户自定义词典,进一步提高分词和标注的精确度; 4)用户可对系统词典进行扩展,可添加、删除、查看系统词典,可将系统词典输出为TXT文本编辑后再转换为系统用的电子词典; 5)支持人名、地名、机构名等未登录词识别,支持基于GBK字符集的简、繁体
  3. 所属分类:专业指导

    • 发布日期:2010-04-22
    • 文件大小:3145728
    • 提供者:lonewar
  1. 倒排序和分词的处理 提高搜索效率很有用

  2. 这里面有有关倒排序和分词索引的思想,并附有一个实例,帮助大家理解
  3. 所属分类:专业指导

  1. Paoding中文分词包-附带实例,参考手册,Lucene实例

  2. 效果体验 使用者第一步最有可能的是想要体验了解庖丁的分词效果。考虑到这样的需求,庖丁提供了一个shell文件,使用者不必写任何代码就可以获得这样的信息。进入Paoding-Analysis分发包,在命令行模式下执行analyzer.bat(windows)或analyzer.sh(linux)即可。下以windows为例: u 显示帮助 E:\Paoding-Analysis>analyzer.bat ? u 分词对话 当没有在命令行参数种输入分词内容或待分词的文章时,analyzer.
  3. 所属分类:Linux

    • 发布日期:2010-06-08
    • 文件大小:5242880
    • 提供者:hpf911
  1. 中文分词处理技术源代码

  2. 专业提供中文分词扩展和中文词库。使中文分词,全文搜索不再是难点,一个函数即完成分词。然后即可把分词后的结果存储,再使用sphinx,Lucene等进行索引搜索了。
  3. 所属分类:其它

    • 发布日期:2010-07-28
    • 文件大小:507904
    • 提供者:y34ml
  1. 刨丁解羊HTMl网页信息抽取器

  2. 刨丁解羊HTMl网页信息抽取器,是制作搜索引擎、网络蜘蛛、网络爬虫、分词索引的核心组件。采用人工智能启发式算法、高斯积分去噪算法,对HTML格式的源代码网页进行抽取,通过过滤无用的HTM标签、主题相悖信息,抽取出核心正文信息。DLL及OCX调用请联系QQ(601069289)。
  3. 所属分类:网络基础

    • 发布日期:2010-08-30
    • 文件大小:14336
    • 提供者:henggua
  1. 最优化的分词技术研究

  2. 分词技术研究,如何做最优化的分词算法,建立三级索引,优化分词速度
  3. 所属分类:其它

    • 发布日期:2011-03-02
    • 文件大小:225280
    • 提供者:ljj359237950
  1. C#开源项目盘古分词的使用手册

  2. 盘古分词API解释和安装说明 文件说明 2 PanGuSegment 2 PanGu4Lucene 2 PanGu.dll 调用方法 2 初始化 2 分词 2 配置文件 PanGu.xml 7 高亮组件PanGu.HighLight.dll 调用方法 8 字典管理 8 Demo.exe 11 PanGu4Lucene 调用方法 12 创建索引 12 插入数据 12 对要搜索的词分词 13 搜索 13 PanGu4Lucene 示例 15 PanGu4Lucene 示例安装说明 15
  3. 所属分类:C#

    • 发布日期:2011-09-05
    • 文件大小:357376
    • 提供者:slang98
  1. C# 盘古分词

  2. 1、 修改字典格式,提高字典加载速度 2、 增加对英文专业名词的支持 如C++,C#等只要加入字典就可以被分出来 3、 增加词频判断功能,在无法取舍时根据词频取舍 4、 增加优先优先词频选项,通过这个选项动态决定分词粒度 需打开 FreqFirst 5、 增加中文人名前后缀统计和根据该统计定位人名的功能 6、 增加中文人名和未登录词出现频率统计功能 7、 增加自动更新字典功能,对超过阈值的人名和未登录词自动插入字典 需打开 AutoInsertUnknownWords 开关 并设置 Unkno
  3. 所属分类:C#

    • 发布日期:2011-10-28
    • 文件大小:3145728
    • 提供者:jaymezhang
  1. lucene3庖丁解牛中文分词器

  2. 支持lucene3的庖丁解牛分词器和字典,可直接调用
  3. 所属分类:Java

    • 发布日期:2011-12-13
    • 文件大小:1048576
    • 提供者:mer1234567
  1. 搜索引擎 solr 环境配置 分词 索引 操作

  2. 配置solr环境;中文分词配置;Solr将数据库做成索引数据源;Solr多核(MultiCore)配置;多核数据库索引。
  3. 所属分类:Java

    • 发布日期:2012-12-12
    • 文件大小:224256
    • 提供者:lzh8189146
  1. 深入解析分词与索引库的原理

  2. 深入解析分词与索引库的原理,专业资料,免费下载
  3. 所属分类:专业指导

    • 发布日期:2013-05-11
    • 文件大小:239616
    • 提供者:watsonyin
  1. 盘古分词工具

  2. 这是盘古分词小工具,用于动态维护词典,适合初学者结合Lucene研究盘古分词。
  3. 所属分类:其它

    • 发布日期:2014-07-18
    • 文件大小:2097152
    • 提供者:u014696025
« 12 3 4 5 6 7 8 9 10 ... 25 »