开发工具:
文件大小: 1mb
下载次数: 0
上传时间: 2019-03-04
详细说明:信息检索,全文检索,IR基础,反向索引,同步机制,批量处理检索比较
全文检索数据库LKE
索引使用事先建好的全文索引用不到索引,只能遍历匹配
% eight%也会匹配 height
匹配效笑/通过分词器切割匹配,良好\9m%me就不能匹配颠
支持中文、英文词干
倒的ⅹx.net. XXX. COm
相关度基于概率模型的相关性算无相关算法,匹配一次或多次
法,越相关的排在越前面
无明显区别
可定制通过定制分词器,实现不同
索引规则
难以定制
结论支持大数据,性能高效果好/效率低,相关性差,模糊检索
效果差,适合小规模
R基础:术语
反向索引概念(类似字典检字表)
Document, Term, Posting
要检索的对象称之为 document,通常可以认为是一块文本或一条数据库记录;而term
则是一个词或短词用于描述 document,每一个 document包含若干个term; posting
就是包含了tem在 document所处位置的term,用于相关度检索。
在全文检索中,如果名为D的 document被一个名为t的term所描述,那么称之为t
索引了D。因此,term和 document是一个多对多的关系。每一个term存储着被它索
引的 documents列表,称之为 posting listo
全文索引要就是存储term与 document的关系,并有序的组织着 terms。term并不
定要求必须在 document中出现,通常也会做词干修剪处理。
Tokenizer(分词器: Document/Query->term
R基础:索引组织
以索引100个 documents为例
t1
2
8H13}7
98
t2
5H32HF100
t3
813+24+32154H98H100
terms
posting list
能否检索到某一个 Document取决于是否建立了相
应的Term索引
中文分词的重要性
IR基础:相关性
概率模型的核心概( Relevance)
wdp:Term在 document中的出现位置
●wdf:Term在 document中的出现次数
nd:当前文档长度/平均长度
wqf, wqp, nq
BM25(Best Match, used by xapian, sphinx.)
全文检索过程
原始
分词处理
创建索引
信息
全文
查询语句
语法分析
索引
检索
相关排序
查询索引
结果
开源方案
Lucene:Java界最有名的检索程序库,相关应用方
案 nutch,solr
Sphinx:C++编写的依赖于SQL的搜索服务器
Xapian:发音/zap
an
近30年悠久历史,类似 Lucene纯工具库
C艹+编写,跨平台支持,支持大量脚本语言绑定
Unicode支持,索引数据统一采用UTF-8存储
概率搜索排序,默认采用BM25算法,越相关的结果排在越前面
全方位的布尔查询解析器;词干修剪(支持英语等数10种语言)
支持实时搜索,同义词、拼写纠错、精确搜索等
单库支持最高40亿条数据;单写多读,原子性修改
大量采用B-tre存储,索引写入速度相对较慢,约500条/s
搜索性能佳,官方宣称1.5TB/5亿网页<1秒,实测百万级均0.0×秒
Xapian实战缺陷
并不是完整的应用程序
●缺少字段概念,缺少中文分词支持
英文资料本身就不多,更缺少中文资料
缺少统一服务端来管理单写多读机制
●AP接口繁多、复杂,使用门槛较高
insearch诞生
整合 Caplan和
SCWS
中立公词优化由立冰理
搜索!
选项Oset全文口模搜索按{相关性。排序
API简单清晰,附带中
大约有0项符合查询结果,库内数据总量为2381项。(搜索耗时:00233秒)D
您是不是要找:彩字秀
●支持255个字段,高
找不到和cx相符的内容或信息。建议您
请检查输入宇词有无错误。
请换用另外的查询字词。
°GPL协议,20119首emo搜索
前稳定版本14.6,已被
yunsearch damo
搜索!
选项Ost全文口模搜索按相关性一排序
scws同样开源,支持
大约有0项符合查询结果,库内数据总量为2381项。(授索耗时:0.0014秒
您是不是要找: xunsearch demo
找不到和 yunsearch damo相符的内容或信息。建议您:
(系统自动生成,下载前可以参看下载内容)
下载文件列表
相关说明
- 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
- 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度。
- 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
- 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
- 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
- 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.