您好,欢迎光临本网站![请登录][注册会员]  
文件名称: 快速构建PHP全文检索——马明练
  所属分类: PHP
  开发工具:
  文件大小: 1mb
  下载次数: 0
  上传时间: 2019-03-04
  提 供 者: danyi******
 详细说明:信息检索,全文检索,IR基础,反向索引,同步机制,批量处理检索比较 全文检索数据库LKE 索引使用事先建好的全文索引用不到索引,只能遍历匹配 % eight%也会匹配 height 匹配效笑/通过分词器切割匹配,良好\9m%me就不能匹配颠 支持中文、英文词干 倒的ⅹx.net. XXX. COm 相关度基于概率模型的相关性算无相关算法,匹配一次或多次 法,越相关的排在越前面 无明显区别 可定制通过定制分词器,实现不同 索引规则 难以定制 结论支持大数据,性能高效果好/效率低,相关性差,模糊检索 效果差,适合小规模 R基础:术语 反向索引概念(类似字典检字表) Document, Term, Posting 要检索的对象称之为 document,通常可以认为是一块文本或一条数据库记录;而term 则是一个词或短词用于描述 document,每一个 document包含若干个term; posting 就是包含了tem在 document所处位置的term,用于相关度检索。 在全文检索中,如果名为D的 document被一个名为t的term所描述,那么称之为t 索引了D。因此,term和 document是一个多对多的关系。每一个term存储着被它索 引的 documents列表,称之为 posting listo 全文索引要就是存储term与 document的关系,并有序的组织着 terms。term并不 定要求必须在 document中出现,通常也会做词干修剪处理。 Tokenizer(分词器: Document/Query->term R基础:索引组织 以索引100个 documents为例 t1 2 8H13}7 98 t2 5H32HF100 t3 813+24+32154H98H100 terms posting list 能否检索到某一个 Document取决于是否建立了相 应的Term索引 中文分词的重要性 IR基础:相关性 概率模型的核心概( Relevance) wdp:Term在 document中的出现位置 ●wdf:Term在 document中的出现次数 nd:当前文档长度/平均长度 wqf, wqp, nq BM25(Best Match, used by xapian, sphinx.) 全文检索过程 原始 分词处理 创建索引 信息 全文 查询语句 语法分析 索引 检索 相关排序 查询索引 结果 开源方案 Lucene:Java界最有名的检索程序库,相关应用方 案 nutch,solr Sphinx:C++编写的依赖于SQL的搜索服务器 Xapian:发音/zap an 近30年悠久历史,类似 Lucene纯工具库 C艹+编写,跨平台支持,支持大量脚本语言绑定 Unicode支持,索引数据统一采用UTF-8存储 概率搜索排序,默认采用BM25算法,越相关的结果排在越前面 全方位的布尔查询解析器;词干修剪(支持英语等数10种语言) 支持实时搜索,同义词、拼写纠错、精确搜索等 单库支持最高40亿条数据;单写多读,原子性修改 大量采用B-tre存储,索引写入速度相对较慢,约500条/s 搜索性能佳,官方宣称1.5TB/5亿网页<1秒,实测百万级均0.0×秒 Xapian实战缺陷 并不是完整的应用程序 ●缺少字段概念,缺少中文分词支持 英文资料本身就不多,更缺少中文资料 缺少统一服务端来管理单写多读机制 ●AP接口繁多、复杂,使用门槛较高 insearch诞生 整合 Caplan和 SCWS 中立公词优化由立冰理 搜索! 选项Oset全文口模搜索按{相关性。排序 API简单清晰,附带中 大约有0项符合查询结果,库内数据总量为2381项。(搜索耗时:00233秒)D 您是不是要找:彩字秀 ●支持255个字段,高 找不到和cx相符的内容或信息。建议您 请检查输入宇词有无错误。 请换用另外的查询字词。 °GPL协议,20119首emo搜索 前稳定版本14.6,已被 yunsearch damo 搜索! 选项Ost全文口模搜索按相关性一排序 scws同样开源,支持 大约有0项符合查询结果,库内数据总量为2381项。(授索耗时:0.0014秒 您是不是要找: xunsearch demo 找不到和 yunsearch damo相符的内容或信息。建议您:
(系统自动生成,下载前可以参看下载内容)

下载文件列表

相关说明

  • 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
  • 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度
  • 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
  • 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
  • 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
  • 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.
 相关搜索: php全文搜索
 输入关键字,在本站1000多万海量源码库中尽情搜索: