点数信息
www.dssz.net
注册会员
|
设为首页
|
加入收藏夹
您好,欢迎光临本网站!
[请登录]
!
[注册会员]
!
首页
移动开发
云计算
大数据
数据库
游戏开发
人工智能
网络技术
区块链
操作系统
模糊查询
热门搜索:
源码
Android
整站
插件
识别
p2p
游戏
算法
更多...
在线客服QQ:632832888
当前位置:
资源下载
搜索资源 - 爬虫、搜索引擎、分词
下载资源分类
移动开发
开发技术
课程资源
网络技术
操作系统
安全技术
数据库
行业
服务器应用
存储
信息化
考试认证
云计算
大数据
跨平台
音视频
游戏开发
人工智能
区块链
在结果中搜索
所属系统
Windows
Linux
FreeBSD
Unix
Dos
PalmOS
WinCE
SymbianOS
MacOS
Android
开发平台
Visual C
Visual.Net
Borland C
CBuilder
Dephi
gcc
VBA
LISP
IDL
VHDL
Matlab
MathCAD
Flash
Xcode
Android STU
LabVIEW
开发语言
C/C++
Pascal
ASM
Java
PHP
Basic/ASP
Perl
Python
VBScript
JavaScript
SQL
FoxBase
SHELL
E语言
OC/Swift
文件类型
源码
程序
CHM
PDF
PPT
WORD
Excel
Access
HTML
Text
资源分类
搜索资源列表
搜索引擎核心技术总体介绍
搜索引擎关键技术总体介绍,共分为一、搜索引擎总体介绍;二、爬虫技术介绍;三、中文分词和排序算法介绍;四、查询/存储技术、Cache Server介绍;五、内部、外部监控系统介绍;六、移动通信运营商搜索引擎独特优势
所属分类:
其它
发布日期:2009-08-03
文件大小:1048576
提供者:
lql46211
sql2005全文检索.doc
SQL Server 2005全文检索技术在网站上的应用实录 http://tech.ddvip.com 2008年01月21日 社区交流 Excel服务器-用Excel做管理系统 关键字: DataGuard checkpoint 动态查询 synonyms 卸载SQL 2005 SQL Server群集 内容摘要:本文提供了网站如何设计和实现基于SQL Server 2005的全文检索实例,希望能对正在使用SQL Server 2005构建网站搜索的同仁有所裨益。 一、前言 “人类失去搜索
所属分类:
其它
发布日期:2009-09-09
文件大小:518144
提供者:
a522920779a
基于颜色 关键字索引的图片搜索引擎
摘要:因特网上的信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目了然的信息地图,供用户随时查阅。搜索引擎指自动的从因特网上搜集信息,经过一定整理后,提供给用户进行查询的系统。它利用称为网络蜘蛛的自动搜索机器人程序来搜集信息;通过建立索引来整理信息;最后,当用户向搜索引擎发出查询时,搜索引擎接受查询并向用户返回资料。 本设计采用PHP、C++和HTML语言,MySQL数据库,并利用网络爬虫、分词、倒排查找、模式识别
所属分类:
网络基础
发布日期:2009-11-04
文件大小:569344
提供者:
minge398
一个关于搜索引擎技术简介的ppt
搜索引擎技术介绍 一、搜索引擎总体介绍 二、爬虫技术介绍 三、中文分词和排序算法介绍 四、查询/存储技术、Cache Server介绍 五、内部、外部监控系统介绍 六、移动通信运营商搜索引擎独特优势
所属分类:
其它
发布日期:2009-12-05
文件大小:1048576
提供者:
xutaota223
Nutch入门学习 搜索引擎
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。
所属分类:
Java
发布日期:2010-04-19
文件大小:1048576
提供者:
wangjianli007
刨丁解羊HTMl网页信息抽取器
刨丁解羊HTMl网页信息抽取器,是制作搜索引擎、网络蜘蛛、网络爬虫、分词索引的核心组件。采用人工智能启发式算法、高斯积分去噪算法,对HTML格式的源代码网页进行抽取,通过过滤无用的HTM标签、主题相悖信息,抽取出核心正文信息。DLL及OCX调用请联系QQ(601069289)。
所属分类:
网络基础
发布日期:2010-08-30
文件大小:14336
提供者:
henggua
刨丁解羊中文分词器-主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词
刨丁解羊中文分词器,主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词,支持繁体中文分词、简体中文分词、英文分词,是制作通用搜索引擎和垂直搜索引擎的核心组件。该软件在普通PC机器上测试显示:TXT格式正文分词速度约为3000万字/分钟,网页分词速度约为277.8个网页/秒。该软件采用基础词库(63万词语)+扩展词库(用户可手工添加新词)。DLL及OCX调用请联系QQ(601069289)。
所属分类:
网络基础
发布日期:2010-08-30
文件大小:2097152
提供者:
henggua
搜索引擎— 原理、技术与系统
很好的搜索引擎的入门书籍。 北大天网实验室出的一本书,主要结合了天网的实践,并有一套称为TSE的C++代码。 全书分为三部分。除了第三部分涉及更多的高级问题,理论性较强,书中描述也不太详细之外,前两部分对于非专业人士了解IR系统的“原理,技术与系统”很有帮助。该书对网页抓取,文本分析,索引建立,搜索效率等方面都做出了分析,提供了一个功能详尽的web文本信息检索框架,
所属分类:
其它
发布日期:2011-04-07
文件大小:3145728
提供者:
wbgeorge
基于lucene的搜索引擎的设计与实现
对网络搜索引擎技术进行简要研究,学习搜索引擎完成搜索工作的整个流程中涉及的各种技术,并采用开源工具Nutch、Lucene实现一个简单的搜索引擎,具体功能如下: 1、熟悉网络爬虫程序,采用开源的爬虫工具采集指定网站的网页。 2、采用Nutch、Lucene工具包对采集到的信息进行分词、索引、排序、生成摘要等。 3、设计搜索引擎门户页面,为用户提供搜索服务。
所属分类:
其它
发布日期:2011-06-29
文件大小:1048576
提供者:
kh12345
搜索引擎(较完整)
这个搜索引擎实现了多线程的网络爬虫、分词算法、查询显示功能;使用到技术servlet javaBean jdbc javascr ipt jquery等
所属分类:
Web开发
发布日期:2011-10-03
文件大小:1048576
提供者:
cherish0125
《自己动手写搜索引擎》罗刚——doc版
《自己动手写搜索引擎》是猎兔企业搜索开发团队的软件产品研发和项目实践的经验汇总。《自己动手写搜索引擎》全方位展现出一个商用级别的Lucene搜索解决方案,主要包括爬虫、自然语言处理和搜索实现部分。爬虫部分介绍了网页遍历方法和从网页提取主要内容的方法。 自然语言处理部分包括了中文分词从理论到实现以及在搜索引擎中的实用等细节。 其他自然语言处理的经典问题与实现包括:文档排重、文本分类、自动聚类、语法解析树、拼写检查、拼音转换等理论与实现方法。 在实现搜索方面,《自己动手写搜索引擎》用
所属分类:
Web开发
发布日期:2011-12-29
文件大小:6291456
提供者:
givemeoneaccount
简易搜索引擎
一个简易的搜索引擎,包括爬虫、分词、词频统计、搜索的实现。
所属分类:
Java
发布日期:2011-12-30
文件大小:5242880
提供者:
wlyfls
横瓜中文分词器
横瓜中文分词器,主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词,支持繁体中文分词、简体中文分词、英文分词,是制作通用搜索引擎和垂直搜索引擎的核心组件。该软件在普通PC机器上测试显示:TXT格式正文分词速度约为3000万字/分钟,网页分词速度约为277.8个网页/秒。该软件采用基础词库(63万词语)+扩展词库(用户可手工添加新词)。
所属分类:
Web开发
发布日期:2013-02-26
文件大小:660480
提供者:
xiaocaixuexinwen
搜索引擎技术介绍ppt
搜索引擎技术入门介绍,分析爬虫技术,中文分词和排序算法介绍,查询/存储技术、Cache Server介绍
所属分类:
其它
发布日期:2008-09-11
文件大小:1048576
提供者:
k700k700
SEO发词工具
刨丁解羊中文分词器,主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词,支持繁体中文分 词、简体中文分词、英文分词,是制作通用搜索引擎和垂直搜索引擎的核心组件。该软件在普 通PC机器上测试显示:TXT格式正文分词速度约为3000万字/分钟,网页分词速度约为277.8个 网页/秒。该软件采用基础词库(63万词语)+扩展词库(用户可手工添加新词)。DLL及OCX 调用请联系QQ(601069289)。
所属分类:
网络基础
发布日期:2014-08-28
文件大小:57344
提供者:
hongling2014
搜索引擎技术基础.ppt
中文分词: 自然语言理解和处理,是人工智能的重要的研究领域之一,是语言学、逻辑学、生理学、心理学、计算机科学和数学等相关学科发展和结合而形成的一门交叉学科。 分词作为搜索引擎的一项核心功能,和存储和查询有重大关系。但是不同的研究角度,不同的研究方向,带来研究重点和研究结果都是不一样的。 语言学方向研究的分词算法,看重分词的准确性,不看重运算速度;而搜索引擎的分次算法,特别看重分词速度,分词准确性中等。 (五)全文检索系统和搜索引擎关系: 1、搜索引擎技术来源于全文检索系统,搜索引擎是全文检索技
所属分类:
Web开发
发布日期:2015-10-28
文件大小:1048576
提供者:
celestialtao
解密搜索引擎lucene & java
介绍了解密搜索引擎中所用到的技术,例如爬虫,中文分词,文本分类、文本聚类等
所属分类:
Java
发布日期:2015-12-29
文件大小:15728640
提供者:
zhang_amao
小旋风垂直搜索平台,快速拱建垂直搜索引擎
小旋风垂直搜索平台 源代码共享计划 小旋风是什么? 小旋风是一款集多任务、多线程智能网络爬虫、基于xml / xpath的路径规则的数据抽取系统、无缝集成lucene.net2.3全文索引系统,高性能中文分词组件、多数据库支持的综合垂直搜索引擎平台。 它帮您快速搭建任何一个您期望中的垂直搜索平台,比如酷讯(kuxun.cn),比如去哪儿,比如搜职网,比如爱帮网等等。 为什么小旋风是客户端,它是基于什么平台开发的? 从程序使用的方便性及性能上考虑,我们为发挥客户端强大的权限优势,为您提供一个最容
所属分类:
C#
发布日期:2008-12-26
文件大小:2097152
提供者:
u011080034
C++网络爬虫项目
WEBCRAWLER 网络爬虫实训项目 1 WEBCRAWLER 网 络 爬 虫 实 训 项 目 文档版本: 1.0.0.1 编写单位: 达内IT培训集团 C++教学研发部 编写人员: 闵卫 定稿日期: 2015年11月20日 星期五WEBCRAWLER 网络爬虫实训项目 2 1. 项目概述 互联网产品形形色色,有产品导向的,有营销导向的,也有技术导向的,但是 以技术见长的互联网产品比例相对小些。搜索引擎是目前互联网产品中最具技 术含量的产品,如果不是唯一,至少也是其中之一。 经过十几年的发展
所属分类:
C/C++
发布日期:2018-07-04
文件大小:4194304
提供者:
qq15690515
用python做一个搜索引擎(Pylucene)的实例代码
1.什么是搜索引擎? 搜索引擎是“对网络信息资源进行搜集整理并提供信息查询服务的系统,包括信息搜集、信息整理和用户查询三部分”。如图1是搜索引擎的一般结构,信息搜集模块从网络采集信息到网络信息库之中(一般使用爬虫);然后信息整理模块对采集的信息进行分词、去停用词、赋权重等操作后建立索引表(一般是倒排索引)构成索引库;最后用户查询模块就可以识别用户的检索需求并提供检索服务啦。 图1 搜索引擎的一般结构 2. 使用python实现一个简单搜索引擎 2.1 问题分析 从图1看,一个完整的搜索引擎架构
所属分类:
其它
发布日期:2020-12-25
文件大小:139264
提供者:
weixin_38609089
«
1
2
»