您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 海量Web信息搜集系统优化设计_谢正茂_北京大学硕士论文

  2. 论 文 摘 要 本文首先由WWW的起源和发展导出搜索引擎技术的出现和发展。北大天网是这类技术在中国的最早的成功产品之一,本文将大体介绍其体系结构和技术特点。 搜集端(crawler)是天网的主要模块之一,它的搜索速度、获取网页质量是评价搜索引擎好坏的主要指标,是检索端的工作的基石。如何更快,更好的抓取网页是本人毕业设计的工作目标。在介绍完搜集端现有的体系结构之后,本文从搜索导向、相似网页、相关度权值给定三个方面阐述它的优化策略,作为本文的重点。 最后,本文试图指出现有系统的处理能力极限和瓶颈,
  3. 所属分类:Web开发

    • 发布日期:2009-07-08
    • 文件大小:228352
    • 提供者:rockychan1206
  1. 基于浅层分析的网页相关度研究

  2. 摘 要 本文介绍了北京大学天网知名度系统的设计与开发工作,重点论述了其中网页相关度评价 的因素、算法和相应的检索结果。系统在北京大学天网搜索引擎的基础上,运用中文信息提取的新技术, 结合网页信息的特点,针对名人网页的检索提出了一种新的网页相关度评价算法,改善了检索结果的排序 合理性,提高了名人网页检索服务的质量。
  3. 所属分类:其它

    • 发布日期:2009-07-22
    • 文件大小:83968
    • 提供者:flydi
  1. 基于本体语义的定题爬虫

  2. :定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值. 针对 目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略. 同 时根据网页具有不同位置不同信息重要性的特点,提出了改进的加权特征项权值计算公式,实现基于语义的网页 实时过滤. 为进一步提高爬虫的工作效率提出链接相关度预测算法. 对比实验表明此策略具有可行性.
  3. 所属分类:网络基础

    • 发布日期:2009-12-17
    • 文件大小:191488
    • 提供者:haozsp
  1. 综合检索报告单片机的应用

  2. 1、中文期刊5篇 2、外文期刊找5篇 3、专利文献中外文各找2篇 4、学位论文中外文各找2篇 5、标准文献1篇 6. 产品样本:只提供图,商品名:厂家.联系方式. 7. 网络上相关网页(10页) (只列题名,IP地址.)(注意相关度 8、会议论文(2篇) 9.中外文电子图书(相关专业)各3种,说明来源,格式,书名,作者,标准书号,有无全文。
  3. 所属分类:硬件开发

    • 发布日期:2010-03-29
    • 文件大小:260096
    • 提供者:wang_angle
  1. 基于本体的网络爬虫技术研究

  2. 互联网已经成为最大的非结构化数据库, 极大方便了信息访问。然而, 网络上的信息大多都是无组织的, 由于网络的分布式特性, 很难对它进行信息和知识管理。因此, 如何建立一个智能的信息发现机制很有必要。本文在分析了爬虫工作原理和传统算法后, 提出了一种基于本体的网络爬虫的信息发现框架。该框架包含了预处理模块和本体管理模块, 定义了网页相关度计算策略, 最后通过实验对该框架进行了评估。
  3. 所属分类:网络基础

    • 发布日期:2010-09-15
    • 文件大小:158720
    • 提供者:yerida
  1. 基于DIV的主题抽取

  2. 随着CSS+DIV布局方式逐渐成为网页结构布局的主流,对此类网页进行高效的主题信息抽取已成为 专业搜索引擎的迫切任务之一。提出一种基于DIV标签树的网页主题信息抽取方法,首先根据DIV 标签把HTML文档解析成DIV森林,然后过滤掉DW标签树中的噪声结点并且建立STU-DIV模型 树,最后通过主题相关度分析和剪枝算法,剪掉与主题信息无关的DIV标签树。通过对多个新闻网站 的网页进行分析处理,实验证明此方法能够有效地抽取新闻网页的主题信息。
  3. 所属分类:其它

    • 发布日期:2010-12-30
    • 文件大小:373760
    • 提供者:heyun51
  1. 基于浅层分析的网页相关度研究

  2. 基于浅层分析的网页相关度研究
  3. 所属分类:专业指导

  1. 搜索引擎代码

  2. E桶金行业搜索引擎系统(包含多线程客户端蜘蛛系统) V1.6 版发布! E桶金行业搜索引擎 特别适用于超大、中型信息门户、行业门户、电子商务等网站使用。 它是一款真正意义上的搜索引擎:具有自己的蜘蛛、分词、索引、搜索等全套功能。 而且所有功能全部基于web页面完成,您只需要购买一款支持asp.net的虚拟主机就能完成本程序的部署,网站轻松上线。 本程序具有毫秒级高速搜索, 搜索结果相关度排序 。多关键词搜索、超长词条搜索、关键词高亮显示。 该程序为ASP.NET2.0版本程序,只要空间支持as
  3. 所属分类:C#

    • 发布日期:2011-09-19
    • 文件大小:8388608
    • 提供者:ntk2006
  1. Web Data Mining (英文)

  2. 目录回到顶部↑ 第一部分 数据挖掘基础. 第1章 概述3 1.1 什么是万维网3 1.2 万维网和互联网的历史简述4 1.3 web数据挖掘5 1.3.1 什么是数据挖掘6 1.3.2 什么是web数据挖掘7 1.4 各章概要8 1.5 如何阅读本书10 文献评注10 第2章 关联规则和序列模式12 2.1 关联规则的基本概念12 2.2 apriori算法14 2.2.1 频繁项目集生成14 2.2.2 关联规则生成17 2.3 关联规则挖掘的数据格式19 2.4 多最小支持度的关联规则挖掘
  3. 所属分类:专业指导

    • 发布日期:2012-05-02
    • 文件大小:8388608
    • 提供者:chen_767
  1. 百度指数查询工具2013.v2.0

  2. 易佰关键词查询工具2013 V2.0 是针对站长,企业营销人员,及SEO人士的一款的关键词挖掘工具,能够帮助用户快速查询相关的关键词,同时能够批量分析关键词的热度(百度指数),竞争度(网页收录量,竞争对手,竞价广告)等。 该软件支持如下功能: 1) 包括百度搜索,谷歌搜索,搜搜搜索,搜狗搜索,雅虎搜索,必应搜索,有道搜索,即刻搜索,360搜索等几乎所有主流搜索平台的关键词查询。 2) 包括淘宝网,京东商城,当当网,拍拍网,亚马逊,阿里巴巴等几乎所有主流电商平台的关键词查询。 3) 支持百度指数
  3. 所属分类:其它

    • 发布日期:2013-07-23
    • 文件大小:1048576
    • 提供者:guyan999
  1. 易佰关键词挖掘工具2013 v2.5.2

  2. 易佰关键词查询工具2013 V2.5.2 是针对站长,企业营销人员,及SEO人士的一款的关键词快速挖掘工具,能够帮助用户快速查询相关的关键词,同时能够批量分析关键词的热度(百度指数),竞争度(网页收录量,竞争对手,竞价广告)等。 该软件支持如下功能: 1) 包括百度搜索,谷歌搜索,搜搜搜索,搜狗搜索,雅虎搜索,必应搜索,有道搜索,即刻搜索,360搜索等几乎所有主流搜索平台的关键词查询。 2) 包括淘宝网,天猫,京东商城,当当网,拍拍网,亚马逊,阿里巴巴等几乎所有主流电商平台的关键词查询。 3)
  3. 所属分类:网络基础

    • 发布日期:2013-08-24
    • 文件大小:2097152
    • 提供者:guyan999
  1. 基于机器学习的网页正文提取方法

  2. 先将网页转换为规范的 DOM 树 然后计算每行文本的文本密度 与标题相关度等值 并将其作为输入参数利用 BP 神经网络进行训练 进而形成抽取规则 最后通过实验验证该方法的可行性
  3. 所属分类:其它

    • 发布日期:2014-03-01
    • 文件大小:174080
    • 提供者:whlgh
  1. 信息检索复习范围

  2. 可以快速复习 10.描述LSI模型 11.实例分析VSM模型 12.信息检索系统常见的索引技术有哪些,各自的使用场合如何? 13.实例分析倒排索引 14.信息检索查询处理的基本过程 15.什么是相关度反馈 16.实例计算相关度反馈的查询重写 17.分析违反馈和隐反馈 18.查询扩展的方法有哪些 19.描述网络爬虫系统 20.网页预处理的过程有哪些 21.描述pagerank算法 22.描述hits算法 24.文本分类系统中,特征选择有哪些方法,优缺点方法如何?
  3. 所属分类:网络管理

    • 发布日期:2014-06-26
    • 文件大小:573
    • 提供者:zhaodouddou
  1. 面向垂直搜索引擎的主题爬行技术研究

  2. 垂直搜索;主题爬行;主题描述;网页分块;相关度计算;相关度预测;优先级计算。
  3. 所属分类:Web开发

    • 发布日期:2015-01-21
    • 文件大小:9437184
    • 提供者:jlumarvin
  1. 2016大数据技术大会

  2. 2016大数据技术大会,来自一线互联网(含bat)厂商顶级大学的大数据实践经验, 包含以下主题: ​百度大规模推荐系统实践 京东数据库备份系统进化之路​ ​腾讯大数据能力输出之路 基于图算法的跨设备受众识别 ​360聚效广告大数据平台实践​ ​领域知识驱动的个性化推荐方法 大数据基础组建的安全解决方案 ​大数据视野下的数据安全防护体系探索​大数据安全防护​ ARM嵌入式系统的DNN性能优化 ​Gemini:基于图计算的高性能大数据分析系统 ​下一代实时数据处理引擎——Apache Apex项目
  3. 所属分类:专业指导

    • 发布日期:2017-03-09
    • 文件大小:78643200
    • 提供者:dreamfarwhb
  1. 易搜索站内全文检索搜索引擎

  2. 导航的根源在于分类,当有100条信息的时候,我们使用类别来定位信息,当有10000条信息的时候,我们用标签来定位信息,当有100..00条信息的时候,无论怎么分类都是难以寻找的,于是就有了搜索… 当一个网站信息越积越多,搜索将会变得越来越重要。以至于终于有一天,当网站发现50%以上的用户来到你的网站第一件事是搜索的时候,搜索就将成为没有“导航”的导航。因此站内搜索成了网站建设的当务之急。随着网络应用的深入,信息量的爆炸性增长,站内搜索成为每个优秀网站必须具备的功能。纵观中国大中小网站,绝大多数
  3. 所属分类:其它

    • 发布日期:2008-12-27
    • 文件大小:228352
    • 提供者:redmethod
  1. 主题网络爬虫

  2. 网络爬虫是一种能够自动采集互联网信息的程序。网络爬虫不但能够作为搜索引擎的采集器,而且可以用于特定信息的采集,根据某些特定的要求采集网站中的信息,如就业,租房信息等。本文设计并实现了一种基于主题的网络爬虫程序。网络爬虫采用何种搜索策略和如何评价当前页面的主题相关度是基于主题的网络爬虫需要解决的关键问题。本文设计的网络爬虫采用广度优先搜索,对url进行解析、去重等。并应用Java多线程,使爬虫在抓取网页的过程中更有效率。通常评价页面相关度是采用基于内容评价的搜索策略,本文实现了三个常用的相关度评
  3. 所属分类:Java

    • 发布日期:2018-08-18
    • 文件大小:35840
    • 提供者:qq_43000290
  1. K风网页搜索 K-PageSearch v2.2 SP5.rar

  2. K-PageSearch是由Kwindsoft自主研发的专业网页搜索引擎系统,拥有先进的智能分析和海量数据检索技术,核心由多线程采集系统、智能分析系统、海量索引系统、全文检索系统四大部分构成。系统采用专业级的搜索引擎系统架构,支持海量数据毫秒级全文检索。主要面向大中型行业搜索引擎、地方搜索引擎、专类信息搜索引擎等应用领域设计的专业全文检索产品,为用户提供海量数据全文检索应用的理想解决方案。 K风网页搜索V2.2版本主要改进:改进索引系统读写性能,提高约10倍的索引速度; SP5:修正改进搜索算
  3. 所属分类:其它

    • 发布日期:2019-07-09
    • 文件大小:2097152
    • 提供者:weixin_39840515
  1. \"Tag-TextRank:一种基于Tag的网页关键词抽取方法\"分享总结

  2. NULL 博文链接:https://snv.iteye.com/blog/1886969在 Wikipedia中的实体,并且算法的复杂度很高。另外,国内一些学者lm2也开展了关键 词提取的研究。实际上,从上面的工作,我们可以得到这样的基本结论:基本的R特征可 以找到部分关键词,而加入用户信息或者领域知识可以进一步提高关键词抽取效果。 本文利用Tag信息来提高关键词的抽取效果。近年来,Tag数据作为·种新的资源, 其挖掘和利用已经成为信息检索、社区发现等领域的研究热点。从数据质量上讲,Iag数 据
  3. 所属分类:其它

    • 发布日期:2019-04-20
    • 文件大小:1046528
    • 提供者:weixin_38669628
  1. 基于机器学习的网页正文提取方法

  2. 先将网页转换为规范的DOM树,然后计算每行文本的文本密度、与标题相关度等值,并将其作为输入参数利用BP神经网络进行训练,进而形成抽取规则,最后通过实验验证该方法的可行性。
  3. 所属分类:其它

    • 发布日期:2020-10-26
    • 文件大小:145408
    • 提供者:weixin_38748580
« 12 »