您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 基于本体语义的定题爬虫

  2. :定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值. 针对 目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略. 同 时根据网页具有不同位置不同信息重要性的特点,提出了改进的加权特征项权值计算公式,实现基于语义的网页 实时过滤. 为进一步提高爬虫的工作效率提出链接相关度预测算法. 对比实验表明此策略具有可行性.
  3. 所属分类:网络基础

    • 发布日期:2009-12-17
    • 文件大小:191488
    • 提供者:haozsp
  1. 基于本体的主题网络爬虫设计

  2.   网络爬虫是搜索引擎的重要组成部分。分析了主题网络爬虫的工作原理 ,研究了主题相关度的计算方法 ,提出了基于本体的主题网络爬虫解决方案 ,设计实现了评估实验系统。最后对实验的结果进行了比较 ,论证了其可行性。
  3. 所属分类:网络基础

    • 发布日期:2010-09-15
    • 文件大小:189440
    • 提供者:yerida
  1. 一种新的基于概念树的主题网络爬虫方法

  2. 一种新的基于概念树的主题网络爬行方法。与传统基于关键词描述主题的方法不同, 本文提出基于叙词表来 构建一种称为概念树的表示方法来描述主题的概念。在此基础上, 本文给出锚文本和HTM L页面内容与主题相关度的 计算方法。在分析URL的相关度时, 首先判断其锚文本的相关度是否达到一定的阈值
  3. 所属分类:网络基础

    • 发布日期:2010-11-30
    • 文件大小:233472
    • 提供者:leepan1990
  1. 基于DIV的主题抽取

  2. 随着CSS+DIV布局方式逐渐成为网页结构布局的主流,对此类网页进行高效的主题信息抽取已成为 专业搜索引擎的迫切任务之一。提出一种基于DIV标签树的网页主题信息抽取方法,首先根据DIV 标签把HTML文档解析成DIV森林,然后过滤掉DW标签树中的噪声结点并且建立STU-DIV模型 树,最后通过主题相关度分析和剪枝算法,剪掉与主题信息无关的DIV标签树。通过对多个新闻网站 的网页进行分析处理,实验证明此方法能够有效地抽取新闻网页的主题信息。
  3. 所属分类:其它

    • 发布日期:2010-12-30
    • 文件大小:373760
    • 提供者:heyun51
  1. 基于Nutch的电力行业全文搜索引擎的研究与设计.pdf

  2. 目前,通用搜索引擎对行业领域及特定主题信息覆盖率较低,且无法保证检索信息数据的安全性。因此,本文在开源的Nutch 搜索引擎架构的基础, 通过构建电力行业词典,利用改进的空间向量算法对抓取内容的相关度进行计算,并对相关内容进行过滤,结合主流的PageRank算法对搜索结果综合排序,并嵌入访问控制模块,对用户的访问权限进行认证, 对获取的信息数据进行基于权限的分类, 构建出具有电力行业特色的搜索专业引擎。提高了行业信息搜索的专业性,加强了搜索引擎的安全性。
  3. 所属分类:Java

    • 发布日期:2011-06-01
    • 文件大小:762880
    • 提供者:jove1357
  1. winform模拟网络蜘蛛源码

  2. 可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。 状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。 有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。 今后有空可能加入的特性: 新特性 介绍 爬取文件用Berkeley DB存储 提高性能: 常用操
  3. 所属分类:C#

    • 发布日期:2011-10-21
    • 文件大小:1048576
    • 提供者:shawshrank
  1. Web Data Mining (英文)

  2. 目录回到顶部↑ 第一部分 数据挖掘基础. 第1章 概述3 1.1 什么是万维网3 1.2 万维网和互联网的历史简述4 1.3 web数据挖掘5 1.3.1 什么是数据挖掘6 1.3.2 什么是web数据挖掘7 1.4 各章概要8 1.5 如何阅读本书10 文献评注10 第2章 关联规则和序列模式12 2.1 关联规则的基本概念12 2.2 apriori算法14 2.2.1 频繁项目集生成14 2.2.2 关联规则生成17 2.3 关联规则挖掘的数据格式19 2.4 多最小支持度的关联规则挖掘
  3. 所属分类:专业指导

    • 发布日期:2012-05-02
    • 文件大小:8388608
    • 提供者:chen_767
  1. 网络爬虫程序源码

  2. 网络爬虫程序源码 这是一款用 C# 编写的网络爬虫 主要特性有: 可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。 状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。 有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。 今后有空可能加入的特性: 新特
  3. 所属分类:C#

    • 发布日期:2013-04-27
    • 文件大小:798720
    • 提供者:u010476944
  1. 网络爬虫程序

  2. 网络爬虫程序源码 这是一款用 C# 编写的网络爬虫 主要特性有: 可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。 状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。 有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。 今后有空可能加入的特性: 新特
  3. 所属分类:C#

    • 发布日期:2014-04-01
    • 文件大小:798720
    • 提供者:tanghongju
  1. 优化宝贝标题

  2. 下面我说下我是怎么选择这组关键词的。 首先,网站会有一个主题,比如我是做人才网的,又或者是做复读机或者其他等等。这个主题是你要先有的。 有个这个主题了。你就要准备发散思维了。想所有尽可能多的相关词。先不要在网上看,尽可能的发挥你的想象力。然后也可以问问你的朋友们。比如说你要找工作你会怎么搜索? 你想买什么东西的时候你会怎么搜索等。 现在你已经拥有了一个模糊的关键字集。这个时候我们可以进行下一步,你按照这个关键字集进行搜索,找到所有自然排名前三的网站。然后将这么网站的关键字加入到你已经拥有的集合
  3. 所属分类:网络基础

    • 发布日期:2014-05-30
    • 文件大小:13312
    • 提供者:zhuzi9158
  1. 面向垂直搜索引擎的主题爬行技术研究

  2. 垂直搜索;主题爬行;主题描述;网页分块;相关度计算;相关度预测;优先级计算。
  3. 所属分类:Web开发

    • 发布日期:2015-01-21
    • 文件大小:9437184
    • 提供者:jlumarvin
  1. c#网络爬虫程序源码

  2. 网络爬虫程序源码 这是一款用 C# 编写的网络爬虫 主要特性有: 可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。 状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。 有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。 今后有空可能加入的特性: 新特
  3. 所属分类:C#

    • 发布日期:2015-06-01
    • 文件大小:798720
    • 提供者:cuichaojie000
  1. 2016大数据技术大会

  2. 2016大数据技术大会,来自一线互联网(含bat)厂商顶级大学的大数据实践经验, 包含以下主题: ​百度大规模推荐系统实践 京东数据库备份系统进化之路​ ​腾讯大数据能力输出之路 基于图算法的跨设备受众识别 ​360聚效广告大数据平台实践​ ​领域知识驱动的个性化推荐方法 大数据基础组建的安全解决方案 ​大数据视野下的数据安全防护体系探索​大数据安全防护​ ARM嵌入式系统的DNN性能优化 ​Gemini:基于图计算的高性能大数据分析系统 ​下一代实时数据处理引擎——Apache Apex项目
  3. 所属分类:专业指导

    • 发布日期:2017-03-09
    • 文件大小:78643200
    • 提供者:dreamfarwhb
  1. C#网络爬虫源码

  2. 网络爬虫程序源码 这是一款用 C# 编写的网络爬虫 主要特性有: 可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。 状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。 有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。 今后有空可能加入的特性: 新特
  3. 所属分类:C#

    • 发布日期:2017-09-26
    • 文件大小:797696
    • 提供者:zhangcanliangv
  1. 主题爬虫的设计与实现

  2. 文章以主题相关度为核心研究了设计主题爬虫的相关技术,通过实验给出了具体实现。 实验结果充分论证了其可行性与实用性,为进行主题搜索引擎设计和主题信息采集奠定了良好的基 础。
  3. 所属分类:专业指导

    • 发布日期:2009-03-21
    • 文件大小:151552
    • 提供者:v3liuhuan
  1. 主题网络爬虫

  2. 网络爬虫是一种能够自动采集互联网信息的程序。网络爬虫不但能够作为搜索引擎的采集器,而且可以用于特定信息的采集,根据某些特定的要求采集网站中的信息,如就业,租房信息等。本文设计并实现了一种基于主题的网络爬虫程序。网络爬虫采用何种搜索策略和如何评价当前页面的主题相关度是基于主题的网络爬虫需要解决的关键问题。本文设计的网络爬虫采用广度优先搜索,对url进行解析、去重等。并应用Java多线程,使爬虫在抓取网页的过程中更有效率。通常评价页面相关度是采用基于内容评价的搜索策略,本文实现了三个常用的相关度评
  3. 所属分类:Java

    • 发布日期:2018-08-18
    • 文件大小:35840
    • 提供者:qq_43000290
  1. python主题爬取百度新闻

  2. 爬取百度新闻的新闻,并可以进行主题搜索,搜索结果按照主题相关度进行排序
  3. 所属分类:Python

    • 发布日期:2018-12-21
    • 文件大小:4096
    • 提供者:u014138443
  1. K风网页搜索 K-PageSearch v2.2 SP5.rar

  2. K-PageSearch是由Kwindsoft自主研发的专业网页搜索引擎系统,拥有先进的智能分析和海量数据检索技术,核心由多线程采集系统、智能分析系统、海量索引系统、全文检索系统四大部分构成。系统采用专业级的搜索引擎系统架构,支持海量数据毫秒级全文检索。主要面向大中型行业搜索引擎、地方搜索引擎、专类信息搜索引擎等应用领域设计的专业全文检索产品,为用户提供海量数据全文检索应用的理想解决方案。 K风网页搜索V2.2版本主要改进:改进索引系统读写性能,提高约10倍的索引速度; SP5:修正改进搜索算
  3. 所属分类:其它

    • 发布日期:2019-07-09
    • 文件大小:2097152
    • 提供者:weixin_39840515
  1. 基于多策略的短文本信息流会话抽取

  2. 互联网中存在大量的短文本信息流,需要对其进行会话抽取,将相同主题的内容合并到同一会话中。会话中的内容、时间和用户关系都会对会话抽取的性能产生影响,针对该问题提出了一种基于多策略的会话抽取算法。首先,基于内容、时间和用户关系进行会话分割得到会话片段;然后,利用词向量计算内容语义相似度,并结合时间信息计算会话片段间的相关度,对其进行聚类,实现会话抽取。在三个来源于真实聊天记录的数据集上进行实验的结果表明,本方法优于传统方法,综合F值分别提高了38.5%、15.7%和26.8%。
  3. 所属分类:其它

    • 发布日期:2019-07-22
    • 文件大小:1048576
    • 提供者:weixin_39840650
  1. 基于java的主题网络爬虫系统,功能十分简单,bug也多,谨慎下载

  2. 本项目是我的毕业设计项目。本人技术水平有限,写出来的东西bug很多,功能也非常不完善,承蒙老师照顾,答辩勉强通过。这个爬虫是针对特定站点的主题爬虫。具备多线程爬取、页面主题相关度计算、子链接主题相关度预测等功能。此外,还包含了一个简单的搜索引擎模块,用于对爬取结果的快速检索。 功能不算很完善,请谨慎下载。
  3. 所属分类:Java

    • 发布日期:2020-06-17
    • 文件大小:283648
    • 提供者:DriftJiangyun
« 12 »