您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. C#网络蜘蛛源程序及搜索引擎技术揭密

  2. 网络 蜘蛛基本原理 网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网页的 内容 ,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一 个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。 对于搜索引擎来说,要抓取互联网上所有的网页几乎
  3. 所属分类:网络基础

    • 发布日期:2009-07-28
    • 文件大小:268288
    • 提供者:wang3c
  1. PHP linux jsapache php5 案例讲解

  2. 1.本书1、3~10、12~19章所附代码的运行环境 服务器Apache 2.0及以上版本 数据库采用MySQL 4.0.14 及以上版本 PHP采用PHP 4.3及以上版本 2.本书所附光盘范例 第1章(/01/) code1_1.html HTML标签代码 code1_2.html HTML文档注释 code1_3.html 字体格式 code1_4.html 段落标记符号 code1_5.html 无序号列表 code1_6.html 有序号列表 code1_7.html 文本和图像的位
  3. 所属分类:PHP

    • 发布日期:2010-08-16
    • 文件大小:2097152
    • 提供者:zhanghong86
  1. 页面正文内容提取组件及研究文档

  2. QD正文提取组件,采用特征提权算法(非正则),C#(3.5)编程实现。经测试,对Html格式规范的以文字为主的内容页,正确提取率在85%以上,各大门户的新闻页面在95%以上。 该资源为研究文档和例子程序,但不包含源码。需要组件源码的可到站点:http://www.madcn.net/购买。
  3. 所属分类:C#

    • 发布日期:2010-11-11
    • 文件大小:153600
    • 提供者:madxzb
  1. 基于DOM-TREE网页正文提取方法

  2. 利用DOM-TREE模型对网页进行表示 对原始网页进行修正缺省标签的补充等 利用网页正文提取方法对网页进行正文提取,去除网页中的噪声信息,提取出网页中的正文、相关超链接
  3. 所属分类:C#

    • 发布日期:2010-11-18
    • 文件大小:49152
    • 提供者:zwjhit
  1. 自己动手写搜索引擎(罗刚著).doc

  2. 自己动手写搜索引擎 1 第1章 了解搜索引擎 1 1.1 Google神话 1 1.2 体验搜索引擎 1 1.3 你也可以做搜索引擎 4 1.4 本章小结 4 第2章 遍历搜索引擎技术 5 2.1 30分钟实现的搜索引擎 5 2.1.1 准备工作环境(10分钟) 5 2.1.2 编写代码(15分钟) 6 2.1.3 发布运行(5分钟) 9 2.2 搜索引擎基本技术 14 2.2.1 网络蜘蛛 14 2.2.2 全文索引结构 14 2.2.3 Lucene 全文检索引擎 15 2.2.4 Nut
  3. 所属分类:其它

    • 发布日期:2011-04-18
    • 文件大小:6291456
    • 提供者:qq736655941
  1. 基于规则模型的通用网页正文提取组件

  2. 演示地址如下:http://202.110.133.114/tsegment/webanalyer.aspx属于早期作品,采用规则方法提出非正文内容,则认为留下的内容为正文。仅作简单技术演示之用,感谢TT同学提供的空间并帮我写的演示程序。该功能已封装成.NET组件,可提供程序直接调用,近期提供下载。可用于大家收集语料时候网页内容提取之用。如对此组件有兴趣,请直接邮件至我MSN信箱,我正考虑采用新算法完善并编写多个语言版本,在这里先统计下人数看看有没开发商业版本的必要,对于商业版本将采用块识别标
  3. 所属分类:其它

    • 发布日期:2008-05-28
    • 文件大小:61440
    • 提供者:yy8354
  1. 138文章管理系统138cms_v1.0

  2. 138文章管理系统,采用Asp+Access开发,适应中小新闻文章型网站及个人网站需求,整个网站采用Div+Css布局,IE6、IE7、IE8、Firefox、Chrome下测试无误。 如果放在根目录,不需要修改任何东西即可运行。 请确保你的空间支持FSO及AspJpeg组件,否则可能有些功能无法使用。 默认后台管理路径admin/admin_login.asp,用户名及密码都是admin 〓〓〓〓〓〓〓〓 功 能 说 明 〓〓〓〓〓〓〓〓 1.多风格功能,支持风格选择与在线编辑、后台风格及R
  3. 所属分类:Web开发

    • 发布日期:2012-02-19
    • 文件大小:3145728
    • 提供者:vip138
  1. 138CMS网站管理系统V2.0

  2. 〓〓〓〓〓〓〓〓 程 序 说 明 〓〓〓〓〓〓〓〓 38CMS网站管理系统,采用Asp+Access开发,适应中小新闻文章型网站或下载类型网站及个人网站需求,整个网站采用Div+Css布局,IE6、IE7、IE8、Firefox、Chrome下测试无误。 如果放在根目录,不需要修改任何东西即可运行。 请确保你的空间支持FSO及AspJpeg组件,否则可能有些功能无法使用。 默认后台管理路径admin/admin_login.asp,用户名及密码都是admin 〓〓〓〓〓〓〓〓 功 能 说 明
  3. 所属分类:Web开发

    • 发布日期:2012-02-26
    • 文件大小:3145728
    • 提供者:vip138
  1. 弘一网童 V2.71

  2. 自动提取正文内容,不用“拷贝粘贴”,只保存正文,生成的文件干净、清爽;可以一次性保存所有“下一页”,也可将多个网页一次性保存在一个文件中,免去逐一拷贝的烦恼;可以将网页保存成HTM、TXT、MHT、WORD多种格式;解决了不能“拷贝”的网页的内容获取;还可以一次性保存网页中的所有图片、Flash。
  3. 所属分类:其它

    • 发布日期:2012-02-28
    • 文件大小:2097152
    • 提供者:rjqgat
  1. 138CMS网站管理系统 V3.0版发布

  2. 〓〓〓〓〓〓〓〓 升 级 说 明 〓〓〓〓〓〓〓〓 升级说明详见官方网:http://www.new138.com/Html/?2990.html 〓〓〓〓〓〓〓〓 程 序 说 明 〓〓〓〓〓〓〓〓 138CMS网站管理系统,采用Asp+Access开发,适应中小新闻文章类型或下载类型或图片类型网站及个人网站需求,整个网站采用Div+Css布局,IE6、IE7、IE8、Firefox、Chrome下测试无误。 如果放在根目录,不需要修改任何东西即可运行 放在根目录,不用任何修改即可正常运行;如
  3. 所属分类:Web开发

    • 发布日期:2012-04-18
    • 文件大小:3145728
    • 提供者:vip138
  1. 自己动手写搜索引擎(罗刚)

  2. 自己动手写搜索引擎 1 第1章 了解搜索引擎 1 1.1 Google神话 1 1.2 体验搜索引擎 1 1.3 你也可以做搜索引擎 4 1.4 本章小结 4 第2章 遍历搜索引擎技术 5 2.1 30分钟实现的搜索引擎 5 2.1.1 准备工作环境(10分钟) 5 2.1.2 编写代码(15分钟) 6 2.1.3 发布运行(5分钟) 9 2.2 搜索引擎基本技术 14 2.2.1 网络蜘蛛 14 2.2.2 全文索引结构 14 2.2.3 Lucene 全文检索引擎 15 2.2.4 Nut
  3. 所属分类:Java

    • 发布日期:2012-04-25
    • 文件大小:3145728
    • 提供者:jayghost
  1. C#正则表达式学习

  2. 对于网页源码提取正文部分有帮助……(1)“@”符号 符下两ows表研究室的火热,当晨在“@”虽然并非C#正则表达式的“成员”,但是它经常与C#正则表达式出双入对。“@”表示,跟在它后面的字符串是个“逐字字符串”,不是很好理解,举个例子,以下两个声明是等效的: string x="D:\\\\My Huang\\\\My Doc"; string y = @"D:\My Huang\My Doc"; 事实上,如果按如下声明,C#将会报错,因为“\”在C#中用于实现转义,如“\n”换行: stri
  3. 所属分类:C#

    • 发布日期:2012-05-16
    • 文件大小:21504
    • 提供者:scutsoftware
  1. ASP.NET考研资讯网实验报告 含关键代码及注释、关键设置截图

  2. 摘要: 文章中主要包括本网站的主要功能以及实现各项功能的关键代码,代码中关键语句的解释;为了实现某些功能遇到的问题及解决办法;调试中遇到问题的解决办法。 关键字: 考研资讯、经验共享、历年分数线查询、 引言: 正在准备考研的我,需要在各大考研网站上查询自己需要的资讯等,所以有了做“考研资讯网”的想法。游走于各大考研网站时,发现因为这些网站的盈利模式要求,他们的广告量很大,浮动窗口到处乱飞,页面通常不够干净整洁,信息量大但信息质量不高。考研资讯中也是广告掺杂多,真正有质量的文章少之又少。而我的考
  3. 所属分类:.Net

    • 发布日期:2012-06-13
    • 文件大小:4194304
    • 提供者:gujibala
  1. 精通PHP5应用开发 源代码

  2. 《精通PHP5应用开发》配套光盘源码实例 目录: 第1章(/01/) code1_1.html HTML标签代码 code1_2.html HTML文档注释 code1_3.html 字体格式 code1_4.html 段落标记符号 code1_5.html 无序号列表 code1_6.html 有序号列表 code1_7.html 文本和图像的位置关系 code1_8.html 锚点和链接 code1_9.html 复杂的表格 code1_10.html 综合实例页面 第3章(/ 03/)
  3. 所属分类:PHP

    • 发布日期:2012-07-11
    • 文件大小:1048576
    • 提供者:ibmfahsion
  1. 火车头数据采集平台1.6版(火车采集器7.6)

  2. ┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┓ ┃ ┃ ┃ 火车头数据采集平台1.6版(火车采集器7.6) 最后更新2012-09-25 ┃ ┃ ┃ ┃ 分布式 多扩展 多任务 多线程 多标签 多页采 多SEO功能 多发布 多数据库 ┃ ┃ ┃ ┗━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┛ ★★①安装说明★★ 火车头数据采集平台要求:您的电脑必须安装.net framework2.0或2.0以上框架.如果您的采集器打不开,请下载
  3. 所属分类:其它

    • 发布日期:2012-11-02
    • 文件大小:29360128
    • 提供者:xiaozejun11
  1. 基于HttpClient与HTMLParser 的网页正文提取

  2. 本文研究了 HttpClient、HTMLParser 等技术,提出并实现了一种基于HttpClient 与HTMLParser 的网 页抓取解析方法,该方法能够快速有效对HTML 页面进行抓取解析
  3. 所属分类:Java

    • 发布日期:2013-04-01
    • 文件大小:484352
    • 提供者:taobai021
  1. 正文提取通用jar包

  2. 导入jar包后,直接调用getjson(url地址) 即可 新闻资讯类页面准确率95%+ 仅支持提取内容单页面,不支持页面列表及网站首页
  3. 所属分类:Java

    • 发布日期:2015-08-01
    • 文件大小:2048
    • 提供者:u013155856
  1. 易搜索站内全文检索搜索引擎

  2. 导航的根源在于分类,当有100条信息的时候,我们使用类别来定位信息,当有10000条信息的时候,我们用标签来定位信息,当有100..00条信息的时候,无论怎么分类都是难以寻找的,于是就有了搜索… 当一个网站信息越积越多,搜索将会变得越来越重要。以至于终于有一天,当网站发现50%以上的用户来到你的网站第一件事是搜索的时候,搜索就将成为没有“导航”的导航。因此站内搜索成了网站建设的当务之急。随着网络应用的深入,信息量的爆炸性增长,站内搜索成为每个优秀网站必须具备的功能。纵观中国大中小网站,绝大多数
  3. 所属分类:其它

    • 发布日期:2008-12-27
    • 文件大小:228352
    • 提供者:redmethod
  1. 易搜索 站内全文检索搜索引擎 v1.0.rar

  2. 导航的根源在于分类,当有100条信息的时候,我们使用类别来定位信息,当有10000条信息的时候,我们用标签来定位信息,当有100..00条信息的时候,无论怎么分类都是难以寻找的,于是就有了搜索… 当一个网站信息越积越多,搜索将会变得越来越重要。以至于终于有一天,当网站发现50%以上的用户来到你的网站第一件事是搜索的时候,搜索就将成为没有“导航”的导航。因此站内搜索成了网站建设的当务之急。随着网络应用的深入,信息量的爆炸性增长,站内搜索成为每个优秀网站必须具备的功能。纵观中国大中小网站,绝大多数
  3. 所属分类:其它

    • 发布日期:2019-07-09
    • 文件大小:23068672
    • 提供者:weixin_39840588
  1. Wechatsync:一键同步文章到多个内容平台,支持今日头条,WordPress,知乎,简书,掘金,CSDN,typecho各大平台,一次发布,多平台同步发布。-源码

  2. 文章同步助手 还在为一次编辑,N个平台需要多次合并上传脑壳疼吧?为广大自媒体朋友撸了个提高开发的小工具,可以做到的在多个内容平台无缝同步。 预览 公众号文章同步 Markdown编辑器 多渠道选择 安装方式 Chrome商店 开发者模式安装 并解压 :chrome:// extensions 右上角“开启开发者模式” 拖入解压后的文件夹到浏览器插件页 发布渠道 HTML WordPress的 Typecho 知乎 简书 微博 头条 降价促销 CSDN 掘金 段故障 博客 特性 公众号文
  3. 所属分类:其它

    • 发布日期:2021-03-17
    • 文件大小:2097152
    • 提供者:weixin_42105816
« 12 »