您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 大规模网页模块识别与信息提取系统设计与实现

  2. 本科生论文。本文在已有的基于Dom-Tree和启发式规则的网页信息提取算法的基础上,通过为所有符合W3C规范的Html标签分类,逐个分析各Html标签所包含的语义信息,细化规则设置,实现了一种自底向上的无信息遗漏的网页分块算法,并在此基础上,利用统计方法得到详细的概率分布数据,实现了文本相似度比较和Bayes后验概率估计两种网页主题内容信息块识别算法,并将其求交,提高了主题内容信息块的识别精确度。 上述算法已集成到天网搜索引擎平台的网页预处理模块中,并且在SEWM 2008会议中,以这套算法为
  3. 所属分类:其它

    • 发布日期:2009-11-30
    • 文件大小:1048576
    • 提供者:zjj77520
  1. 搜索引擎-原理、技术与系统

  2. 本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建方案。全书分三篇共13章内容,从基本工作原理概述开始,到一个小型简单搜索引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统地设计要点及其关键技术;最后面向主题和个性化的Web信息服务,阐述了中文网页自动分类等技术及其应用。本书层次分明,由浅入深;既有深入的深入的理论分析,也有大量实验数据,具有学习和实用双重意义。 TSE源代码网址:http://sewm.pku.edu.cn/src/TSE/
  3. 所属分类:Web开发

    • 发布日期:2010-08-03
    • 文件大小:4194304
    • 提供者:dengai
  1. 基于特征贡献度的垃圾邮件过滤方法

  2. 根据邮件特征出现在垃圾邮件和非垃圾邮件中概率不同,提出了特征对邮件分类贡献度的概念, 并给出了其计算公式。使用特征对分类的贡献度对基于逻辑回归的判别学习模型进行了改进,并在 TREC、 CEAS、SEWM 测试集上进行了对比实验,在所选择的数据集上,过滤器的性能都有所提高,实验取得了令 人满意的结果。
  3. 所属分类:其它

    • 发布日期:2018-08-29
    • 文件大小:716800
    • 提供者:renduly