您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 多文档文摘中句子优化选择方法研究

  2. 在多文档文摘子主题划分的基础上,提出了一种在子主题之间对文摘句优化选择的方法。首先在句子相似度计算的基础上,形成多文档集合的子主题,通过对各子主题打分,确定子主题的抽取顺序。以文摘中有效词的覆盖率作为优化指标,在各个子主题中选择文摘句。从减少子主题之间及子主题内部的信息的冗余性两个角度选择文摘句,使文摘的信息覆盖率得到很大提高
  3. 所属分类:专业指导

    • 发布日期:2010-05-09
    • 文件大小:216064
    • 提供者:xue100sheng
  1. 刨丁解羊HTMl网页信息抽取器

  2. 刨丁解羊HTMl网页信息抽取器,是制作搜索引擎、网络蜘蛛、网络爬虫、分词索引的核心组件。采用人工智能启发式算法、高斯积分去噪算法,对HTML格式的源代码网页进行抽取,通过过滤无用的HTM标签、主题相悖信息,抽取出核心正文信息。DLL及OCX调用请联系QQ(601069289)。
  3. 所属分类:网络基础

    • 发布日期:2010-08-30
    • 文件大小:14336
    • 提供者:henggua
  1. 中文信息处理中若干关键技术的研究

  2. 随着科学技术的高速发展及名种资源数量的不断增多为了提高效率,信息处理己经成为当前最重要的研究内容,其中涉及到切词和属性选择、信息抽取、自然语言理解、自动聚类和分类、自动摘要、自动标引和主题识别、信息结构分析、文本生成以及信息检索等等。其中,属性选择是一项较为重要的基础性研究工作,为其它的研究提供基础和前提。而其它研究工作 可以有效地、而且较为准确地抽取出有用信息、挖掘出新的知识,提高获取大量有用信息的效率和速度。
  3. 所属分类:专业指导

    • 发布日期:2010-09-02
    • 文件大小:8388608
    • 提供者:guofeng314
  1. 面向主题的网页采集系统的设计与研究

  2. 对面向主题的信息采集技术进行了探索性研究。采用基于DOM的信息抽取技术, 建立混合空问模型表示内容和结构特征信息,并通过定义网贞间相似性来识别主题页面。较好的处理了Web信息抽取中主题页面识别的问题,实验结果证明了系统的可行性。
  3. 所属分类:网络基础

    • 发布日期:2010-09-16
    • 文件大小:364544
    • 提供者:yerida
  1. 基于DIV的主题抽取

  2. 随着CSS+DIV布局方式逐渐成为网页结构布局的主流,对此类网页进行高效的主题信息抽取已成为 专业搜索引擎的迫切任务之一。提出一种基于DIV标签树的网页主题信息抽取方法,首先根据DIV 标签把HTML文档解析成DIV森林,然后过滤掉DW标签树中的噪声结点并且建立STU-DIV模型 树,最后通过主题相关度分析和剪枝算法,剪掉与主题信息无关的DIV标签树。通过对多个新闻网站 的网页进行分析处理,实验证明此方法能够有效地抽取新闻网页的主题信息。
  3. 所属分类:其它

    • 发布日期:2010-12-30
    • 文件大小:373760
    • 提供者:heyun51
  1. 垂直搜索引擎的设计与实现

  2. 随着信息多元化的发展,通用搜索引擎己经不能满足主题用户的需求。用户迫切需要一个数据分类细致、精确、全面、更新及时的面向特定主题的搜索技术和方法来获得主题资源信息。在这种需求的推动下,垂直搜索引擎应运而生。 论文研究了搜索引擎的相关技术,通过分析基于查询串方式的搜索引擎和分类目录式搜索引擎的整体结构,设计了垂直搜索引擎的系统结构,并对其中涉及的关键技术:触b搜集器、信息抽取技术、中文分词和检索技术进行了深入研究,期望对推进本领域的技术发展作一点贡献。 在总体设计方面采用的是模块化思想,垂直搜索引
  3. 所属分类:其它

    • 发布日期:2011-06-28
    • 文件大小:3145728
    • 提供者:ychtxb
  1. HTMLParser抽取Web网页正文信息

  2. 一般在浏览Web上的网页时会发现两部分内容:一部分是网页的主题信息,另一部分则是与主题内容无关的导航条、广告信息、版权信息等内容,我们称之为“噪音”内容。通过提取主题信息可以减少一半浏览时间,提高用户获取信息的速度,从而增强Web的可用性
  3. 所属分类:其它

    • 发布日期:2013-11-26
    • 文件大小:291840
    • 提供者:np163
  1. mallet 机器学习软件包

  2. Mallet是专门用于机器学习方面的软件包,此软件包基于java。通过mallet工具,可以进行自然语言处理,文本分类,主题建模。文本聚类,信息抽取等。
  3. 所属分类:Java

    • 发布日期:2015-08-06
    • 文件大小:8388608
    • 提供者:dsp_g
  1. 基于文档主题结构的关键词抽取

  2. 基于文档内部信息,利用文档的词聚类算法构建文档主题,进行关键词抽取。基于文档外部信息,利用隐含主题模型构建文档主题,进行关键词抽取。综合利用隐含主题模型和文档结构信息,进行关键词抽取。基于文档与关键词主题一致性的前提,提出基于机器翻译模型的关键词抽取方法。
  3. 所属分类:专业指导

    • 发布日期:2017-01-20
    • 文件大小:3145728
    • 提供者:w824429156
  1. 基于lDA模型的主题词抽取

  2. 以 LDA 模型表示文本词汇的概率分布,通过香农信息抽取体现主题的关键词。采用背景词汇聚类及主题词联想的方式将主题词 扩充到待分析文本之外,尝试挖掘文本的主题内涵。模型拟合基于快速 Gibbs 抽样算法进行。实验结果表明,快速 Gibbs 算法的速度约比 传统 Gibbs 算法高 5 倍,准确率和抽取效率均较高。
  3. 所属分类:深度学习

    • 发布日期:2017-10-31
    • 文件大小:132096
    • 提供者:fuyimin12
  1. 煤矿安全监控信息特征快速发现方法研究

  2. 针对煤矿安全监控历史数据及监测参数特点,提出了一种煤矿安全监控信息特征快速发现方法。该方法采用基于误差带的历史数据压缩算法分析采样数据,发现并存储包含重要特征的信息片段,分析该信息片段的含义,并进行主题抽取和关联分析,研究瓦斯序列的相关分析,从而可得出煤矿安全监控系统重要数据的信息特征。该方法对完善煤矿科学管理、挖掘煤矿多传感器信息和煤矿瓦斯涌出规律有一定参考价值。
  3. 所属分类:其它

    • 发布日期:2020-05-14
    • 文件大小:623616
    • 提供者:weixin_38738783
  1. Web新闻关键词抽取与主题特征自动化构建研究

  2. Web新闻关键词抽取与主题特征自动化构建研究,单艳雯,刘鲁,将词汇位置信息引入权重的计算过程,提出了基于位置重要性的Web新闻关键词抽取算法。进一步,将算法引入Web新闻主题特征构建框架中
  3. 所属分类:其它

    • 发布日期:2020-01-16
    • 文件大小:301056
    • 提供者:weixin_38621441
  1. \"Tag-TextRank:一种基于Tag的网页关键词抽取方法\"分享总结

  2. NULL 博文链接:https://snv.iteye.com/blog/1886969在 Wikipedia中的实体,并且算法的复杂度很高。另外,国内一些学者lm2也开展了关键 词提取的研究。实际上,从上面的工作,我们可以得到这样的基本结论:基本的R特征可 以找到部分关键词,而加入用户信息或者领域知识可以进一步提高关键词抽取效果。 本文利用Tag信息来提高关键词的抽取效果。近年来,Tag数据作为·种新的资源, 其挖掘和利用已经成为信息检索、社区发现等领域的研究热点。从数据质量上讲,Iag数 据
  3. 所属分类:其它

    • 发布日期:2019-04-20
    • 文件大小:1046528
    • 提供者:weixin_38669628
  1. 基于网页DOM树节点路径相似度的正文抽取

  2. 由于人工抽取网页信息效率低、成本高,因此根据对大量网页结构的观察,提出基于网页文档对象模型DOM树节点路径相似度的正文抽取方法。依据同网站下的网页结构相同的特点去除网页噪声得到网页的主题内容,然后结合正文节点在DOM树中的路径的相似度抽取正文。通过对不同类型的中文新闻网站上的1 000个网页进行实验,结果表明该方法对于97.6%的网页都能够去除大部分噪声并保持正文内容的完整性,正文抽取结果有93.30%的准确率和95.59%的召回率。所提算法对不同类型的网页都有较好的适应性。
  3. 所属分类:其它

    • 发布日期:2020-10-16
    • 文件大小:202752
    • 提供者:weixin_38673694
  1. 基于树比较的Web页面主题信息抽取

  2. 为了从具有海量信息的Internet上自动抽取Web页面的信息,提出了一种基于树比较的Web页面主题信息抽取方法。通过目标页面与其相似页面所构建的树之间的比较,简化了目标页面,并在此基础上生成抽取规则,完成了页面主题信息的抽取。对国内主要的一些网站页面进行的抽取检测表明,该方法可以准确、有效地抽取Web页面的主题信息。
  3. 所属分类:其它

    • 发布日期:2020-10-19
    • 文件大小:222208
    • 提供者:weixin_38653508
  1. 基于加权TextRank的新闻关键事件主题句提取

  2. 为了在大量的新闻中快速找到自己感兴趣的内容,提出在单文档中基于加权TextRank算法提取主题句的方法,以得到新闻关键事件信息。通过计算新闻文本句子关键词的互信息值,对新闻报道进行事件句和非事件句的分类,过滤出非事件句。基于TextRank算法的思想,构建一个事件句有向图,引入句子位置、句子相似度和关键词覆盖频率3个影响因子,以此计算句子之间的影响权重,利用TextRank模型对图中的每个点计算权重,并选取排序最靠前的句子作为关键事件的主题句, 实验结果表明,该方法的抽取效果优于基于词频-逆文档
  3. 所属分类:其它

    • 发布日期:2021-03-14
    • 文件大小:1013760
    • 提供者:weixin_38622227
  1. 基于LDA主题模型的移动应用相似度构建方法

  2. 随着移动互联网的快速发展,如何从大量的移动应用中抽取有效的描述信息继而为移动用户提供有效 准确的推荐策略变得尤为迫切。目前,移动应用市场对应用的推荐策略相对传统,大多是根据应用的单一属性进行 推荐,如下载量、应用名称、应用分类等。针对推荐粒度过粗和推荐不准确的问题,提出了一种基于潜在狄利克雷分布 ( LDA) 主题模型的移动应用相似度构建方法。该方法从应用的标签入手,构造应用的主题模型分布矩阵,利用该主 题分布矩阵构建移动应用的相似度矩阵,同时提出了将移动应用相似度矩阵转化为可行的存储结构的方法
  3. 所属分类:其它

    • 发布日期:2021-03-07
    • 文件大小:1029120
    • 提供者:weixin_38733333
  1. 基于LDA主题模型的移动应用相似度构建方法

  2. 随着移动互联网的快速发展,如何从大量的移动应用中抽取有效的描述信息继而为移动用户提供有效准确的推荐策略变得尤为迫切。目前,移动应用市场对应用的推荐策略相对传统,大多是根据应用的单一属性进行推荐,如下载量、应用名称、应用分类等。针对推荐粒度过粗和推荐不准确的问题,提出了一种基于潜在狄利克雷分布( LDA) 主题模型的移动应用相似度构建方法。该方法从应用的标签入手,构造应用的主题模型分布矩阵,利用该主题分布矩阵构建移动应用的相似度矩阵,同时提出了将移动应用相似度矩阵转化为可行的存储结构的方法。实验结
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:1026048
    • 提供者:weixin_38529397
  1. 基于语义角色标注的专利主题提取研究

  2. 主题自动提取对于专利文献的信息挖掘具有重要的意义。引入语义角色标注信息来辅助自动 提取专利文献主题,区别于已有的专利文本分析平台所采用的人工标注或模板方式。为了改善专利文献的语 义角色标注,首先描述将专利文献长句自动拆分成简化句的方法;其次,对简化句进行语义角色标注;最后,综 合利用简化句语义信息以及自建带语义框架的常用词表,对专利文献进行主题信息抽取,获得必要信息,从而 证实本研究的实用价值。
  3. 所属分类:其它

    • 发布日期:2021-02-11
    • 文件大小:1048576
    • 提供者:weixin_38628953
  1. 基于语义角色标注的专利主题提取研究

  2. 主题自动提取对于专利文献的信息挖掘具有重要的意义。引入语义角色标注信息来辅助自动 提取专利文献主题,区别于已有的专利文本分析平台所采用的人工标注或模板方式。为了改善专利文献的语 义角色标注,首先描述将专利文献长句自动拆分成简化句的方法;其次,对简化句进行语义角色标注;最后,综 合利用简化句语义信息以及自建带语义框架的常用词表,对专利文献进行主题信息抽取,获得必要信息,从而 证实本研究的实用价值。
  3. 所属分类:其它

    • 发布日期:2021-03-30
    • 文件大小:1048576
    • 提供者:weixin_38650629
« 12 3 4 5 »