您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. Web信息提取技术研究与应用

  2. 当前,Web已经成为人们获取信息的主要渠道之一.然而,用于表达Web页面信息的HTML语言存在着与生俱来的缺点.HTML的"标记"只是告诉浏览器软件如何显示所定义的信息,却不包含任何语义.因此由HTML语言所表述的Web页面经过浏览器分析后只适合人们浏览,不适合作为一种数据交换的方式由机器处理.该文以文档对象模型DOM为基础,把所要提取的信息在DOM层次结构中的路径作为信息抽取的"坐标",并以这个基本原理为基础设计了一种归纳学习算法来半自动地生成提取规则,然后根据提取规则生成Ja va类.生成
  3. 所属分类:Web开发

    • 发布日期:2009-06-09
    • 文件大小:1048576
    • 提供者:raionhu
  1. 大规模网页模块识别与信息提取系统设计与实现

  2. 本科生论文。本文在已有的基于Dom-Tree和启发式规则的网页信息提取算法的基础上,通过为所有符合W3C规范的Html标签分类,逐个分析各Html标签所包含的语义信息,细化规则设置,实现了一种自底向上的无信息遗漏的网页分块算法,并在此基础上,利用统计方法得到详细的概率分布数据,实现了文本相似度比较和Bayes后验概率估计两种网页主题内容信息块识别算法,并将其求交,提高了主题内容信息块的识别精确度。 上述算法已集成到天网搜索引擎平台的网页预处理模块中,并且在SEWM 2008会议中,以这套算法为
  3. 所属分类:其它

    • 发布日期:2009-11-30
    • 文件大小:1048576
    • 提供者:zjj77520
  1. 网页抓取工具metastudio

  2. MetaSeeker是一个Web网页抓取/数据抽取/页面信息提取工具包,能够按照用户的指导,从Web页面上筛选出需要的信息,并输出含有语义结构的提取结果文件(XML文件),众所周知,Web页面显示的信息是给人阅读的,对于机器来说,是无结构的,MetaSeeker解决了一个关键问题:将无结构的Web页面信息转换成有结构的适于机器处理的信息。可以应用于专业搜索、Mashup和Web数据挖掘领域。 metastudio是MetaSeeker工具包中的一个,具体参看安装手册。
  3. 所属分类:Web开发

    • 发布日期:2009-12-17
    • 文件大小:491520
    • 提供者:tigersz
  1. Web网页抓取/页面信息提取软件包MetaSeeker组件datascraper中文版

  2. MetaSeeker是一个Web网页抓取/数据抽取/页面信息提取工具包,能够按照用户的指导,从Web页面上筛选出需要的信息,并输出含有语义结构的提取结果文件(XML文件),众所周知,Web页面显示的信息是给人阅读的,对于机器来说,是无结构的,MetaSeeker解决了一个关键问题:将无结构的Web页面信息转换成有结构的适于机器处理的信息。可以应用于专业搜索、Mashup和Web数据挖掘领域。 DataScraper:是Web页面信息提取(网页抓取/抽取)工具,利用MetaStudio生成的各种
  3. 所属分类:Web开发

    • 发布日期:2010-01-06
    • 文件大小:173056
    • 提供者:tigersz
  1. Web网页抓取/页面信息提取软件包MetaSeeker组件metastudio中文版

  2. MetaSeeker是一个Web网页抓取/数据抽取/页面信息提取工具包,能够按照用户的指导,从Web页面上筛选出需要的信息,并输出含有语义结构的提取结果文件(XML文件),众所周知,Web页面显示的信息是给人阅读的,对于机器来说,是无结构的,MetaSeeker解决了一个关键问题:将无结构的Web页面信息转换成有结构的适于机器处理的信息。可以应用于专业搜索、Mashup和Web数据挖掘领域。 MetaStudio是Web页面信息结构描述工具,提供GUI界面,作为Firefox扩展(Firefo
  3. 所属分类:Web开发

    • 发布日期:2010-01-06
    • 文件大小:491520
    • 提供者:tigersz
  1. PDF 文件文本内容提取的设计与实现

  2. PDF 文件格式是面向显示的,本身缺乏语义信息,如果不将其内容提取出来,就不能实现基于语义的查询。本文设计并实现了一款PDF 内容提取的工具,首先对PDF 文件进行了文本解析,将正文内容字符串流从源码中提取出,并对提取后的字符串流利用解密算法进行解密,然后利用Filter 解码算法进行解码,最后将PDF 的文本内容从解码后的字符串流中提取出。结果表明本文提出的方法不但能够非常准确的实现PDF 文件格式的转换,而且可以非常方便的嵌入到搜索引擎中。
  3. 所属分类:其它

    • 发布日期:2010-10-27
    • 文件大小:423936
    • 提供者:weitongqi
  1. 基于语义信息提取的新闻视频场景分割方法

  2. 随着数字视频的广泛应用,视频数据库系统已成为多媒体领域的一个研究热点。在建立视频数据库的过程中, 视频场景的分割是一个重要而又难以解决的问题。文章从分析新闻视频场景所特有的结构特征入手,提出了一种基于语 义信息提取的新闻视频场景分割新方法,该方法通过对音频流和视频流中的镜头变换、主持人镜头、主题字幕和静音区 间等语义信息的提取和分析来实现新闻视频场景的分割。实验表明,采用该文提出的方法,场景分割正确率可达86.9%, 较好地解决了新闻视频场景分割问题。
  3. 所属分类:其它

    • 发布日期:2012-08-03
    • 文件大小:214016
    • 提供者:vblittleboy
  1. 基于LINUX的Web网页抓取/页面信息提取软件包MetaSeeker组件metastudio中文版

  2. MetaSeeker是一个Web网页抓取/数据抽取/页面信息提取工具包,能够按照用户的指导,从Web页面上筛选出需要的信息,并输出含有语义结构的提取结果文件(XML文件),众所周知,Web页面显示的信息是给人阅读的,对于机器来说,是无结构的,MetaSeeker解决了一个关键问题:将无结构的Web页面信息转换成有结构的适于机器处理的信息。可以应用于专业搜索、Mashup和Web数据挖掘领域。 MetaStudio是Web页面信息结构描述工具,提供GUI界面,作为Firefox扩展(Firefo
  3. 所属分类:Web开发

    • 发布日期:2013-01-10
    • 文件大小:326656
    • 提供者:shanxun419
  1. 基于语义和规则的Web网页细粒度信息抽取方法

  2. 本文在利用语义和规则的基础上,提出了一个Web网页信息细粒度抽取的方法。方法首先,利用Web网页的结构和HTML标签信息进行网页的粗粒度信息抽取;其次,结合网页标签、结构和文本语义将粗粒度信息进行文本标识和分割,形成语义上紧密相关的标识文本;然后,根据语义解释器,依次识别出文本中的属性项;最后利用语义和规则,确定属性和属性值对。实验证明,该方法逐步细化分解网页,有效的利用了网页潜在的语义信息,拥有不依赖网页类型、结构,适用性好的优点。实验表明该方法提取正文细粒度精确度达到了90%。
  3. 所属分类:其它

    • 发布日期:2013-03-30
    • 文件大小:1048576
    • 提供者:zhangfei2018
  1. 大规模网页模块识别与信息提取系统设计与实现

  2. 大规模网页模块识别与信息提取系统设计与实现,朱磊同学的毕业设计工作属于天网搜索引擎预处理模块,提出了一套基于语义 的网页分块和主题内容信息提取算法,并在SEWM2008中文Web信息检索评测项 中得到检验。在该套算法基础上,还实现了基于Map-Reduce的分布式QuarkRank 算法。
  3. 所属分类:讲义

    • 发布日期:2014-05-30
    • 文件大小:1048576
    • 提供者:a1370283038
  1. 基于语义和规则的Web网页细粒度信息抽取方法

  2. 本文在利用语义和规则的基础上,提出了一个Web网页信息细粒度抽取的方法。方法首先,利用Web网页的结构和HTML标签信息进行网页的粗粒度信息抽取;其次,结合网页标签、结构和文本语义将粗粒度信息进行文本标识和分割,形成语义上紧密相关的标识文本;然后,根据语义解释器,依次识别出文本中的属性项;最后利用语义和规则,确定属性和属性值对。实验证明,该方法逐步细化分解网页,有效的利用了网页潜在的语义信息,拥有不依赖网页类型、结构,适用性好的优点。实验表明该方法提取正文细粒度精确度达到了90%。
  3. 所属分类:专业指导

    • 发布日期:2017-07-13
    • 文件大小:1048576
    • 提供者:u012184337
  1. Python-TextGrapher文章语义信息的图谱自动生成

  2. Text Content Grapher based on keyinfo extraction by NLP method。输入一篇文档,将文档进行关键信息提取,进行结构化,并最终组织成图谱组织形式,形成对文章语义信息的图谱化展示。
  3. 所属分类:其它

    • 发布日期:2019-08-10
    • 文件大小:3145728
    • 提供者:weixin_39841365
  1. 基于地质本体的砂体信息提取

  2. 基于地质本体的砂体信息提取,侯卫生,尹参,地质本体为语义层上解决地质数据的集成和互操作、知识转换等提供了技术基础。依托地质空间数据库,利用逆向工程方法构建了地质本
  3. 所属分类:其它

    • 发布日期:2020-01-30
    • 文件大小:1048576
    • 提供者:weixin_38616435
  1. 一种融合多种语义特征的中文问题分类方法

  2. 针对中文问题分类方法中提取语义信息不准确和特征向量维数过高导致处理速度过慢的问题,提出了一种融合多种语义特征的问题分类方法。借助HowNet,兼顾问句的句法和语义信息,选取问题疑问词、核心词的主要义原、命名实体、名词单/复数等四种分类特征,并在义原的提取过程中加入词义消岐技术,对事实疑问句进行分类。在某高校信息检索研究室的中文问题集上进行实验,实验结果证明了该方法的有效性,大类准确率92.82%,小类准确率84.45%,取得了较好的效果。
  3. 所属分类:其它

    • 发布日期:2020-05-28
    • 文件大小:248832
    • 提供者:weixin_38552536
  1. 车载激光点云的道路标线提取及语义关联.pdf

  2. 自动驾驶技术已成为未来智能交通的发展方向之一,高精度地图为 L3 级及以上自动驾驶实现 高精度定位和路径规划提供先验信息,是自动驾驶车辆传感器在遮挡或观测距离受限情况下的重要补 充.道路标线的位置和语义信息,比如实线和虚线的绝对位置是高精度地图的基本组成部分.本文从 车载激光点云中提取扫描线,根据道路边缘位置几何形态的突变从扫描线中提取道路路面,在此基础上 首先利用反距离加权插值的方法把路面点云图像以一定的分辨率转换为栅格图像,其次利用基于积分 图的自适应阈值分割方法把栅格图像转化为二值图像,然
  3. 所属分类:交通

    • 发布日期:2020-09-15
    • 文件大小:6291456
    • 提供者:whudqm
  1. SIFRank_zh:基于预训练模型的中文关键词提取方法(论文SIFRank-源码

  2. SIFRank_zh 这是我们论文的相关代码原文是在对英文关键短语进行抽取,这里迁移到中文上,部分管道进行了改动英文原版在。。 版本介绍 2020/03 / 03——最初最初版本本版本中只包含了最基本的功能,部分细节还有待优化和扩展。 核心算法 预训练模型ELMo +句向量模型SIF 词向量ELMo优势:1)通过大规模预训练,较早的TFIDF,TextRank等基于统计和图的具有更多的语义信息; 2)ELMo是动态的,可以改善一词多义问题; 3)ELMo通过Char -CNN编码,对生隐词非常友
  3. 所属分类:其它

    • 发布日期:2021-03-21
    • 文件大小:2097152
    • 提供者:weixin_42131628
  1. 具有丰富语法和语义信息的基于树核的语义关系提取

  2. 本文提出了一种新的基于树核的,具有丰富语法和语义信息的方法,用于提取命名实体之间的语义关系。 首先,使用一个分析树和一个实体对,我们构建一个丰富的语义关系树结构来整合语法和语义信息。 然后,我们提出了一个上下文敏感的卷积树内核,该内核通过将它们的祖先节点的路径视为上下文以在树结构中捕获结构信息来枚举无上下文子树和上下文敏感子树。 对自动内容提取/关系检测和表征(ACE RDC)语料库的评估表明,所提出的基于树核的方法优于其他最新方法。
  3. 所属分类:其它

    • 发布日期:2021-02-23
    • 文件大小:427008
    • 提供者:weixin_38735790
  1. 利用成分相关性信息进行命名实体之间基于树核的语义关系提取

  2. 本文提出了一种动态确定树范围的新方法,用于在命名实体之间基于树内核的语义关系提取。 基本思想是利用组成相关性信息,在沿着语法分析树中连接两个实体的路径上保持必要的节点及其头孩子,同时从树中删除嘈杂的信息,最终形成动态的语法分析树。 本文还通过统一的句法和语义树框架探索了各种实体特征及其可能的组合,该框架集成了结构句法分析信息和与实体相关的语义信息。 对ACE RDC 2004英语和2005中文基准语料库的评估表明,我们的动态句法分析树的性能大大优于以前的所有树跨度,这表明它在很好地表示关系实例的
  3. 所属分类:其它

    • 发布日期:2021-02-23
    • 文件大小:651264
    • 提供者:weixin_38623255
  1. 基于时空语义信息的视频运动目标交互行为识别方法

  2. 提出一种融合时间及目标之间空间语义信息的视频运动目标交互行为识别方法,即基于目标之间空间语义的变化规律识别其交互行为类别。不同于传统的语义事件建模方法,首先根据运动目标跟踪结果,基于其运动方向以及建立目标之间的空间关系(拓扑关系和方向关系)模型,提出一种提取人目标之间空间语义(前面、后面、背对、面对以及左右)的方法;然后基于空间语义的变化规律建立随机文法规则;最后采用随机文法器识别九种常见的两人交互行为。该方法无需训练样本,实验结果验证了方法的有效性及优越性。
  3. 所属分类:其它

    • 发布日期:2021-02-09
    • 文件大小:3145728
    • 提供者:weixin_38654348
  1. zhopenie:中文开放信息提取(基于树的三重关系提取模块)-源码

  2. 中文公开信息提取(Zhopenie) 安装 该模块大量使用pyltp 安装pyltp pip install pyltp 从下载NLP模型 为什么要使用LTP? LTP具有出色的语义解析模块,如下所示: 此外,一般而言,LTP的性能要优于其他开放源代码的中文NLP库,例如Jieba,这是SIGHAN Bakeoff 2005 PKU的510KB数据集的单词标记化的比较: 用法 提取器模块尝试将中文句子分解为三元关系(e1,e2,r),这可以由计算机理解例如,星展集团是亚洲最大的金融服务集
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:90112
    • 提供者:weixin_42133680
« 12 3 4 5 6 7 8 9 10 »