您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 信息检索研究室论文集第一卷

  2. 信息检索相关论文 集合一 1. 车万翔 刘挺 秦兵 李生 面向依存分析的搭配抽取方法研究 1 全国第六届计算语言学联合学术会议, 2001, 7 Collocation Extraction Oriented to Dependency Parsing 2. 秦兵 郑实福 刘挺 张刚 李生 基于改进的贝叶斯模型的中文网页分类器 8 全国第六届计算语言学联合学术会议, 2001, 7 An Improved Bayes Classifier for Chinese Web Pages 3. 张刚
  3. 所属分类:Web开发

    • 发布日期:2009-08-04
    • 文件大小:1048576
    • 提供者:chenls
  1. 基于特征串的大规模中文网页快速去重算法研究

  2. 这是一篇讲述通过特征串来对中文网页进行快速的地去重。希望有人用的到!
  3. 所属分类:其它

    • 发布日期:2009-09-11
    • 文件大小:340992
    • 提供者:zhangxin3053602
  1. 大规模网页模块识别与信息提取系统设计与实现

  2. 本科生论文。本文在已有的基于Dom-Tree和启发式规则的网页信息提取算法的基础上,通过为所有符合W3C规范的Html标签分类,逐个分析各Html标签所包含的语义信息,细化规则设置,实现了一种自底向上的无信息遗漏的网页分块算法,并在此基础上,利用统计方法得到详细的概率分布数据,实现了文本相似度比较和Bayes后验概率估计两种网页主题内容信息块识别算法,并将其求交,提高了主题内容信息块的识别精确度。 上述算法已集成到天网搜索引擎平台的网页预处理模块中,并且在SEWM 2008会议中,以这套算法为
  3. 所属分类:其它

    • 发布日期:2009-11-30
    • 文件大小:1048576
    • 提供者:zjj77520
  1. 大规模网页快速去重算法.pdf

  2. 大规模网页快速去重算法,大规模网页快速去重算法,大规模网页快速去重算法,大规模网页快速去重算法,大规模网页快速去重算法,大规模网页快速去重算法,
  3. 所属分类:其它

    • 发布日期:2010-11-30
    • 文件大小:427008
    • 提供者:wang382758656
  1. BloomFilter源码

  2. 基于bloomfilter的大规模网页去重,判断是否爬过URL
  3. 所属分类:C#

    • 发布日期:2011-04-19
    • 文件大小:2048
    • 提供者:jackiehome
  1. 大规模网页快速去重算法

  2. 大规模网页快速去重算法
  3. 所属分类:其它

  1. 红蜻蜓抓图软件

  2. 可以任意抓取图片,如大规模网页,电子文档,屏幕等内容,非常方便实用。
  3. 所属分类:其它

    • 发布日期:2012-02-27
    • 文件大小:2097152
    • 提供者:tianbian
  1. google bigtable 论文

  2. bigtable是设计来分布存储大规模结构化数据的,从设计上它可以扩展到上2^50字节,分布存储在几千个普通服务器上.Google的很多项目使用BT来存储数据,包括网页查询,google earth和google金融.这些应用程序对BT的要求各不相同:数据大小(从URL到网页到卫星图象)不同,反应速度不同(从后端的大批处理到实时数据服务).对于不同的要求,BT都成功的提供了灵活高效的服务.在本文中,我们将描述BT的数据模型.这个数据模型让用户动态的控制数据的分布和结构.我们还将描述BT的设计和
  3. 所属分类:群集服务

  1. 网页实体抽取工具Roadrunner开源包

  2. Roadrunner算法,意大利的科学家提出的用于大规模网页信息处理的一个开源工具
  3. 所属分类:Java

    • 发布日期:2012-07-16
    • 文件大小:2097152
    • 提供者:gdufs_lswu
  1. 大规模网页模块识别与信息提取系统设计与实现

  2. 大规模网页模块识别与信息提取系统设计与实现,朱磊同学的毕业设计工作属于天网搜索引擎预处理模块,提出了一套基于语义 的网页分块和主题内容信息提取算法,并在SEWM2008中文Web信息检索评测项 中得到检验。在该套算法基础上,还实现了基于Map-Reduce的分布式QuarkRank 算法。
  3. 所属分类:讲义

    • 发布日期:2014-05-30
    • 文件大小:1048576
    • 提供者:a1370283038
  1. 基于行块分布函数的通用网页正文抽取

  2. 对于 Web 信息检索来说,网页正文抽取是后续处理的关键。虽然使用正则 表达式可以准确的抽取某一固定格式的页面,但面对形形色色的 HTML,使用规 则处理难免捉襟见肘。 能不能高效、准确的将一个页面的正文抽取出来,并做到在大规模网页范围 内通用,这是一个直接关系上层应用的难题。
  3. 所属分类:算法与数据结构

    • 发布日期:2017-11-24
    • 文件大小:1048576
    • 提供者:u013263829
  1. \"Tag-TextRank:一种基于Tag的网页关键词抽取方法\"分享总结

  2. NULL 博文链接:https://snv.iteye.com/blog/1886969在 Wikipedia中的实体,并且算法的复杂度很高。另外,国内一些学者lm2也开展了关键 词提取的研究。实际上,从上面的工作,我们可以得到这样的基本结论:基本的R特征可 以找到部分关键词,而加入用户信息或者领域知识可以进一步提高关键词抽取效果。 本文利用Tag信息来提高关键词的抽取效果。近年来,Tag数据作为·种新的资源, 其挖掘和利用已经成为信息检索、社区发现等领域的研究热点。从数据质量上讲,Iag数 据
  3. 所属分类:其它

    • 发布日期:2019-04-20
    • 文件大小:1046528
    • 提供者:weixin_38669628
  1. 网页制作中应用的50个CSS技巧(国外)

  2. 几乎可以肯定的CSS是最好的一个网页设计的发展,因为第一次图形的Web浏览器通过了关于大规模,凡表创建笨重,缓慢加载网页,创建的CSS更加精简和实用的网页。
  3. 所属分类:其它

    • 发布日期:2020-09-25
    • 文件大小:560128
    • 提供者:weixin_38721405
  1. Dreamweaver定义模板批量制作网页

  2. 做网站,麻烦在更新和改版,特别是大规模更新,如果不是用cms系统,手工工作量非常大
  3. 所属分类:其它

    • 发布日期:2020-09-24
    • 文件大小:65536
    • 提供者:weixin_38653085
  1. 用DreamWeaver模板工具批量制作网页

  2. 做网站,麻烦在更新和改版,特别是大规模更新,如果不是用cms系统,手工工作量非常大。告诉你个秘密吧,其实只要用好模板工具,就能很好地“批发”网页。
  3. 所属分类:其它

    • 发布日期:2020-09-24
    • 文件大小:66560
    • 提供者:weixin_38581447
  1. 基于大规模网络语料的藏文音节拼写错误统计与分析

  2. 针对从互联网获取的一份包含19万藏文网页,总计427万句、9328万音节字的藏文文本语料,本文按照预定的规则对其中的藏文音节拼写错误情况进行了统计与分析。数据显示,在语料中出现的共计20743个藏文<span s
  3. 所属分类:其它

    • 发布日期:2021-03-18
    • 文件大小:800768
    • 提供者:weixin_38612648
  1. 通过从网页中提取文本来构建用于藏文自然语言处理的大规模文本语料库

  2. 通过从网页中提取文本来构建用于藏文自然语言处理的大规模文本语料库
  3. 所属分类:其它

    • 发布日期:2021-03-18
    • 文件大小:1048576
    • 提供者:weixin_38690407
  1. zvm-simplestats:一个简单的网页,显示zVM的统计信息-源码

  2. zvm-simplestats 一个简单的网页,显示z / VM的统计信息。 背景 该工具最初是作为我的“科学实验”的一部分开发的,用于在z / VM上使用DCSS和NSS进行大规模Linux克隆。 进入该系统的主要界面是通过控制它的IRC机器人,或通过z / VM命令。 作为前布里斯班TEC展示实验的一部分,我创建了原始版本。 该版本使用IRC bot作为后端来写入Javascr ipt在浏览器中读取的文件。 在FastVM项目中,我们需要一个简单的页面来显示基本的z / VM统计信息,因
  3. 所属分类:其它

    • 发布日期:2021-03-16
    • 文件大小:55296
    • 提供者:weixin_42121725
  1. woodpecker-proxy:啄木鸟网页JS代理SDK——可用于动态生成的网页JS调试的日志-源码

  2. 啄木鸟网页JS代理SDK 可用于动态生成有关网页JS调试的日志 日志,通常情况下,当我们需要定位问题的时候,才发现自己并没有输出相关的日志会比较被动。这个时候只好临时改码加日志,重新发布。有没有一种方案,可以在遇到问题的时候,再去代码中相应位置加日志,用户执行改业务流程时即可立即打印出相关日志,而不用重新走一遍发布流程。 woodpecker-proxy提供了一种解决方案,将浏览器JS请求代理到目标服务器,修改JS并发布到目标服务器后你可以在用户端随意打印上报用于调试的日志。仅支持针对特定的J
  3. 所属分类:其它

    • 发布日期:2021-02-15
    • 文件大小:1048576
    • 提供者:weixin_42113754
  1. DialoGPT:进行对话的大规模预培训-源码

  2. 最先进的大规模预训练响应生成模型(DialoGPT) 该存储库包含大规模预训练对话响应生成模型的源代码和训练模型。 表明,在单转对话图灵测试下,DialoGPT产生的响应与人工响应质量相当。 该存储库基于和 ,包含数据提取脚本,模型训练代码以及预训练的小型(117M)中型(345M)和大型(762M)模型检查点。 该模型在Reddit讨论线程的147M多回合对话中进行训练。 最大的模型可以在8台V100机器上进行几个小时的培训(但是这不是必需的),并具有分布式培训和FP16选项。 inc
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:48234496
    • 提供者:weixin_42131261
« 12 3 4 5 6 7 8 9 10 »