您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 超大集群的简单数据处理

  2. MapReduce是一个编程模式,它是与处理/产生海量数据集的实现相关。用户指定一个map函数,通过这个map函数处理key/value(键/值)对,并且产生一系列的中间key/value对,并且使用reduce函数来合并所有的具有相同key值的中间键值对中的值部分。现实生活中的很多任务的实现都是基于这个模式的,正如本文稍后会讲述的那样。
  3. 所属分类:专业指导

    • 发布日期:2010-06-04
    • 文件大小:315392
    • 提供者:lijun96
  1. google mapreduce

  2. MapReduce是一个编程模式,它是与处理/产生海量数据集的实现相关。用户指定一个map函数,通过这个map函数处理key/value(键/值)对,并且产生一系列的中间key/value对,并且使用reduce函数来合并所有的具有相同key值的中间键值对中的值部分。
  3. 所属分类:群集服务

  1. spring-hadoop.pdf

  2. spring hadoop 分布式 海量数据 集群 mapreduce 将hadoop于spring集成到一起工作
  3. 所属分类:Java

    • 发布日期:2012-10-13
    • 文件大小:459776
    • 提供者:strongspeed602
  1. 海量数据处理

  2. 海量数据处理相关 所谓海量数据处理,是指基于海量数据的存储、处理、和操作。正因为数据量太大,所以导致要么无 法在较短时间内迅速解决,要么无法一次性装入内存。 事实上,针对时间问题,可以采用巧妙的算法搭配合适的数据结构(如布隆过滤器、哈希、位图、堆、 数据库、倒排索引、Trie 树)来解决;而对于空间问题,可以采取分而治之(哈希映射)的方法,也就是 说,把规模大的数据转化为规模小的,从而各个击破。 此外,针对常说的单机及集群问题,通俗来讲,单机就是指处理装载数据的机器有限(只要考虑 CPU、 内
  3. 所属分类:其它

    • 发布日期:2014-08-28
    • 文件大小:932864
    • 提供者:yangdedipan1234
  1. 海量数据集的排序的设计方案

  2. 海量数据集的排序的设计方案
  3. 所属分类:C

    • 发布日期:2017-07-24
    • 文件大小:56320
    • 提供者:yuxu9710108
  1. entwine, 海量数据集的点云索引.zip

  2. entwine, 海量数据集的点云索引 of是一个数据组织的数据组织库,用于治理数百亿点的数据集以及桌面比例云。 Entwine可以索引任何是 PDAL的东西,并且可以读/写各种源,如S3或者 Dropbox 。 构建完全无损,因此即使在tb级数据集的情况下也不
  3. 所属分类:其它

    • 发布日期:2019-10-10
    • 文件大小:4194304
    • 提供者:weixin_38743506
  1. 数据集创建:使用ResNet50预置算法基于海量数据训练美食分类模型.zip

  2. 查看文章 https://blog.csdn.net/wwt72/article/details/106101707,使用该数据集学习华为云ModelArts,文件名称对应文章目录相关名称。 文件内容注:全民AI成长计划课程 - 实验环境准备.pdf 和 foods_recongition_23.tar
  3. 所属分类:深度学习

    • 发布日期:2020-05-14
    • 文件大小:78643200
    • 提供者:wwt72
  1. 云计算环境下煤矿应急管理海量数据存储技术

  2. 随着物联网、无线传感器网络等技术在煤矿应急管理信息化建设中的广泛应用,煤矿大量监测、控制及自动化等实时系统产生的流式数据会形成相当规模的数据集,对煤矿企业现有信息系统构架的海量数据存储及处理性能提出了更大的挑战。为了研究应对此挑战的海量数据存储技术,通过分析煤矿应急管理海量数据的来源及其特点,设计了云计算环境下基于NoSQL的煤矿应急管理海量数据存储方式,并对煤矿应急云平台进行了Hadoop基准测试,同时利用陕西黄陵矿业集团一号矿井某段周期内的瓦斯数据,对煤矿应急云平台和DBMS系统的处理性能进
  3. 所属分类:其它

    • 发布日期:2020-05-29
    • 文件大小:761856
    • 提供者:weixin_38640985
  1. 朴素贝叶斯文本分类数据集

  2. 朴素贝叶斯 分类算法数据集文本挖掘(Text Mining,从文字中获取信息)是一个比较宽泛的概念,这一技术在如今每天都有海量文本数据生成的时代越来越受到关注。目前,在机器学习模型的帮助下,包括情绪分析,文件分类,话题分类,文本总结,机器翻译等在内的诸多文本挖掘应用都已经实现了自动化。   在这些应用中,垃圾邮件过滤算是初学者实践文件分类的一个很不错的开始,例如 Gmail 账户里的“垃圾邮箱”就是一个垃圾邮件过滤的现实应用。下面我们将基于一份公开的邮件数据集 Ling-spam,编写一个垃圾
  3. 所属分类:其它

    • 发布日期:2020-08-31
    • 文件大小:17408
    • 提供者:qq_45531594
  1. 决策树采样策略应用于大规模数据集

  2. 随着信息爆炸时代的到来,人们常常要面对海量的数据分析和处理任务,而且这些数据还在以几何级数的速度增加。同时,在现实中这些海量数据往往是高维而稀疏的,且存在着大量的冗余。因而能对数据进行有效地采样,且保持其准确率的处理方法成为人工智能、机器学习、数据挖掘等领域的重要研究课题之一。   决策树方法最早产生于上世纪60年代,到70年代末。由JRossQuinlan提出了ID3算法,此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。C4.5算法在ID3算法的基础上进行了改进,对于预测变量的缺值处理
  3. 所属分类:其它

    • 发布日期:2020-10-22
    • 文件大小:133120
    • 提供者:weixin_38700790
  1. mysql 海量数据的存储和访问解决方案

  2. 第1章  引言 随着互联网应用的广泛普及,海量数据的存储和访问成为了系统设计的瓶颈问题。对于一个大型的互联网应用,每天几十亿的PV无疑对数据库造成了相当高的负载。对于系统的稳定性和扩展性造成了极大的问题。通过数据切分来提高网站性能,横向扩展数据层已经成为架构研发人员首选的方式。水平切分数据库,可以降低单台机器的负载,同时最大限度的降低了了宕机造成的损失。通过负载均衡策略,有效的降低了单台机器的访问负载,降低了宕机的可能性;通过集群方案,解决了数据库宕机带来的单点数据库不能访问的问题;通过读写分离
  3. 所属分类:其它

    • 发布日期:2020-12-15
    • 文件大小:173056
    • 提供者:weixin_38674627
  1. C++算法之海量数据处理方法的总结分析

  2. 海量数据处理中常用到的技术 1. Bloom Filtering基本的Bloom Filtering支持快速的插入和查找操作,是一种hash表技术。基本的数据结构非常简单,容量为m的位数组,k个hash函数,将输入的n个元素存储在位数组里面。每次插入一个新的元素,先计算该元素的k个hash指,将位数组对应hash值位置为1. 查找某个元素时,同样的先计算k个hash值,然后查询看是否对应位数组中得k位是否都是1,是则断定元素存在。基本的Bloom Filtering算法可以用于允许误差的快速判重
  3. 所属分类:其它

    • 发布日期:2020-12-31
    • 文件大小:55296
    • 提供者:weixin_38659374
  1. Ai—challenger数据集细粒度情感分析

  2. 在线评论的细粒度情感分析对于深刻理解商家和用户、挖掘用户情感等方面有至关重要的价值,并且在互联网行业有极其广泛的应用,主要用于个性化推荐、智能搜索、产品反馈、业务安全等。本次比赛我们提供了一个高质量的海量数据集,共包含6大类20个细粒度要素的情感倾向。参赛人员需根据标注的细粒度要素的情感倾向建立算法,对用户评论进行情感挖掘,组委将通过计算参赛者提交预测值和场景真实值之间的误差确定预测正确率,评估所提交的预测算法。
  3. 所属分类:SQLServer

    • 发布日期:2020-12-29
    • 文件大小:8388608
    • 提供者:qq_33432841
  1. Mining-Massive-Data-Sets-CS246:挖掘海量数据集,斯坦福2019-源码

  2. 挖掘海量数据集CS246 挖掘海量数据集,斯坦福2019
  3. 所属分类:其它

    • 发布日期:2021-03-20
    • 文件大小:9216
    • 提供者:weixin_42110070
  1. 海量数据中的机会投影挖掘算法

  2. 当前,已经提出了许多挖掘算法,仅小数据集挖掘和稀疏数据集,遇到海量数据集和密集数据集趋于崩溃。 本文通过频繁模式树模型为海量数据挖掘机会投影集提供了一种支持,以构建一种新的算法OP。 OP与以前的算法完全不同,使用新模型支持两种投影方法:基于投影的虚拟树表示,基于未过滤的投影数组表示,不仅时间效率特别高,而且特别节省了存储空间。 最后,通过Apriori,FP-Gorwth和H-Mnie的对比实验的文章证实了各种OP数据库的大小和特征挖掘效率和可伸缩性是最好的。
  3. 所属分类:其它

    • 发布日期:2021-03-05
    • 文件大小:416768
    • 提供者:weixin_38622149
  1. infinibatch:高效,经过检查的数据加载,可通过海量数据集进行深度学习-源码

  2. Infini批次 Infinibatch是一个可检查点的迭代器库,用于在深度神经网络训练中对海量数据集进行随机数据加载。 特征 对语料库的支持远大于RAM 整个语料库上的分层块+句子级随机化,每个时期不同的随机化 仅加载所需的数据 启动时间非常快(不需要阅读完整的语料库) 只需要最基本的数据准备(例如,无索引) 对于多GPU,仅加载相应GPU的需求 100%准确的检查点,从检查点还原不应读取所有数据直至检查点 支持具有动态批次大小的自动桶装批次 预取线程 可组合的,以支持复杂的批处理,例如
  3. 所属分类:其它

    • 发布日期:2021-02-18
    • 文件大小:380928
    • 提供者:weixin_42133452
  1. 挖掘海量数据-河流工程项目-源码

  2. CPSC-8810采矿海量数据-河流工程项目 作者: 穆罕默德·侯赛因·巴马尔(Mohammed Hussain Bharmal) 普拉蒂克·比达达(Pratik Bidada) 普拉纳夫(Pranav Kalbhor) 马盖什·玛盖(Mahesh Magai) 资料集: NCDC: : GRDC: ://portal.grdc.bafg.de/applications/public.html publicuser PublicUser#dataDownload / Sta
  3. 所属分类:其它

    • 发布日期:2021-02-17
    • 文件大小:29360128
    • 提供者:weixin_42107165
  1. lazynlp:用于刮擦和清理网页以创建大量数据集的库-源码

  2. 懒人 一个简单的库,使您可以对网页进行爬网,清理和重复数据删除以创建大量的单语数据集。 使用此库,您应该能够创建比OpenAI用于GPT-2的数据集更大的数据集。 建立 该库使用Python 3。 克隆此库并将其CD放入lazynlp文件夹: git clone https://github.com/chiphuyen/lazynlp.git cd lazynlp 安装依赖项 pip3 install -r requirements.txt 安装库pip3 install . 如果要卸
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:16384
    • 提供者:weixin_42137028
  1. pilosa:Pilosa是一个开放源代码的分布式位图索引,可极大地加速跨多个海量数据集的查询-源码

  2. 开源的分布式位图索引。 想要贡献? 最简单的方法之一就是 。 我们从每一次讨论中学习! 文件 有关安装和使用Pilosa的信息,请参见我们的。 入门 。 使用默认配置 : pilosa server 并确认它正在运行: curl localhost:10101/nodes 请跟随,以更好地了解Pilosa的功能。 资料模型 查看Pilosa如何工作。 查询语言 您可以使用(PQL)在控制台中直接与Pilosa进行交互。 客户图书馆 支持以下语言的库: 执照 核心的Pilosa代码库和
  3. 所属分类:其它

    • 发布日期:2021-02-02
    • 文件大小:805888
    • 提供者:weixin_42131424
  1. 基于Hadoop及关系型数据库的海量数据分析研究

  2. Hadoop可以在大量廉价的硬件设备组成的集群上运行应用程序,全面地将计算推向数据,在处理海量数据方面具有一定的优势。本文对Hadoop和关系型数据库进行了比较分析,讨论了将二者结合构建海量数据分析系统的可行性,同时给出了实际的应用场景。
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:684032
    • 提供者:weixin_38730840
« 12 3 4 5 6 7 8 9 10 ... 27 »