您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 基于Hadoop的海量图象数据管理

  2. 基于海量图像数据管理的新难题和新的解决方案不断被提出的背景,本文在 分析了海量图像数据的产生与应用的具体背景之后,根据Hadoop系统在存储和 管理网页数据与日志数据等的成功,研究了基于Hadoop系统的大规模海量图像 数据管理问题"Hadoop是依照coogle的oFS分布式文件系统与MapReduee并 行编程框架的开源实现,主要用于W七b数据的管理和挖掘,在存储与管理图像 数据方面存在不足"本文首先扩展了Hadoop的相应功能模块,设计和开发了一 个基于Hadoop的海量图像数据管理系统
  3. 所属分类:其它

    • 发布日期:2012-11-19
    • 文件大小:5242880
    • 提供者:clot09
  1. 基于Hadoop的Apriori算法研究与优化

  2. 为解决传统数据挖掘算法在大量数据处理时面临的内存占用、计算性能等方面的问题,基于Hadoop平台,应用HBase文件存储系统对海量数据分布式存储以及Map Reduce框架进行分布式计算,实现Apriori经典数据挖掘算法。通过对已实现的Apriori算法进行优化,引入FIS-IS算法思想,从数据库扫描次数和容量消减方向进行改进。提出针对数据本身进行频繁预选项生成方法与对于频繁预选项剪枝步骤进行分组检索的优化方法。实验结果验证了改进算法对算法运行具有良好的优化效果。
  3. 所属分类:Hadoop

    • 发布日期:2018-06-29
    • 文件大小:1048576
    • 提供者:qq_28339273
  1. 基于大数据平台构建数据仓库的研究与实践.pdf

  2. 数据仓库设计文档,帮助大家理解及如何设计数据仓库,很不错的一篇论文。专题 lTo 学习体系,能从海量数据中提炼高价值信息,构建自主 (1)源系统结构化数据:源系统按大数据平合的 训练与反馈、可不断从最新数据中调整演化的智能业务供数规范要求提供表数据文本和标志文件。 模型体系。 (2)文件交换区FSA:文件的交换中枢,含源系 以 Hadoop^ Spark为代表的大规模数据处理技术为统结构化数据和半结构化、非结构化数据(主要是外部 超越传统数据库的处理局限性提供了先进的并行计算和数据)。 资源调度
  3. 所属分类:其它

    • 发布日期:2019-07-16
    • 文件大小:1048576
    • 提供者:bucaixia08
  1. 基于Hadoop的数据挖掘算法研究与实现

  2. 随着移动智能操作系统技术的突破,智能手机的普及,移动互联网时代的到来,web app每天都在产生TB甚至PB级的web日志,如何从这些海量日志信息中提取用户的个人爱好及其他信息,为用户提供个性化推荐服务,为人们的生活带来便利,成为各大互联网公司和科研机构研究人员的研究热点。由于开源云计算平台Hadoop的出现,解决海量web日志信息的数据挖掘成为可能。 本文的研究内容主要包含以下几个方面: 一、对Hadoop云计算平台进行研究。Hadoop是Apache下的顶级开源项目,该平台能够利用成千上万的
  3. 所属分类:Hadoop

    • 发布日期:2020-01-15
    • 文件大小:9437184
    • 提供者:sunearlier
  1. 基于流式计算的电信实时营销系统设计与实现.caj

  2. 在移动互联网时代,各式各样的新业务和新产品不断出现,通信市场的用户总体规模增长速度变缓,使运营商之间的竞争愈加激烈,新产品营销的时效性和准确度问题亟需解决。实时营销作为新的营销方式,具有较高的实时性,通过运用大数据分析技术分析用户上网行为特征,并在合适的时间、合适的地点向用户推荐合适的内容,从而提升用户感知、增加用户粘性。如何运用大数据技术实现实时营销是本文的重要内容。本文深入调研分析了大数据实时流式处理技术,并结合其在满足非功能性需求方面的独特优势,设计了一个可以同时满足大数据存储、大数据实时
  3. 所属分类:spark

    • 发布日期:2019-10-20
    • 文件大小:3145728
    • 提供者:weixin_41045909
  1. 电力通信大数据并行化聚类算法研究

  2. 随着电力通信技术的发展,产生了大量分布式电力通信子系统以及海量电力通信数据,在海量数据中挖掘重要信息变得十分重要。聚类分析作为数据并行化处理和信息挖掘的一个有效手段,在电力通信中得到了广泛的应用。然而,传统聚类算法在处理海量电力数据时已不能满足时间性能的要求。针对这一问题,提出了一种基于MapReduce模型的并行化k-medoids聚类算法,首先采用基于密度的聚类思想对k-medoids算法初始点的选取策略进行优化,并利用Hadoop平台下的MapReduce编程框架实现了算法的并行化处理。实
  3. 所属分类:其它

    • 发布日期:2020-10-16
    • 文件大小:375808
    • 提供者:weixin_38717843
  1. 基于神经网络和大数据的网络安全状况预测系统

  2. 在当今的大数据时代,传统方法在处理网络安全问题方面效率低下,而且大多数时候甚至不起作用。 本文研究的系统是在Hadoop平台上设计并实现的基于神经网络的网络安全状况分析与预测系统。 通过收集分布式数据并减小其尺寸,该系统降低了数据复杂性,从而实现了大数据的高效处理。 我们采用优化的K-Means聚类分析算法来简化数据,并利用最佳关联规则挖掘方法来发现网络中存在的威胁和风险。 上一部分是网络安全状况分析。 在网络安全状况分析的基础上,采用基于时间维度的新方法来预测未来的网络安全状况。 该系统通过融
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:1048576
    • 提供者:weixin_38697063
  1. 基于Hadoop平台的海量文本分类的并行化

  2. 文本分类是信息检索与数据挖掘的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.近来年随着文本数据呈指数增长,要有效地管理这些数据,就必须在分布式环境下用有效的算法来处理这些数据.在Ha-doop分布式平台下实现了一简单有效的文本分类算法——TFIDF分类算法,即一种基于向量空间模型的分类算法,它用余弦相似度得到分类结果.在两个数据集上做了实验,结果表明,这一并行化算法在大数据集上很有效并可以在实际领域中得到良好的应用.
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:660480
    • 提供者:weixin_38727453
  1. 云环境下基于MapReduce的用户聚类研究与实现

  2. 基于大数据背景下海量数据人们无法理解,聚类效率低下等问题,采用MapReduce编程模型将Canopy聚类算法和K-means聚类算法在云环境中相结合,使之能够充分利用Hadoop集群的计算和存储能力。以淘宝网上海量的购买用户聚类作为应用背景,通过使用Hadoop平台的数据挖掘组件Mahout对用户聚类进行了实例研究,并给出了使用Mahout进行挖掘的一般步骤。结果表明,基于MapReduce的聚类算法在大规模数据集上具有较好的聚类质量和运行速度。
  3. 所属分类:其它

    • 发布日期:2021-01-27
    • 文件大小:1048576
    • 提供者:weixin_38747978
  1. 大数据环境下基于Hadoop框架的数据挖掘算法的研究与实现

  2. 为了提高大数据环境下的数据挖掘速度,对分布式计算构架Hadoop进行分析与研究,提出一种基于Hadoop平台的大数据关联规则挖掘算法MRPrePost。该算法在PrePost算法基础上改进而来,采用Hadoop平台降低分布式编程的难度且易于管理,通过一种自底向上的深度优化策略改进PrePost算法,降低内存开销,同时采用负载均衡的分组策略,来提高并行算法的性能,最终试验表明,该算法运行速度快,适应大数据关联规则挖掘。
  3. 所属分类:其它

    • 发布日期:2021-01-27
    • 文件大小:770048
    • 提供者:weixin_38680247