您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 用于SparkStreaming的数据挖掘streamDM.zip

  2. streamDM,是由华为诺亚方舟实验室开源的使用 Spark Streaming 挖掘大数据的开源软件。大数据流学习大数据流学习(Big Data stream learning)比批量或离线学习更富有挑战性,因为数据在流动的过程中不太可能保持同一种分布。而且,数据流中的每一个样本只能被处理一次,否则它们就需要占用内存进行总结,同时该学习算法也必须非常高效。Spark StreamingSpark Streaming 是核心 Spark API 的一个扩展,它能让多个源的数据流处理成为可能。
  3. 所属分类:其它

    • 发布日期:2019-07-19
    • 文件大小:1048576
    • 提供者:weixin_39841856
  1. spark streaming实时网站分析项目实战.rar

  2. 操作步骤: 一.数据采集:视频网站访问日志(编辑python脚本) 1.Python日志产生器开发URL ,ip信息,状态码,时间等 2.python日志产生器测试并将日志写入到文件中 3.通过定时调度工具每一分钟产生一批数据 4.使用flume实时收集日志信息 5.对接实时数据到kafka并输出到控制台 6.spark streaming对接kafka的数据进行消费 数据采集详情:项目其他\数据采集.docx 二.数据清洗:见项目 使用spark streaming完成数据清洗操作 三
  3. 所属分类:Linux

    • 发布日期:2020-08-18
    • 文件大小:357376
    • 提供者:weixin_44222986
  1. spark流数据处理:SparkStreaming的使用

  2. SparkStreaming是Spark核心API的扩展,用于可伸缩、高吞吐量、可容错地处理在线流数据。SparkStreaming可以从很多数据源获取数据,比如:Kafka、Flume、Twitter、ZeroMQ、Kinesis或TCP连接等,并可以用很多高层算子(map/reduce/join/window等)来方便地处理这些数据。最后处理过的数据还可以推送到文件系统、数据库和在线监控页面等。实际上,你也可以在数据流上使用Spark的机器学习和图计算算法。SparkStreaming内部工
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:310272
    • 提供者:weixin_38745648
  1. Spark大数据处理系列之MachineLearning

  2. 最近几年,机器学习、预测分析和数据科学主题得到了广泛的关注。Spark的机器学习库(SparkMLlib),包括各种机器学习算法:协同过滤算法、聚类算法、分类算法和其他算法。在前面的《Spark大数据处理》系列文章,介绍ApacheSpark框架,介绍如何使用SparkSQL库的SQL接口去访问数据,使用SparkStreaming进行实时流式数据处理和分析。在本篇文章,作者将讨论机器学习概念以及如何使用SparkMLlib来进行预测分析。后面将会使用一个例子展示SparkMLlib在机器学习领
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:249856
    • 提供者:weixin_38698590
  1. Spark入门实战系列(上)-实时流计算SparkStreaming原理介绍

  2. SparkStreaming是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis以及TCPsockets,从数据源获取数据之后,可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统,数据库和现场仪表盘。在“OneStackrulethemall”的基础上,还可以使用Spark的其他子框架,如集群学习、
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:539648
    • 提供者:weixin_38565818
  1. spark流数据处理:SparkStreaming的使用

  2. SparkStreaming是Spark核心API的扩展,用于可伸缩、高吞吐量、可容错地处理在线流数据。Spark Streaming可以从很多数据源获取数据,比如:Kafka、Flume、Twitter、ZeroMQ、Kinesis或TCP连接等,并可以用很多高层算子(map/reduce/join/window等)来方便地处理这些数据。最后处理过的数据还可以推送到文件系统、数据库和在线监控页面等。实际上,你也可以在数据流上使用Spark的机器学习和图计算算法。SparkStreaming内部
  3. 所属分类:其它

    • 发布日期:2021-01-29
    • 文件大小:310272
    • 提供者:weixin_38645862