您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 妳那伊抹微笑_云计算之Hadoop完美笔记2.0

  2. 妳那伊抹微笑自己整理的Hadoop笔记,有以下内容: Day1 搭建伪分布实验环境 Day2 介绍HDFS体系结构及shell、java操作方式 Day3 介绍MapReduce体系结构(1) Day4 介绍MapReduce体系结构(2) Day5 介绍Hadoop集群、zookeeper操作 Day6 介绍HBase体系结构及基本操作 Day7 介绍Hive、sqoop体系结构及基本操作和最后项目 源码分析 NameNode源码分析(RPC是基础) DataNode源码分析 FileSys
  3. 所属分类:Java

    • 发布日期:2014-04-13
    • 文件大小:5242880
    • 提供者:u012185296
  1. hadoop入门学习教程 之10.Hive工作原理和基本使用

  2. hadoop入门学习教程 之10.Hive工作原理和基本使用,出自《Cloudera Hadoop 4 实战课程》,hadoop入门学习教程用到技术:CDH4,Cloudera Manager,Hive,HBase,Sqoop, Hadoop培训视频教程涉及项目:电商业日志流量分析项目。
  3. 所属分类:Java

    • 发布日期:2014-07-30
    • 文件大小:49283072
    • 提供者:u013802231
  1. flume、hive和sqoop的实用案例

  2. flume、hive和sqoop的实用案例:flume收集日志hive负责处理数据sqoop负责将数据导出到mysql中供页面展示
  3. 所属分类:Hive

    • 发布日期:2018-04-17
    • 文件大小:7168
    • 提供者:tansuoliming
  1. java大数据案例_7Flume、Kafka、Sqoop、Lucene

  2. 1 获取accesslog 问题 依次完成以下小题的任务 1) 将nginx日志收集到HDFS中
  3. 所属分类:Java

    • 发布日期:2018-01-23
    • 文件大小:3145728
    • 提供者:xiaoli_shen
  1. java大数据内容_7Flume、Kafka、Sqoop、Lucene

  2. 1 Flume、Kafka、Sqoop入门 1.1 Flume入门 1.1.1 Flume概述 Flume概述 Flume是一个分布式的收集、汇总和移动大量的日志数据的可靠的服务。 有Cloudera公司开源 分布式、可靠、高可用的海量日志采集系统 数据源可定制、可扩展 数据存储系统可定制、可扩展 中间件:屏蔽了数据源和数据存储系统的异构性
  3. 所属分类:Java

    • 发布日期:2018-01-23
    • 文件大小:1048576
    • 提供者:xiaoli_shen
  1. 传智7天Hadoop培训视频

  2. 课程安排: 01) Linux基础操作;02) 搭建伪分布实验环境;03) 介绍HDFS体系结构及shell、java操作方式;04) 介绍MapReduce体系结构及各种算法;05) 介绍MapReduce体系结构及各种算法;06) 介绍Hadoop集群;07) 介绍zookeeper操作;08) 介绍HBase体系结构及基本操作;09) 介绍pig操作;10) 介绍Hive体系结构及基本操作;11) 介绍Sqoop操作;12) Flume操作;13) 论坛日志分析项目。
  3. 所属分类:Java

  1. 网站点击流数据分析项目

  2. 网站点击流数据分析项目,用户访问网站时的所有访问、浏览、点击行为数据。比如点击了哪一个链接,在哪个网页停留时间最多,采用了哪个搜索项、总体浏览时间等。而所有这些信息都可被保存在网站日志中。通过分析这些数据,可以获知许多对网站运营至关重要的信息。采集的数据越全面,分析就能越精准。
  3. 所属分类:Hadoop

    • 发布日期:2018-11-06
    • 文件大小:42991616
    • 提供者:qq_43285577
  1. Hadoop学习资料

  2. 1.Hadoop生态系统及版本演化 2.HDFS 2.0 应用场景、原理、基本架构及使用方法 3.YARN应用场景、基本架构与资源调度 4.Map Reduce 2.0 基本原理与架构 5.Map Reduce 2.0 编程实践 6.HBase 应用场景、原理与架构 7.HBase编程实践 8.HBase 案例分析 9.Zookeeper部署及典型应用 10.Hadoop数据入库系统Flume与Sqoop 11.数据分析系统Hice与Pig应用与比较 12.数据挖掘工具包Mahout 13.工
  3. 所属分类:Hadoop

    • 发布日期:2019-04-22
    • 文件大小:67
    • 提供者:resulthave
  1. Android代码-recommendSys

  2. recommendSys 推荐系统 离线计算和实时计算 本项目主要分为WEB(产生数据)、离线和实时三大模块 WEB(产生数据即用户的行为数据) 用户对物品的操作(查看,浏览,购买)ugcLOG 通过flume采集ugcLOG日志到HDFS 离线处理(hadoop mahout)基于用户和物品的协同过滤 通过定时(oozie、crontab)任务(mr),处理HDFS上面的ugcLOG 清理后的数据(用户id,itemID,评分),给mahout mahout清理之后就是每个用户对应的item
  3. 所属分类:其它

    • 发布日期:2019-08-07
    • 文件大小:2097152
    • 提供者:weixin_39841856
  1. canal.deployer-1.1.2.tar.gz

  2. 之所以采用canal,原因如下:某些情况无法从日志中获取信息,而又无法利用sqoop等EL工具对数据实时的监控,canal的工作原理很简单,就是把自己伪装成slave,假装从master复制数据。
  3. 所属分类:spark

    • 发布日期:2020-03-21
    • 文件大小:50331648
    • 提供者:weixin_39868387
  1. hadoop_hive_python_mysql实践完整包.rar

  2. 本实践项目通过一个网站的运营日志,利用hadoop/hive/sqoop/mysql/python等一系列组件联合实践分析挖掘网站运营数据。是不可多得的完整的学习、讲课案例资源。本资源包含ppt、代码、文档及所需数据。
  3. 所属分类:Hadoop

    • 发布日期:2020-03-05
    • 文件大小:16777216
    • 提供者:clydeyuan
  1. sqoop导出数据到mysql故障处理---完整检查日志方法总结.txt

  2. sqoop问题处理通用办法,首先详细描绘了一个sqoop实际问题得处理过程,然后延申到完整得hadoop日志得处理过程。非常具体实用。
  3. 所属分类:Hadoop

    • 发布日期:2019-07-03
    • 文件大小:19456
    • 提供者:ggaosong
  1. 商城演示MySQLserver数据库database.zip

  2. 方便好用,适合初步学习者,直接拷贝到自己根目录下,附加即可。 离线数据处理:项目内容为通过对网站访问日志的采集和清洗,结合数据库中的结构化用户数据,统计并展示网站的PV、UV情况,以对网站的运行情况进行监控。通过此项目,回顾并串联前面讲述的离线数据处理相关技术,如:FIune、Sqoop、Hive、Spark等,了解和掌握PB级数据离线处理的一般过程和架构。
  3. 所属分类:C#

    • 发布日期:2020-06-16
    • 文件大小:799744
    • 提供者:weixin_43542114
  1. CanAl入门

  2. 一、为什么要使用canal 1、作用:同步mysql 主要有两种方式: (1)做拉链表 (2)更新redis 2、某些情况无法从日志里获取信息,而又无法利用sqoop等ETL工具对数据实时的监控 二、canal工作原理 1、mysql主备复制的实现 canal的工作原理很简单,就是把自己伪装成slave,假装从master复制数据。 三、了解mysql的binlog 1、binlog 基本认识 MySQL的二进制日志可以说是MySQL最重要的日志了,它记录了所有的DDL和DML(除了数据
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:141312
    • 提供者:weixin_38673237
  1. 大数据处理中的Lambda架构和Kappa架构

  2. 首先我们来看一个典型的互联网大数据平台的架构,如下图所示:在这张架构图中,大数据平台里面向用户的在线业务处理组件用褐色标示出来,这部分是属于互联网在线应用的部分,其他蓝色的部分属于大数据相关组件,使用开源大数据产品或者自己开发相关大数据组件。你可以看到,大数据平台由上到下,可分为三个部分:数据采集、数据处理、数据输出与展示。将应用程序产生的数据和日志等同步到大数据系统中,由于数据源不同,这里的数据同步系统实际上是多个相关系统的组合。数据库同步通常用Sqoop,日志同步可以选择Flume,打点采集
  3. 所属分类:其它

    • 发布日期:2021-03-03
    • 文件大小:212992
    • 提供者:weixin_38576561
  1. 如何基于日志,同步实现数据的一致性和实时抽取?

  2. 事情是从公司前段时间的需求说起,大家知道宜信是一个互联网金融企业,我们的很多数据与标准互联网企业不同,大致来说就是:玩数据的人都知道数据是非常有价值的,然后这些数据是保存在各个系统的数据库中,如何让需要数据的使用方得到一致性、实时的数据呢?DBA开放各个系统的备库,在业务低峰期(比如夜间),使用方各自抽取所需数据。由于抽取时间不同,各个数据使用方数据不一致,数据发生冲突,而且重复抽取,相信不少DBA很头疼这个事情。公司统一的大数据平台,通过Sqoop在业务低峰期到各个系统统一抽取数据,并保存到H
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:1048576
    • 提供者:weixin_38612568
  1. 数据管道项目:数据管道项目-源码

  2. 数据管道项目 (我正在维护该项目,并添加有关Hadoop分布式模式,在云上部署Hadoop,Spark高性能,Spark流应用程序演示,Spark分布式集群等的更多演示。请给我一些支持。) 架构师大数据应用 数据输入:Apache Sqoop,Apache Flume Hadoop 工具:猪,蜂巢, Hadoop流 处理HTTP服务器日志脚本 流MapReduce作业 Linux Shell实用程序作为Mapper和Reducer Hadoop自定义指标 火花 建筑 集群经理:YARN,M
  3. 所属分类:其它

    • 发布日期:2021-01-30
    • 文件大小:59768832
    • 提供者:weixin_42105570
  1. 如何基于日志,同步实现数据的一致性和实时抽取?

  2. 事情是从公司前段时间的需求说起,大家知道宜信是一个互联网金融企业,我们的很多数据与标准互联网企业不同,大致来说就是:玩数据的人都知道数据是非常有价值的,然后这些数据是保存在各个系统的数据库中,如何让需要数据的使用方得到一致性、实时的数据呢?DBA开放各个系统的备库,在业务低峰期(比如夜间),使用方各自抽取所需数据。由于抽取时间不同,各个数据使用方数据不一致,数据发生冲突,而且重复抽取,相信不少DBA很头疼这个事情。 公司统一的大数据平台,通过Sqoop在业务低峰期到各个系统统一抽取数据,并保存到
  3. 所属分类:其它

    • 发布日期:2021-01-27
    • 文件大小:1048576
    • 提供者:weixin_38623366
  1. 大数据处理中的Lambda架构和Kappa架构

  2. 首先我们来看一个典型的互联网大数据平台的架构,如下图所示:在这张架构图中,大数据平台里面向用户的在线业务处理组件用褐色标示出来,这部分是属于互联网在线应用的部分,其他蓝色的部分属于大数据相关组件,使用开源大数据产品或者自己开发相关大数据组件。你可以看到,大数据平台由上到下,可分为三个部分:数据采集、数据处理、数据输出与展示。将应用程序产生的数据和日志等同步到大数据系统中,由于数据源不同,这里的数据同步系统实际上是多个相关系统的组合。数据库同步通常用 Sqoop,日志同步可以选择Flume,打点采
  3. 所属分类:其它

    • 发布日期:2021-01-27
    • 文件大小:212992
    • 提供者:weixin_38551205
  1. DataFlow-源码

  2. 产品开发背景 DataFlow是基于应用程序日志流的一套分布式ETL系统服务组件,其前身是LogCollector2.0日志系统框架,自LogCollector3.0版本开始正式更名为DataFlow3.0。 Sqoop等也可以完成日志的采集,传输,转换和存储;但这些工具都不存在事务一致性。等因素导致连接远端服务的发送器组件失败,而此时收集器组件可能并不知情,数据仍然会继续传送到通道组件,这容易导致通道组件内存占用从而引发OOM错误;并通过通道错误导致实时收集的数据发送失败,收集器也没有记录实时
  3. 所属分类:其它

    • 发布日期:2021-03-31
    • 文件大小:381952
    • 提供者:weixin_42131367