您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. hbase导入话单数据mapreduce函数实现执行过程实例(博客附件)

  2. 这是一篇博客的附件。 博客地址:http://blog.csdn.net/luckymelina/article/details/22889383
  3. 所属分类:Java

    • 发布日期:2014-04-03
    • 文件大小:36700160
    • 提供者:luckymelina
  1. 2018最新高清大数据协作框架全套视频教程(Sqoop,Flume,Oozie,WEB工具Hue)

  2. 第1章 数据转换工具Sqoop 1.02_02_01_01 大数据Hadoop 2.x协作.框架的功能 网页.mp4 1.02_02_01_02 Sqoop 功能概述和版本、架构讲解 网页.mp4 1.02_02_01_03 Sqoop 使用要点(核心)及企业版本讲解.mp4 1.02_02_01_04 使用CDH 5.3.6版本快速搭建Hadoop 2.x和Hive伪分布式环境 网页.mp4 1.02_02_01_05 Sqoop 1安装及基本使用讲解 网页.mp4 1.02_02_01_0
  3. 所属分类:Java

    • 发布日期:2018-08-24
    • 文件大小:64
    • 提供者:xu0612204126
  1. 大数据基础知识培训

  2. HDFS:类似Google GFS的分布式文件系统 MapRedce:并行计算架构,将计算任务拆分成大量可以独立运行的子任务,接着并行运算,另外会有一个系统调度的架构负责收集和汇总每个子任务的分析结果 HBase: 类似Google BigTable的分布式列式数据库,与Pig/Hive很好地集成 Pig:一种轻量级的脚本语言,在处理半结构化数据上拥有非常高的性能,为用户提供多种接口 Hive:数据仓库工具,在使用类SQL查询分析时显示是极高的性能,由Facebook贡献,定义了简单的类SQL
  3. 所属分类:Hadoop

    • 发布日期:2018-11-30
    • 文件大小:9437184
    • 提供者:hickwall2008
  1. Airflow使用指南【About云整理】.pdf

  2. About云整理的Airflow使用指南 1. 如何安装和配置 Airflow? 2. 如何通过 Airflow UI 监控 data pipeline (管道)并对其进行故障排除 3. 什么是 Airflow Platform ? 4. Airflow 是如何进行数据分析,追踪数据,调试数据流的? 5. Airflow 命令行接口的基本操作有哪些?www.aboutyun.com活到老学到老 以下是一些将触发一些任务实例的命令。在运行以下命令时,您应该能够在 example bash
  3. 所属分类:Hadoop

    • 发布日期:2019-06-30
    • 文件大小:2097152
    • 提供者:bj278595437
  1. sqoop工具_202006041735481.docx

  2. Apache Sqoop(SQL-to-Hadoop) 项目旨在协助 RDBMS 与 Hadoop 之间进行高效的大数据交流。 用户可以在 Sqoop 的帮助下,轻松地把关系型数据库的数据导入到 Hadoop 与其相关的系统 (如HBase 和Hive)中;同时也可以把数据从 Hadoop 系统里抽取并导出到关系型数据库里。除了这些主要的功能 外,Sqoop 也提供了一些诸如查看数据库表等实用的小工具。理论上,Sqoop 支持任何一款支持 JDBC 规范的数据库,如 DB2、MySQL 等。Sq
  3. 所属分类:其它

    • 发布日期:2020-06-04
    • 文件大小:400384
    • 提供者:JINtian04
  1. SQL与NoSQL,数据桥梁Sqoop

  2. SQL处理二维表格数据,是一种朴素的工具,NoSQL是Not Only SQL,即不仅仅是SQL。从MySQL导入数据到HDFS文件系统中,简单的一种方式是使用Sqoop,然后将HDFS中的数据和Hive建立映射。通过Sqoop作为数据桥梁,将传统的数据也存入到NoSQL中来了,有了数据,猴戏才刚刚开始。   01 猴年伊始   SQL处理二维表格数据,是一种朴素的工具,查询、更新、修改、删除这四种对数据的基本操作,是处理数据的一个巨大进步。近些年,各种新的数据处理技术兴起了,都想革SQL的
  3. 所属分类:其它

    • 发布日期:2020-12-14
    • 文件大小:89088
    • 提供者:weixin_38750644
  1. 大数据实验报告对应我的第二篇博客

  2. 一、大数据平台的搭建 3 1. 架构设计 6 2 服务器集群的搭建 7 (1)安装Linux操作系统、 14 (2)安装大数据处理框架Hadoop 20 3 工具软件安装 21 (1)安装关系型数据库MySQL 26 (2)安装列族数据库HBase 27 (3)安装Zookeepper 28 (4)安装数据仓库Hive 29 (5)安装Sqoop 32 (6)安装Eclipse 33 二、数据导入 34 1. 数据库、表清单 34 2. 数据对象的定义 37 (1) 创建数据库 39 (2) 创
  3. 所属分类:Hadoop

    • 发布日期:2020-12-30
    • 文件大小:8388608
    • 提供者:qq_45557681
  1. 【Storm】一、Storm是什么?

  2. 大纲: 离线计算是什么? 流式计算是什么? 流式计算与离线计算的区别? Storm是什么? Storm与Hadoop的区别? Storm的应用场景及行业案例 Storm的核心组件 Storm的编程模型 流式计算的一般架构图 1、离线计算是什么? 离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示 代表技术:Sqoop批量导入数据、HDFS批 量存储数据、MapReduce批量计算数据、Hive批量计算数据(占企业80%的业务)、***任务调度   2、流式计算是什
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:220160
    • 提供者:weixin_38559866
  1. sqoop从mysql到hive的时间字段问题

  2. 一、问题发现与分析 问题: 用公司的大数据平台导数,已经开发上线一个多月的一批报表,突然有同事说有个报表数据不准。出在时间字段上。 分析: 1、先看了原数据MySQL字段类型为datetime,目标字段为string类型; 2、经发现所有时间的差距都是8小时,怀疑是因为时区转换的原因; 3、对比其他表,看看是大范围现象还是特殊情况,发现其他的同样情况字段的一样没有问题 二、解决办法 经过对比:sqoop在转换MySQL的datatime字段类型为hive的string时会出现问题:默认先转为对应
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:35840
    • 提供者:weixin_38726407
  1. hive项目之微博ETL项目总结分析

  2. 微博ETL项目分析 一、数据格式 文件格式 Txt Csv’ Xls Doc 数据结构格式 Html格式,既是一个文件格式,也是一个数据结构格式 Json格式:kv对 Xml格式:一个根标签,和一堆子标签 二、输入和输出 输入: 房地产评论主题下的对应的用户基本信息文件集和评论内容文件集,两者之间是通过用户id关联的。 通过一定的java程序设计做数据解析、结构化、各自合并成一个文件即可方便load到hive中。 输出:(两张表,一个用户表,一个评论内容表) 将两个类别下各自对应的文件集,进行解
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:400384
    • 提供者:weixin_38640117
  1. 使用kettle将mysql中的数据导入到hive中

  2. 先说说思路:1是直接从mysql输出至hive中,另外一个是先将数据搞到hdfs中,再load一下,当然这只是textfile存储格式而言,若是ORC等其他列式存储的话建议先搞一个textfile格式的中间表,再insert into table select 插进去 太学浅,还是就第一种在人理解上最好的一种先记录一下 1.连接hive对外服务的组件hiveserver2 点击测试,OK之后会显示测试成功 测试直接将mysql中的stdcode表导入一下 抽取数据,插入的目标库中有没有对应为
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:87040
    • 提供者:weixin_38728360
  1. Kettle将数据导入导Hive2

  2. 前言        本来将数据导入到hive,但是不知道什么原因太慢了,一小时200条数据,优化一波kettle,还是成效不大,因此改为借用hadoop file output 到hdfs,然后再load 到hive表里 一,正文 1.在转换里拖入big data/hadoop file output      新建hadoop cluster连接      从集群里下载core-site.xml,hdfs-site.xml,yarn-site.xml,mapred-site.xml     
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:184320
    • 提供者:weixin_38684806
  1. ApacheKylin在美团点评的应用

  2. 即席查询:指用户通过手写SQL来完成一些临时的数据分析需求。这类需求的SQL形式多变、逻辑复杂,对响应时间没有严格的要求。固化查询:指对一些固化下来的取数、看数的需求,通过数据产品的形式提供给用户,从而提高数据分析和运营的效率。这类需求的SQL有固定的模式,对响应时间有比较高的要求。我们针对即席查询提供了Hive和Presto两个引擎。而固化查询由于需要秒级响应,很长一段时间都是通过先在数仓对数据做预聚合,再将聚合表导入MySQL提供查询实现的。但是随着公司业务数据量和复杂度的不断提升,从201
  3. 所属分类:其它

    • 发布日期:2021-03-01
    • 文件大小:640000
    • 提供者:weixin_38623919
  1. 集成学习算法(EnsembleMethod)浅析

  2. 个性化推荐系统是达观数据在金融、电商、媒体、直播等行业的主要产品之一。在达观数据的个性化推荐系统架构中,可以简单地分为5层架构,每层处理相应的数据输出给下一层使用,分别是:作为推荐系统最低端的数据处理层,主要功能是首先将客户上传上来的一些无用的噪声数据进行清理过滤,将推荐系统所需要用到的数据导入到数据存储层中;对于item的数据一般存入在Mysql中,随着数据量越来越大的item的数据,相比Mysql的扩展性来说,HBase和Hive是一个更好的选择,Hive可以方便离线分析时操作。而对于实时模
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:544768
    • 提供者:weixin_38687218
  1. 【案例分享】ApacheKylin在美团点评的应用

  2. 美团点评的OLAP需求大体分为两类:即席查询:指用户通过手写SQL来完成一些临时的数据分析需求。这类需求的SQL形式多变、逻辑复杂,对响应时间没有严格的要求。固化查询:指对一些固化下来的取数、看数的需求,通过数据产品的形式提供给用户,从而提高数据分析和运营的效率。这类需求的SQL有固定的模式,对响应时间有比较高的要求。我们针对即席查询提供了Hive和Presto两个引擎。而固化查询由于需要秒级响应,很长一段时间都是通过先在数仓对数据做预聚合,再将聚合表导入MySQL提供查询实现的。但是随着公司业
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:704512
    • 提供者:weixin_38632247
  1. eel-sdk:JVM的大数据工具包-源码

  2. 鳗鱼 Eel是用于在hadoop生态系统中处理数据的工具包。 通过hadoop生态系统,我们指的是大数据世界通用的文件格式,例如HDFS或Hive表等位置中的镶木地板,兽人,csv。 与诸如或分布式批处理或流引擎相比,Eel是旨在直接在过程中使用的SDK。 与较高级别的引擎(例如Spark)相比,Eel是较低级别的API,适用于需要文件API之类的用例。 用例范例 从JDBC之类的源导入到Hive / HDFS之类的另一源 将多个文件(例如spark的输出)合并为一个文件 直接从您的过程中查询
  3. 所属分类:其它

    • 发布日期:2021-02-05
    • 文件大小:1048576
    • 提供者:weixin_42129970
  1. Scriptis:Scriptis用于交互式数据分析,包括脚本开发(SQL,Pyspark,HiveQL),任务提交(Spark,Hive),UDF,功能,资源管理和智能诊断-源码

  2. 圣经 英文| 介绍 scr iptis用于交互式数据分析,包括脚本开发(SQL,Pyspark,HiveQL),任务提交(Spark,Hive),UDF,功能,资源管理和智能诊断。 产品特点 脚本编辑器:支持多语言,自动完成,语法突出显示和SQL语法错误纠正。 计算引擎:scr iptis基于Linkis,可与Spark,Hive,Python等多个计算引擎连接。 运行时功能:完整的作业生命周期显示和智能诊断。 结果集:多个结果集支持,自定义结果集别名和一键式可视化。 数据库服务:用于
  3. 所属分类:其它

    • 发布日期:2021-01-30
    • 文件大小:45088768
    • 提供者:weixin_42131541
  1. 集成学习算法(EnsembleMethod)浅析

  2. 个性化推荐系统是达观数据在金融、电商、媒体、直播等行业的主要产品之一。在达观数据的个性化推荐系统架构中,可以简单地分为5层架构,每层处理相应的数据输出给下一层使用,分别是: 作为推荐系统最低端的数据处理层,主要功能是首先将客户上传上来的一些无用的噪声数据进行清理过滤,将推荐系统所需要用到的数据导入到数据存储层中; 对于item的数据一般存入在Mysql中,随着数据量越来越大的item的数据,相比Mysql的扩展性来说,HBase和Hive
  3. 所属分类:其它

    • 发布日期:2021-01-27
    • 文件大小:544768
    • 提供者:weixin_38735570
  1. ApacheKylin在美团点评的应用

  2. 即席查询:指用户通过手写SQL来完成一些临时的数据分析需求。这类需求的SQL形式多变、逻辑复杂,对响应时间没有严格的要求。固化查询:指对一些固化下来的取数、看数的需求,通过数据产品的形式提供给用户,从而提高数据分析和运营的效率。这类需求的SQL有固定的模式,对响应时间有比较高的要求 。我们针对即席查询提供了Hive和Presto两个引擎。而固化查询由于需要秒级响应,很长一段时间都是通过先在数仓对数据做预聚合,再将聚合表导入MySQL提供查询实现的。但是随着公司业务数据量和复杂度的不断提升,从20
  3. 所属分类:其它

    • 发布日期:2021-01-27
    • 文件大小:640000
    • 提供者:weixin_38711041
  1. (一)hive导入数据

  2. 创建数据库+运行sql文件 1.create database XXX; 2.sql文件路径下运行hive -f XXX.sql 注:若出现错误line1:0 不识别,检查sql文件和编码格式(应该为utf-8 无bom) UE修改文件格式 用datax导入hive表 元数据存于mysql 1.配置文件:mysql2hive.json { job: { content: [ { reader: {
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:242688
    • 提供者:weixin_38675797