您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. CDH550@hive存储格式和HQL材料

  2. CDH550下的hive的存储格式介绍和HQL的详细说明。一般数据存储模式主要有三种,1)行存储;2)列存储;3)混合存储。 1)行存储模式就是:把一整行存在一起,包含所有的列,这是最常见的模式。这种结构能很好的适应动态的查询
  3. 所属分类:Hive

    • 发布日期:2017-11-14
    • 文件大小:1048576
    • 提供者:zdz131148
  1. 2018最新高清大数据协作框架全套视频教程(Sqoop,Flume,Oozie,WEB工具Hue)

  2. 第1章 数据转换工具Sqoop 1.02_02_01_01 大数据Hadoop 2.x协作.框架的功能 网页.mp4 1.02_02_01_02 Sqoop 功能概述和版本、架构讲解 网页.mp4 1.02_02_01_03 Sqoop 使用要点(核心)及企业版本讲解.mp4 1.02_02_01_04 使用CDH 5.3.6版本快速搭建Hadoop 2.x和Hive伪分布式环境 网页.mp4 1.02_02_01_05 Sqoop 1安装及基本使用讲解 网页.mp4 1.02_02_01_0
  3. 所属分类:Java

    • 发布日期:2018-08-24
    • 文件大小:64
    • 提供者:xu0612204126
  1. hive-笔记--hive常用用法

  2. hive-笔记--hive常用用法: 内部表和外部表,导入数据,导出数据,将数据从hive的表中导出到本地磁盘目录中,HIVE的存储文件格式,修改表的分区,多重插入,HIVE的自定义函数功能,使用explode —— 行转列,配合lateral view 列转行方便统计,日期增减,json函数,分组topn,网页URL数据解析函数:parse_url_tuple
  3. 所属分类:Hive

    • 发布日期:2018-12-31
    • 文件大小:14336
    • 提供者:godchou
  1. 1-4-Hive+and+Impala.pdf

  2. Impala 与Hive都是构建在Hadoop之上的数据查询工具各有不同的侧重适应面,但从客户端使用来看Impala与Hive有很多的共同之处,如数据表元数 据、ODBC/JDBC驱动、SQL语法、灵活的文件格式、存储资源池等。Impala与Hive在Hadoop中的关系如图 2所示。Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询,Impala给数据分析人员提供了快速实验、验证想法的大数 据分析工具。可以先使用hive进行数据转换处理,之后使用Impala在Hi
  3. 所属分类:Hive

    • 发布日期:2019-05-09
    • 文件大小:31457280
    • 提供者:weixin_44069092
  1. apache-hive-2.3.5-bin.tar.gz

  2. hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据
  3. 所属分类:Java

    • 发布日期:2019-07-22
    • 文件大小:231735296
    • 提供者:qq_35574640
  1. cpp-ApacheORC文件格式是一种Hadoop生态圈中的列式存储格式

  2. Apache ORC 文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。
  3. 所属分类:其它

    • 发布日期:2019-08-16
    • 文件大小:15728640
    • 提供者:weixin_39841882
  1. 15-Hadoop压缩和存储

  2. Hadoop压缩和存储思维导图,便捷整理思路,Hadoop压缩配置、文件存储格式、Hive支持格式、存储和压缩结合
  3. 所属分类:Hadoop

    • 发布日期:2020-02-21
    • 文件大小:1048576
    • 提供者:weixin_43555997
  1. Hive用户指南(Hive_user_guide)_中文版.pdf

  2. 1. HIVE结构 Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数 据提取转化加载 (ETL),这是一种可以存储、 查询和分析存储在 Hadoop 中的大规模数据的 机制。 Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据。 同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理 内建的 mapper 和 reducer 无法完成的复杂的分析工作
  3. 所属分类:其它

    • 发布日期:2020-01-14
    • 文件大小:1048576
    • 提供者:weixin_45524326
  1. 快速学习-Hive 数据类型

  2. 第 3 章 Hive 数据类型 3.1 基本数据类型 对于 Hive 的 String 类型相当于数据库的 varchar 类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储 2GB 的字符数。 3.2 集合数据类型 Hive 有三种复杂数据类型 ARRAY、MAP 和 STRUCT。ARRAY 和 MAP 与 Java 中的Array 和 Map 类似,而 STRUCT 与 C 语言中的 Struct 类似,它封装了一个命名字段集合,复杂数据类型允许任
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:154624
    • 提供者:weixin_38697808
  1. 使用kettle将mysql中的数据导入到hive中

  2. 先说说思路:1是直接从mysql输出至hive中,另外一个是先将数据搞到hdfs中,再load一下,当然这只是textfile存储格式而言,若是ORC等其他列式存储的话建议先搞一个textfile格式的中间表,再insert into table select 插进去 太学浅,还是就第一种在人理解上最好的一种先记录一下 1.连接hive对外服务的组件hiveserver2 点击测试,OK之后会显示测试成功 测试直接将mysql中的stdcode表导入一下 抽取数据,插入的目标库中有没有对应为
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:87040
    • 提供者:weixin_38728360
  1. schedoscope:Schedoscope是一个调度框架,用于无痛地敏捷开发,测试,(重新)加载和监视数据集线器,湖泊或近来您选择调用的Hadoop数据仓库-源码

  2. Schedoscope不再由OttoGroup开发。 随意分叉! 介绍 Schedoscope是一个调度框架,用于无痛地进行敏捷开发,测试,(重新)加载和监视datahub,datalake或这些天您选择的Hadoop数据仓库。 当需要频繁推出并使用Oozie等传统ETL作业调度程序追溯性地对datahub中的计算逻辑和数据结构进行更改时,Schedoscope会让您头痛不已。 使用Schedoscope, 您无需创建DDL和架构迁移脚本; 面对逻辑或数据结构的追溯性更改,您不必手动确定
  3. 所属分类:其它

    • 发布日期:2021-03-02
    • 文件大小:1048576
    • 提供者:weixin_42111465
  1. Impala和Hive的关系(详解)

  2. Impala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。并且impala兼容Hive的sql解析,实现了Hive的SQL语义的子集,功能还在不断的完善中。Impala与Hive都是构建在Hadoop之上的数据查询工具各有不同的侧重适应面,但从客户端使用来看Impala与Hive有很多的共同之处,如数据表元数据、ODBC/JDBC驱动、SQL语法、灵活的文件格式、存储资源池等。Impala与Hi
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:425984
    • 提供者:weixin_38722164
  1. ApacheHive

  2. ApacheHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供一种HQL语言进行查询,具有扩展性好、延展性好、高容错等特点,多应用于离线数仓建设。存储:Hive底层存储依赖于hdfs,因此也支持hdfs所支持的数据存储格式,如text、json、parquet等。当我们将一个文件映射为Hive中一张表时,只需在建表的时告诉Hive,数据中的列名、列分隔符、行分隔符等,Hive就可以自动解析数据。支持多种压缩格式:bzip2、gzip、lzo、snapp
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:435200
    • 提供者:weixin_38729685
  1. Hive-JSON-Serde:读取-为Apache Hive编写JSON SerDe-源码

  2. JsonSerde-JSON数据的读/写SerDe 建立状态: 掌握 : 开发: 该库使Apache Hive能够以JSON格式进行读写。 它包括对序列化和反序列化(SerDe)以及JSON转换UDF的支持。 特征 读取以JSON格式存储的数据 在INSERT INTO 期间将数据转换为JSON格式 支持JSON数组和映射 支持嵌套数据结构 支持Cloudera发行版,包括Apache Hadoop(CDH) 支持多种版本的Hadoop 安装 下载最新的二进制文件( json-serd
  3. 所属分类:其它

    • 发布日期:2021-02-20
    • 文件大小:157696
    • 提供者:weixin_42133969
  1. scripts-bda:统一数据存储库BDA的存储库-源码

  2. 脚本-bda BDA统一存储库 Arquivos base.py e timer.py disponibilizados aqui para serem usados nos projetos。 导入或删除文件--py文件执行spark-submit。 info-tecnica-HDFS的信息PDF文件 generic-extract-jdbc-模数生成的通用数据库jdbc(例如:tabelas oracle)或HDFS como tabela hive(BDA)。 compress_fi
  3. 所属分类:其它

    • 发布日期:2021-02-12
    • 文件大小:1048576
    • 提供者:weixin_42099116
  1. lakeFS:对象存储的类似Git的功能-源码

  2. 什么是lakeFS lakeFS是一个开源层,可为基于对象存储的数据湖提供弹性和可管理性。 借助lakeFS,您可以构建可重复的,原子的和版本化的数据湖操作-从复杂的ETL作业到数据科学和分析。 lakeFS支持将AWS S3或Google Cloud Storage作为其基础存储服务。 它与S3兼容,并且可以与所有现代数据框架(例如Spark,Hive,AWS Athena,Presto等)无缝协作。 有关更多信息,请参见。 能力 数据开发环境 实验-单独尝试工具,升级版本并评估代码更
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:4194304
    • 提供者:weixin_42105816
  1. orc:Apache ORC-用于Hadoop工作负载的最小,最快的列式存储-源码

  2. ORC是一种专为Hadoop工作负载设计的自描述类型感知列式文件格式。 它针对大型流读取进行了优化,但具有集成支持,可快速查找所需的行。 以列格式存储数据使阅读器仅可以读取,解压缩和处理当前查询所需的值。 由于ORC文件可识别类型,因此编写器为该类型选择最合适的编码,并在写入文件时建立内部索引。 谓词下推使用这些索引来确定特定查询需要读取文件中的哪些条带,并且行索引可以将搜索范围缩小到特定的10,000行集合。 ORC支持Hive中的完整类型集,包括复杂类型:结构,列表,映射和联合。 ORC文件
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:15728640
    • 提供者:weixin_42132359
  1. streamx:kafka-connect-s3:从Kafka到对象存储(s3)提取数据-源码

  2. 基于安全问题,已计划此REPO SEC故障单#SEC-2988 StreamX:Kafka Connect for S3 从很棒的 StreamX是基于kafka连接的连接器,用于将数据从Kafka复制到对象存储,例如Amazon s3,Google Cloud Storage和Azure Blob存储。 它专注于可靠和可扩展的数据复制。 它可以以不同的格式(如镶木地板)写出数据,以便分析工具可以轻松使用它,也可以满足不同的分区要求。 ##产品特点 : StreamX从kafka-conn
  3. 所属分类:其它

    • 发布日期:2021-01-30
    • 文件大小:252928
    • 提供者:weixin_42126668
  1. Impala和Hive的关系(详解)

  2. Impala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。并且impala兼容Hive的sql解析,实现了Hive的SQL语义的子集,功能还在不断的完善中。Impala与Hive都是构建在Hadoop之上的数据查询工具各有不同的侧重适应面,但从客户端使用来看Impala与Hive有很多的共同之处,如数据表元数 据、ODBC/JDBC驱动、SQL语法、灵活的文件格式、存储资源池等。Impala与H
  3. 所属分类:其它

    • 发布日期:2021-01-27
    • 文件大小:425984
    • 提供者:weixin_38637878
  1. hive Hcatalog streaming API使用

  2. hive streaming hive传统的数据导入采用批量导入的方式,这中数据导入难以满足实时性的要求。hive streaming提供了数据流式写入的API,这样外部数据可以连续不断的写入hive中。 必备条件 hive streaming 需要配合hive 事务表使用,表的数据存储格式式必须为 orc 在 hive-site.xml 中设置如下参数以支持hive事务表hive.txn.manager =org.apache.hadoop.hive.ql.lockmgr.DbTxnManag
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:54272
    • 提供者:weixin_38614952
« 12 »