您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 大数据 之 Hive 学习笔记

  2. 大数据 之 Hive 学习笔记 ; 基本操作; 查询; 使用Hive注意点;
  3. 所属分类:其它

    • 发布日期:2014-07-23
    • 文件大小:642048
    • 提供者:jiangtao_st
  1. hive原理及查询优化

  2. 学习掌握hive原理及查询优化的必备之书学习掌握hive原理及查询优化的必备之书
  3. 所属分类:Hive

    • 发布日期:2018-09-30
    • 文件大小:1048576
    • 提供者:ycjunhua
  1. 大数据技术之Kylin.docx

  2. Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。
  3. 所属分类:Hbase

    • 发布日期:2020-02-13
    • 文件大小:9437184
    • 提供者:weixin_33838609
  1. 大数据技术之impala.docx

  2. Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。 基于Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。 是CDH平台首选的PB级大数据实时查询分析引擎。
  3. 所属分类:Hadoop

    • 发布日期:2020-01-19
    • 文件大小:574464
    • 提供者:qq_39199112
  1. 大数据技术之Hive.pdf

  2. 什么是 Hive Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并 提供类 SQL 查询功能
  3. 所属分类:Hive

    • 发布日期:2020-08-25
    • 文件大小:2097152
    • 提供者:ffffqqqqwwww
  1. 大数据技术之Hive.pptx

  2. Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL/SQL转化成MapReduce程序。 1)Hive处理的数据存储在HDFS。 2) Hive分析数据底层的实现是MapReduce。 3) 执行程序运行在Yarn上
  3. 所属分类:群集服务

    • 发布日期:2020-04-28
    • 文件大小:1048576
    • 提供者:qq_36296141
  1. hive学习总结 思维导图.xmind

  2. 由于 Hive 采用了类似SQL 的查询语言 HQL(Hive Query Language),因此很容易将 Hive 理解为数据库。其实从结构上来看,Hive 和数据库除了拥有类似的查询语言,再无类似之处。本文将从多个方面来阐述 Hive 和数据库的差异。数据库可以用在 Online 的应用中,但是Hive 是为数据仓库而设计的,清楚这一点,有助于从应用角度理解 Hive 的特性。
  3. 所属分类:Hive

    • 发布日期:2020-09-18
    • 文件大小:766976
    • 提供者:weixin_49057491
  1. 大数据学习资料之hive

  2. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 ​ 本质是:将HQL转化成MapReduce程序
  3. 所属分类:Hive

    • 发布日期:2020-09-27
    • 文件大小:60817408
    • 提供者:jekongoo
  1. python导出hive数据表的schema实例代码

  2. 本文研究的主要问题是python语言导出hive数据表的schema,分享了实现代码,具体如下。 为了避免运营提出无穷无尽的查询需求,我们决定将有查询价值的数据从mysql导入hive中,让他们使用HUE这个开源工具进行查询。想必他们对表结构不甚了解,还需要为之提供一个表结构说明,于是编写了一个脚本,从hive数据库中将每张表的字段即类型查询出来,代码如下: #coding=utf-8 import pyhs2 from xlwt import * hiveconn = pyhs2.conn
  3. 所属分类:其它

    • 发布日期:2020-12-24
    • 文件大小:43008
    • 提供者:weixin_38747126
  1. Spark学习之路【SparkSQL入门解析】

  2. 【一】简介 (本文部分图片来自网络,侵删) Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用 【二】特点 【2.1】易整合 Spark SQL可以使用SQL或熟悉的DataFrame API在Spark程序中查询结构化数据,可在Java,Scala,Python和R中使用 【2.2】统一的数据访问方式 DataFrame和SQL提供了一种访问各种数据源的通用方法,包括Hive,Avro,Parquet,
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:687104
    • 提供者:weixin_38607088
  1. Hive之查询

  2. 查询 查询语句语法: [WITH CommonTable[removed], CommonTableExpression)*] (Note: Only available starting with Hive 0.13.0) SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY col_list] [ORDER
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:208896
    • 提供者:weixin_38638002
  1. SparkSQL源码分析之核心流程

  2. 自从去年SparkSubmit2013MichaelArmbrust分享了他的Catalyst,到至今1年多了,SparkSQL的贡献者从几人到了几十人,而且发展速度异常迅猛,究其原因,个人认为有以下2点:1、整合:将SQL类型的查询语言整合到Spark的核心RDD概念里。这样可以应用于多种任务,流处理,批处理,包括机器学习里都可以引入Sql。2、效率:因为Shark受到hive的编程模型限制,无法再继续优化来适应Spark模型里。前一段时间测试过Shark,并且对SparkSQL也进行了一些测
  3. 所属分类:其它

    • 发布日期:2021-03-03
    • 文件大小:678912
    • 提供者:weixin_38663608
  1. ApacheBeam实战指南之基础入门

  2. 随着大数据2.0时代悄然到来,大数据从简单的批处理扩展到了实时处理、流处理、交互式查询和机器学习应用。早期的处理模型(Map/Reduce)早已经力不从心,而且也很难应用到处理流程长且复杂的数据流水线上。另外,近年来涌现出诸多大数据应用组件,如HBase、Hive、Kafka、Spark、Flink等。开发者经常要用到不同的技术、框架、API、开发语言和SDK来应对复杂应用的开发。这大大增加了选择合适工具和框架的难度,开发者想要将所有的大数据组件熟练运用几乎是一项不可能完成的任务。面对这种情况,
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:321536
    • 提供者:weixin_38632624
  1. Python学习笔记——大数据之Spark简介与环境搭建

  2. Spark是Apache顶级项目里面最火的大数据处理的计算引擎,它目前是负责大数据计算的工作。包括离线计算或交互式查询、数据挖掘算法、流式计算以及图计算等。核心组件如下:SparkCore:包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和SparkCore之上的。SparkSQL:提供通过ApacheHive的SQL变体Hive查询语言(HiveQL)与Spark进行交互的API。每个数据库表被当做一个RDD,SparkSQL查询被
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:570368
    • 提供者:weixin_38643401
  1. Spark计算引擎之SparkSQL详解

  2. 1.SparkSQL概述1.1.SparkSQL的前世今生Shark是一个为Spark设计的大规模数据仓库系统,它与Hive兼容。Shark建立在Hive的代码基础上,并通过将Hive的部分物理执行计划交换出来。这个方法使得Shark的用户可以加速Hive的查询,但是Shark继承了Hive的大且复杂的代码使得Shark很难优化和维护,同时Shark依赖于Spark的版本。随着我们遇到了性能优化的上限,以及集成SQL的一些复杂的分析功能,我们发现Hive的MapReduce设计的框架限制了Sha
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:741376
    • 提供者:weixin_38549721
  1. Presto在有赞的实践之路

  2. Presto是由Facebook开发的开源大数据分布式高性能SQL查询引擎。起初,Facebook使用Hive来进行交互式查询分析,但Hive是基于MapReduce为批处理而设计的,延时很高,满足不了用户对于交互式查询想要快速出结果的场景。为了解决Hive并不擅长的交互式查询领域,Facebook开发了Presto,专门为交互式查询所设计,提供分钟级乃至亚秒级低延时的查询性能。Client发送请求给Coordinator。SQL通过ANTLR进行解析生成AST。AST通过元数据进行语义解析。语
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:171008
    • 提供者:weixin_38562329
  1. Impala和Hive的关系(详解)

  2. Impala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。并且impala兼容Hive的sql解析,实现了Hive的SQL语义的子集,功能还在不断的完善中。Impala与Hive都是构建在Hadoop之上的数据查询工具各有不同的侧重适应面,但从客户端使用来看Impala与Hive有很多的共同之处,如数据表元数据、ODBC/JDBC驱动、SQL语法、灵活的文件格式、存储资源池等。Impala与Hi
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:425984
    • 提供者:weixin_38722164
  1. ApacheBeam实战指南之基础入门

  2. 随着大数据2.0时代悄然到来,大数据从简单的批处理扩展到了实时处理、流处理、交互式查询和机器学习应用。早期的处理模型(Map/Reduce)早已经力不从心,而且也很难应用到处理流程长且复杂的数据流水线上。另外,近年来涌现出诸多大数据应用组件,如HBase、Hive、Kafka、Spark、Flink等。开发者经常要用到不同的技术、框架、API、开发语言和SDK来应对复杂应用的开发。这大大增加了选择合适工具和框架的难度,开发者想要将所有的大数据组件熟练运用几乎是一项不可能完成的任务。面对这种情况,
  3. 所属分类:其它

    • 发布日期:2021-02-02
    • 文件大小:321536
    • 提供者:weixin_38622227
  1. Presto在有赞的实践之路

  2. Presto是由Facebook开发的开源大数据分布式高性能SQL查询引擎。起初,Facebook使用Hive来进行交互式查询分析,但Hive是基于MapReduce为批处理而设计的,延时很高,满足不了用户对于交互式查询想要快速出结果的场景。为了解决Hive并不擅长的交互式查询领域,Facebook开发了Presto,专门为交互式查询所设计,提供分钟级乃至亚秒级低延时的查询性能。Client发送请求给Coordinator。SQL通过ANTLR进行解析生成AST。AST通过元数据进行语义解析。语
  3. 所属分类:其它

    • 发布日期:2021-02-02
    • 文件大小:171008
    • 提供者:weixin_38550812
  1. Spark计算引擎之SparkSQL详解

  2. 1.SparkSQL概述 1.1.SparkSQL的前世今生 Shark是一个为Spark设计的大规模数据仓库系统,它与Hive兼容。Shark建立在Hive的代码基础上,并通过将Hive的部分物理执行计划交换出来。这个方法使得Shark的用户可以加速Hive的查询,但是Shark继承了Hive的大且复杂的代码使得Shark很难优化和维护,同时Shark依赖于Spark的版本。随着我们遇到了性能优化的上限,以及集
  3. 所属分类:其它

    • 发布日期:2021-01-27
    • 文件大小:741376
    • 提供者:weixin_38705762
« 12 »