您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. Oracle基于日志的数据备份

  2. CDC(Change Data Capture)是oracle在数据库级别实现的增量抽取解决方案。在一般的ETL过程中,对于增量抽取,无非是在数据上加时间截,全记录比对,关键字段比对,日志分析抽取等几种方法,要么需要修改原表结构,要么需要大量的算法,要么借助第三方的工具实现。Oracle从9i开始引入的CDC特性,使得有机会在数据库层面上直接实现增量抽取功能,在性能方面由于和数据库引擎的直接集成,比第三方工具应该具有一定的优势。 CDC有两个模式:同步和异步。两种模式的实现机制是截然不同的。同
  3. 所属分类:Oracle

    • 发布日期:2010-06-06
    • 文件大小:27648
    • 提供者:gaojuntao615
  1. 生产过程数据仓库ETL模块的研究与开发

  2. 硕士论文 摘要:本文首先介绍了数据仓库的概念和特点,以及ETL模块的主要功能。接着针对基于生产过程数据的特点,研究并给出了生产过程历史数据的清洗、转换、抽取的关键算法。在此基础上,设计并开发了面向实时/历史数据库的ETL应用功能软件模块。最后,将本文开发的ETL模块应用于某600MW燃煤机组的运行工况分析数据仓库的建立中,并展示出部分结果。
  3. 所属分类:其它

    • 发布日期:2011-08-30
    • 文件大小:6291456
    • 提供者:zttyan
  1. ETL若干关键技术研究

  2. 博士论文 摘要: 本文工作的主要贡献和研究内容如下: 1.给出了一个用于描述ETL过程的模型,称为ETL过程树,将异构数据转换、数据清理与查询树结合。E几过程树中数据清理规定只作用于单个关系节点,当修改ETL过程树中的数据清理规则时,不会对ETL过程树本身产生影响,降低了ETL过程的维护代价。 2.给出了差运算物化视图的增量维护的方法,给出了SRA和BRA两种增量维护方法,并讨论了增量的大小对这两种方法执行效率的影响。 3.在前两点的研究基础上,给出了根据描述全量ETL过程的ETL过程树自动产
  3. 所属分类:其它

    • 发布日期:2011-08-30
    • 文件大小:6291456
    • 提供者:zttyan
  1. Fresoar Data Migration 2.0 数据抽取(ETL) 工具

  2. Fresoar Data Migration 2.0 软件产品介绍 Fresoar Data Migration 2.0 (简称FDM 2.0)软件产品作为ETL工具,提供了一套高效、稳定的数据迁移解决方案,我们不只提供软件产品,更重要的我们还提供细致周到的数据迁移解决方案服务,最大化的满足客户需求。当前软件工具支持IBM DB2、Oracle、MS-SQL Server、MySQL常用数据库,提供了友好的、易操作的、可拓展的数据迁移过程。 其中本软件产品提供了数据抽取、数据清洗、数据转换、数
  3. 所属分类:Oracle

    • 发布日期:2012-12-06
    • 文件大小:559104
    • 提供者:fresoar2012
  1. Fresoar Data Manager 数据抽取工具(ETL)

  2. Fresoar Data Migration 2.0 软件产品介绍 Fresoar Data Migration 2.0 (简称FDM 2.0)软件产品作为ETL工具,提供了一套高效、稳定的数据迁移解决方案,我们不只提供软件产品,更重要的我们还提供细致周到的数据迁移解决方案服务,最大化的满足客户需求。当前软件工具支持IBM DB2、Oracle、MS-SQL Server、MySQL常用数据库,提供了友好的、易操作的、可拓展的数据迁移过程。 其中本软件产品提供了数据抽取、数据清洗、数据转换、数
  3. 所属分类:Oracle

    • 发布日期:2012-12-08
    • 文件大小:686080
    • 提供者:fresoar2012
  1. CloverETL用户开发说明

  2. CloverETL 是一个基于Java 的开源的 ETL 框架,同时还包含了一个 ETL设计器——CloverETL Designer。核心的算法就是一个数据流网络。 CloverETL支持大多数主流数据库系统,并且它是一个跨平台产品,支持Windows 系列,Linux系列,Unix系列操作系统,有很强的可移植性。 CloverETL目前最新稳定版是CloverETL3.0.1。官方也同时推有收费版和免费版。 收费版:桌面版(个人版),企业版,主要针对企业级大型开发; 免费版:社区版(有桌面
  3. 所属分类:其它

    • 发布日期:2013-12-13
    • 文件大小:23068672
    • 提供者:kilo_nantong
  1. ETL模糊匹配

  2. 从以上模糊匹配的结果看,Jaro Winkler和Pair letters Similarity的结果比较合适, 如果在实际工作中,大数据量的模糊匹配应该如何从中选择合适的算法?
  3. 所属分类:其它

    • 发布日期:2014-09-30
    • 文件大小:176128
    • 提供者:u010836234
  1. 数据仓库ETL算法详解

  2. 1. ETL的定义:是数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去; 2. 常用的ETL工具:主要有三大主流工具,分别是Ascential公司的Datastage、Informatica公司的Powercenter、NCR Teradata公司的ETL Automation.还有其他开源工具,如PDI(K
  3. 所属分类:算法与数据结构

    • 发布日期:2017-11-08
    • 文件大小:113664
    • 提供者:lt_csvn
  1. 数据挖掘技术与应用 数据挖掘模型和算法

  2. 数据挖掘技术与应用,描述数据挖掘技术以及当前的主要应用。 数据挖掘模型和算法 ...
  3. 所属分类:其它

    • 发布日期:2009-03-09
    • 文件大小:116736
    • 提供者:lee24
  1. 数据清洗研究综述

  2. 介绍数据清洗问题产生的背景和国内外研究现状。 给出数据清洗的定义和对象, 说明数据清洗的基本原理、模型, 分析相关算法与工具, 给出数据清洗评估方法; 并对今后数据清洗的研究和应用进行展望。
  3. 所属分类:其它

    • 发布日期:2018-08-07
    • 文件大小:561152
    • 提供者:godmayknow
  1. ETL拉链算法的使用

  2. ETL拉链算法的使用,详细介绍各种拉链算法的使用,及开发过程
  3. 所属分类:其它

    • 发布日期:2018-12-13
    • 文件大小:348160
    • 提供者:sunzhuan158
  1. ETL详解.docx

  2. 1 ETL是什么 3 2 ETL和大数据有什么关联 3 3 ETL有哪些过程,要进行哪些操作 3 3.1 抽取作业 4 3.1.1 手工开发抽取作业时候的常用方法 4 3.1.2 更新数据的时间和数量的问题 5 3.2 转换作业 8 3.2.1 数据清洗 8 3.2.2 数据转换 9 3.3 加载作业 11 3.4 流程控制 11 3.4.1 流程步骤控制能力 12 3.4.2 系统的划分和前后流程的依赖 12 3.4.3 合理的调度算法 12 3.4.4 日志和警告系统 12 3.4.5 较高
  3. 所属分类:互联网

    • 发布日期:2020-04-30
    • 文件大小:66560
    • 提供者:liliu0401
  1. bi_development_source_code:传统大数据分析工具以Hadoop,Spark为代表,集成集成的技术框架,对用户来说又重又笨又不灵活,难以维护和驾驭,国际和国内的敏捷型BI工具在对接时又面临性能本项目独辟蹊径,以阿里开源

  2. 数据挖掘 传统大数据分析工具以Hadoop,Spark为代表,集成集成的技术框架,对用户来说又重又笨又不灵活,难以维护和驾驭,国际和国内的敏捷型BI工具在对接时又面临性能本项目独辟蹊径,以阿里开源的DataX为ETL工具,以列式数据库ClickHouse做为中间数据存储源,通过视图关联构建大数据集,解决亿万级数据的即时分析性能,再辅以强大的数据可视化设计前端,通过用户自定义菜单和模板进行呈现,实现用户的自助式分析和探索。 通过灵活的预警功能,设置一些自定义的监控指标,当监控指标超过异常值时,系统
  3. 所属分类:其它

    • 发布日期:2021-03-24
    • 文件大小:80740352
    • 提供者:weixin_42173218
  1. Deep_Rec:存放推荐算法相关代码,文档,资料-源码

  2. 本库用于存放推荐的相关算法代码和文档 DeepRank / 概述 对输入特征,特征工程,核心模型,模型输出分别进行了封装。模型更新交替的时候可以针对性的修改指定模块,也方便后续模型的切换,,特征的迭代,以及输入数据在输入,特征工程,保存模型,在线服务各个模块的统一配置。 数据读取 利用tfrecords/下一个代码可以很方便的利用spark扩展将数仓经过ETL的hive表训练数据转换成frecords格式,并存储HDFS上。 配置设置 model_schema.json 配置训练数据中的细分,可
  3. 所属分类:其它

    • 发布日期:2021-03-15
    • 文件大小:60416
    • 提供者:weixin_42099814
  1. hummingbirdSystem:蜂鸟数据分析平台帮助企业快速完成多数据整合,建立统一数据口径,支持自助式数据准备(ETL),并提供可视化分析,帮助企业构建整合合在一起业务的企业洞察,并利用数据方法覆盖各层员工及应用场景-源码

  2. 蜂鸟系统 蜂鸟数据分析平台使用Hadoop,Hive,Hbase,Kylin,Kettle,Superset等技术实现数据建模,自定义ETL操作,多维数据分析以及数据可视化的功能。 数据分析 数据分析的三重境界: 1.统计计数 2.多维分析 3.机器学习 数据分析的统计计数和多维分析,通常是数据探索式分析,旨在了解数据的特性,进而增加挖掘数据的价值。而基于对数据的理解,再重新机器学习的算法对数据做大多数公司实际上没有任何费用去建造复杂的数据分析平台,面对快速变化的业务需求,很多数据工程师都把自
  3. 所属分类:其它

    • 发布日期:2021-03-11
    • 文件大小:7340032
    • 提供者:weixin_42166626
  1. DataVec:用于机器学习的ETL库-数据管道,数据处理和处理-源码

  2. 数据载体 DataVec是Apache 2.0许可的库,用于机器学习ETL(提取,转换,加载)操作。 DataVec的目的是将原始数据转换为可用的矢量格式,然后将其提供给机器学习算法。 通过向该存储库贡献代码,您同意根据Apache 2.0许可提供您的贡献。 为什么要使用DataVec? 数据处理有时会很混乱,我们认为它应该与高性能代数库(例如nd4j或Deeplearning4j)区分开。 DataVec使从业人员可以获取原始数据并快速生成符合开放标准的矢量化数据(svmLight等)。
  3. 所属分类:其它

    • 发布日期:2021-02-21
    • 文件大小:25165824
    • 提供者:weixin_42139042
  1. algorithm_classification_k-nearest_neighbor:这是一个乳腺癌分类数据集项目,用于定义在简单的ETL之后使用K最近邻居算法在人中是否会发生癌症扩散。-源码

  2. algorithm_classification_k-nearest_neighbor:这是一个乳腺癌分类数据集项目,用于定义在简单的ETL之后使用K最近邻居算法在人中是否会发生癌症扩散。
  3. 所属分类:其它

    • 发布日期:2021-02-15
    • 文件大小:78643200
    • 提供者:weixin_42164931
  1. 算法ETL-源码

  2. DS-算法分配 此仓库适用于DS-Algo课程中的所有作业。 我们已经为每个作业创建了文件夹。 您可能还会在每个作业文件夹下找到一个带有您的名字的子文件夹,请将您的代码,文档等提交到相应的子文件夹中,并在每个作业的到期日之前提交PR。 您可以随时提交/推送代码,但是只有那些在截止日期之前提交的代码才被视为最终标记。 完成评估后,所有拉动请求都将被批准,以便您可以彼此共享/学习。 快乐算法~~~
  3. 所属分类:其它

    • 发布日期:2021-02-13
    • 文件大小:10485760
    • 提供者:weixin_42168265
  1. etl:嵌入式模板库-源码

  2. 嵌入式模板库(ETL) 动机 C ++是用于嵌入式应用程序的出色语言,而模板是强大的方面。 标准库可以提供大量经过良好测试的功能,但是标准库的某些部分与确定性行为和有限的资源要求不太匹配。 这些限制通常会阻止使用具有开放式大小的动态分配的内存和容器。 需要一个模板库,用户可以在其中声明对象的大小或任何对象的最大大小。 大多数嵌入式编译器当前不支持C ++ 03以后的标准,因此使程序员无法使用更高版本库的增强功能。 这是ETL试图实现的目标。 概要 ETL并非旨在完全替代STL,而是对其进
  3. 所属分类:其它

    • 发布日期:2021-01-30
    • 文件大小:2097152
    • 提供者:weixin_42176827
  1. 数据仓库ETL任务调度模型研究

  2. 数据仓库系统包含众多的抽取-转换-加载(ETL) 任务, 这些任务具有一定的优先约束关系. 在多处理机环境下, 如何高效地调度这些ETL 任务是构建数据仓库需要研究的重要问题. 对此, 在对数据仓库ETL 任务调度规则进行归纳总结的基础上, 以数据仓库总的ETL 完成时间最短为目标, 建立了数据仓库ETL 任务调度模型. 同时结合问题的特点, 采用同层划分的思想, 提出基于同层划分遗传算法求解问题的方法. 最后, 通过应用实例验证了所建立模型和求解算法的可行性和有效性.
  3. 所属分类:其它

    • 发布日期:2021-01-14
    • 文件大小:217088
    • 提供者:weixin_38665944
« 12 »