您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 基于规则引擎的数据清洗

  2. 基于规则引擎的数据清洗 基于规则引擎的数据清洗 基于规则引擎的数据清洗
  3. 所属分类:其它

    • 发布日期:2009-08-15
    • 文件大小:121856
    • 提供者:yuy0016
  1. DataStage学习指导

  2. DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据仓库目标数据库的集成工具。 DataStage 能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统等,以下列出它所能处理的主要数据源: 大型主机系统数据库:IMS,DB2,ADABAS,VSAM等 开放系统的关系数据库:Informix,Oracle,Sybase,DB2,Microsoft SQL Server等 ERP系统:SAP/R3,
  3. 所属分类:DB2

    • 发布日期:2009-12-31
    • 文件大小:10485760
    • 提供者:jack_qdb
  1. 数据清洗InsuranceCRMSystem

  2. 数据清洗从名字上也看的出就是把“脏”的“洗掉”。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,成为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗.而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复
  3. 所属分类:外包

  1. 网页分块抽取系统W4F

  2. W4F(Wysiwyg Web Wrapper Factory)是一个用来生成网页包装器的Java工具箱。包装器生成过程由三个独立层:获取层、抽取层和匹配层组成。获取层通过HTTP协议下载页面、清洗,然后按照文档对象模型(DOM)转化为一棵HTML解析树。抽取层应用抽取规则从解析树中抽取信息,保存成W4F的内部格式嵌 套字符串列表(NSL)。匹配层按照匹配规则将NSL结构输出到上层应用
  3. 所属分类:Java

    • 发布日期:2011-05-05
    • 文件大小:585728
    • 提供者:happyyangyuan
  1. date stage 学习文档

  2. DataStage 可以从多个不同的业务系统中,从多个平台的数据源中抽取数 据,完成转换和清洗,装载到各种系统里面。其中每步都可以在图形化工具 里完成,同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换 规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。 其中简单的数据转换可以通过在界面上拖拉操作和调用一些DataStage 预定 义转换函数来实现,复杂转换可以通过编写脚本或结合其他语言的扩展来实 现,并且DataStage 提供调试环境,可以极大提高开发和调试抽取、转
  3. 所属分类:数据库

    • 发布日期:2011-05-17
    • 文件大小:4194304
    • 提供者:yiyunbinlanle
  1. DataStage学习版文档

  2. 一、 简介数据中心(数据仓库)中的数据来自于多种业务数据源,这些数据源可能是不同硬件平台上,使用不同的操作系统,数据模型也相差很远,因而数据以不同的方式存在不同的数据库中。如何获取并向数据中心(数据仓库)加载这些数据量大、种类多的数据,已成为建立数据中心(数据仓库)所面临的一个关键问题。针对目前系统的数据来源复杂,而且分析应用尚未成型的现状,专业的数据抽取、转换和装载工具DataStage是最好的选择。Websphere DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程
  3. 所属分类:Web开发

    • 发布日期:2008-07-04
    • 文件大小:7340032
    • 提供者:hufei1204
  1. 数据质量和数据清洗

  2. 数据质量 数据清洗 数据质量规范 数据清洗规则 数据仓库架构 大数据处理方案
  3. 所属分类:其它

    • 发布日期:2014-03-10
    • 文件大小:389120
    • 提供者:aaaa_bb1
  1. DataStage_V7.5_学习总结

  2. 一、 DataStage简介 Websphere DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据中心(数据仓库)目标数据库的集成工具。 DataStage能够处理多种数据源的数据,包括主机系统上的大型数据库、开放系统上的关系型数据库和普通的文件系统等。 常见的主要数据源有:  大型主机系统的数据库:IMS、DB2、ADABAS、VSAM等。  开发系统的关系型数据库:Informix、Oracle、Sybase、DB2、M
  3. 所属分类:其它

    • 发布日期:2015-11-13
    • 文件大小:5242880
    • 提供者:myfreeway
  1. 数据清洗,数据过滤,清洗规则

  2. 定义 1 原始数据(Raw Data) 原始数据是来自数据源的数据,一般作为数据清洗的输入 数据,文中后面用 RawData 表示原始数据; 定义 2 干净数据(Clean Data) 干净数据也称目标数据(Target Data),即为符合数据仓库 或上层应用逻辑规格的数据,也是数据清洗过程的结果数据,数据清洗过程从来自各种异构 源的数据中产生出干净数据,如果数据源的数据已经被检查出是干净数据,数据清洗过程将 会保留,文中后面用CleanData 表示干净数据; 定义 3 脏数据(Dirty
  3. 所属分类:Java

    • 发布日期:2016-05-18
    • 文件大小:475136
    • 提供者:bcw52
  1. 一种基于规则的数据清洗方案

  2. 数据清洗是提高数据集成数据质量的一个重要手段。提出了一种基于动态规则的数 据清洗方案AzszpClean,这种方法对各种清洗规则进行动态编译,将数据转换和数据清洗 两者结合起来,强化清洗过程的描述能力,同时采用规则队列的方式实现批量规则匹配。实 际应用表明,AzszpClean方法可以完成硬编码的功能,但具有更高的实现效率。
  3. 所属分类:专业指导

    • 发布日期:2009-02-24
    • 文件大小:475136
    • 提供者:wangqiang6_2011
  1. 公民身份证清洗

  2. 针对不合规则的数据,公民身份证号码进行清洗校验,根据所传的参数,返回需要的数据
  3. 所属分类:Oracle

    • 发布日期:2019-02-27
    • 文件大小:1024
    • 提供者:weixin_44103673
  1. 电话号码清洗.ktr

  2. 对指定电话进行清洗,去重。筛选出符合规则的电话信息返回
  3. 所属分类:Java

    • 发布日期:2019-07-22
    • 文件大小:24576
    • 提供者:weixin_41160534
  1. 贵州省大数据清洗加工规范.docx

  2. 贵州省大数据清洗加工规范 本规范按照 GB/T 1.1-2009《标准化工作导则 第 1 部分:标准的结构和编写》给出的规则起草。本规范由贵州省大数据发展管理局提出并归口。 本规范起草单位:贵州中软云上数据技术服务有限公司、云上贵州大数据产业发展有限公司、上海贝格数据服务有限公司。
  3. 所属分类:其它

    • 发布日期:2019-10-14
    • 文件大小:218112
    • 提供者:u012822617
  1. education-online.zip

  2. 在线教育项目 1.dwd 数据清洗 数据脱敏 清洗规则 脱敏字段,存储基础表 2.dws 降维 对表轻度聚合 做题表 课程表 主修行业表 试卷表。 3.join 方式:Spark SQL 、DF API、DS API , RDD DF DS 三者区别 优点和劣势。 宽表:几张宽表,字段。 拉链表:缓慢变化的字段(vip等级 用户支付金额) 4.用户注册模块:统计各个平台注册人数,通过url地址跳转的注册人数,top3用户支付金额 对内分析各部门贡献程度。 做题模块:
  3. 所属分类:JavaME

    • 发布日期:2019-10-14
    • 文件大小:136314880
    • 提供者:qq_36764491
  1. 国产-风华-电阻规格书.pdf

  2. 电阻规格书,国产-风华-电阻规格书.pdf常乱厚膜片式固定電阻器 General Thick Film Chip Fixed Resistor ■額定值 Ratings 電阻温度系數T.C.R(ppm/C) 型號 阻值範圍 Tyr Resistance range 標稱阻值允許偏差 Resistance Tolerance ±C.5 ±1 士2 ±10% 109≤R<1009 ±300 ±300 ±300 ±300 01005 1002<R≤1M2 ±250 ±250 ±250 ±2
  3. 所属分类:硬件开发

    • 发布日期:2019-07-21
    • 文件大小:1048576
    • 提供者:weixin_42005993
  1. DataStage_V7.5_学习总结.doc

  2. DataStage 可以从多个不同的业务系统中,从多个平台的数据源中抽取数据,完成转换和清洗,装载到各种系统里面。其中每步都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。其中简单的数据转换可以通过在界面上拖拉操作和调用一些 DataStage 预定义转换函数来实现,复杂转换可以通过编写脚本或结合其他语言的扩展来实现,并且 DataStage 提供调试环境,可以极大提高开发和调试抽取、转换程序的效
  3. 所属分类:IBM

    • 发布日期:2021-01-05
    • 文件大小:5242880
    • 提供者:ZH519080
  1. clean-dialog:清理对话框数据的框架-源码

  2. 本项目为一个清洗对话数据的多线程框架,目前还比较简陋,欢迎提bug和优化,索引句重复重复降重函数的正则或者后缀算法。代码还在继续完善中,注释以及一些函数出处引用等待完善。 目录结构 --clean: 清洗框架主目录 ---rules: 存放各级别的规则函数 ---tool_data: 存放黑名单词典,每行一个词 ---run_dist.py: 主运行文件,构造dataloader, 加载黑名单 ---single_filter.py: run_dist.py所调
  3. 所属分类:其它

    • 发布日期:2021-03-04
    • 文件大小:11534336
    • 提供者:weixin_42129300
  1. Yii2中的场景(scenario)和验证规则(rule)详解

  2. 前言 场景,顾名思义,就是一个情景,一种场面。在yii2中也有场景,这个场景跟你所理解的场景含义差不多。 和用户有交互的系统必不可少的功能包括收集用户数据、校验和处理。实际业务中,往往还需要将数据进行持久化存储。出于安全考虑,开发人员应当牢牢把握“客户端的输入都是不可信”的准则,客户端传过来的数据先进行过滤和清洗后再存储或传递到内部系统。 Yii2推荐使用Model类来收集和校验用户数据,持久化的ActiveRecord类是其子类。Model类的load和validate两个方法,分别用来收集
  3. 所属分类:其它

    • 发布日期:2021-01-21
    • 文件大小:105472
    • 提供者:weixin_38704284
  1. 基于关联规则的气象服务智能推荐

  2. 针对气象公众服务存在的专业化程度不高、针对性不强等问题,提出了一种使用关联规则向用户推荐气象服务产品的方法。将用户访问的Web日志数据经过清洗、转换后进行关联规则挖掘,同时设计了一种基于气象产品浏览总次数计算产品相似度的算法,对挖掘出来的关联规则进行筛选。共进行了5组实验,并对用户浏览产品的行为进行了简单预测。实验结果表明,挖掘出的规则在降水天气和雾霾天气中的正确率比较高,结合气象服务产品的相似度能过滤掉10%的无效规则,从而提升规则的正确性。
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:1048576
    • 提供者:weixin_38743602
  1. Hadoop计数器的应用以及数据清洗

  2. 数据清洗(ETL) 在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序,不需要运行Reduce程序。 1.需求 去除日志中字段长度小于等于11的日志。 (1)输入数据 web.log (2)期望输出数据 每行字段长度都大于11 2.需求分析 需要在Map阶段对输入的数据根据规则进行过滤清洗。 3.实现代码 (1)编写LogMapper类 package com.atguigu.mapreduce.weblog;
  3. 所属分类:其它

    • 发布日期:2021-01-10
    • 文件大小:137216
    • 提供者:weixin_38665122
« 12 3 »