文件名称:
基于大数据平台构建数据仓库的研究与实践.pdf
开发工具:
文件大小: 1mb
下载次数: 0
上传时间: 2019-07-16
详细说明:数据仓库设计文档,帮助大家理解及如何设计数据仓库,很不错的一篇论文。专题
lTo
学习体系,能从海量数据中提炼高价值信息,构建自主
(1)源系统结构化数据:源系统按大数据平合的
训练与反馈、可不断从最新数据中调整演化的智能业务供数规范要求提供表数据文本和标志文件。
模型体系。
(2)文件交换区FSA:文件的交换中枢,含源系
以 Hadoop^ Spark为代表的大规模数据处理技术为统结构化数据和半结构化、非结构化数据(主要是外部
超越传统数据库的处理局限性提供了先进的并行计算和数据)。
资源调度框架。在经过充分评测后恒丰银行最终确定采
(3)源数据缓存区ODM:结构化数据接入,在线
用 Hadoop/ Spark架构作为新一代企业大数据平台的基数据平合的源数据历史层HDM、基础数据模型层的数
础设施组件。
据来源。
该平台具备高模块化和松耦合架构,针对不同的应
(4)源数据历史层HDM:源数据缓存区数据接入。
用领域通过组件之间的灵活组合与高效协作来提供定制
(5)基础数据模型层FM:源数据按数据仓库模
化的大数据平台支撑;此外,平台已全面支持So、型加工后存储,源数据缓存区数据接入,公共数据模型
PLSL标准数据库语言及 Oracle、DB2、 MySQL、层CDM的主要数据来源。仅大数据平台各数据层数据
SQLServer等多种银行传统应用数据库,结合自身数据存储和内部流转用。
挖掘与机器学习组件,能够构建起强大的数据分析生态
(6)公共数据模型层CDM:聚焦客户营销和风险
系统。
管理的银行信息资产加工和存储,源数据缓存区、基础
2.大数据平台层次化架构设计
数据模型层数据接入,数据服务接口的主要数据来源。
基于大数据平台构建的新一代数据仓库的整体架构
()数据服务接口DSI:在线数据平台的对外数
(如图1所示包括如下层级结构),完成对数据源存储、据服务接凵,源数据历史层、公共数据模型层数据接入,
加工、应用、输出、数据管理等各层面的重构。
BI应用集市的唯一数据来源。
统合监管集市
数据分析集市客户关系管理集市审计、反洗钱等其他数据集市
历史数据服务接口
数据服务接口DSI
数据服务
历史数据平台
在线数据平台
数平
非结构数据区
公共数据模型层
公共数据模型层
社交媒体信息
CDM
CDM
匚第三方数据
源数据基础数
源数据基础数
数据存储
体
历史层据模型
历史层据模型
HDM层FDM
HDM层FDM
据
非结构化数据接入
源数据缓冲区ODM/结构化数据接入
数据
文件交换区FSA
接入
半结构化/非结构化数
业务系统结构化数据
源数据
图1大数据平台数据仓库逻辑架构
2017.05中国金融电脑39
21994-2019ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.ne
SPECIAL
TOPIC
专题
(8)历史数据服务接口:历史数据平合的对外数(EAST)的数据切换。整体设计思路分为数据移植、
据服务接口,源数据历史层、公共数据模型层数据接入,在线数据平台、历史数据平台、银监标准化(EAST)
各类查询应用的唯一数据来源。
四个部分
(9)综合监管集市:试点应用银监标准化EAST
(1)梳理数据移植流程
所在的综合监管集市,数据服务接口的数据接入,综合
①利用 Scoop技术连接原数据仓库抽取数据到hdfs
监管应用的唯一数据来源。
文件系统;
(10)数据分析集市:BI统计分析类应用所在的数
②将原数据仓库的数据扣取到hdfs文件系统后,在
据集市,公共数据汇总层ADM的加工和存储,数据服大数据平合中构建映射在这些数据文件上的外表,其表
务接口的数据接入。
结构与原数据仓库表结构一致
(11)统一调度平台:大数据平台EIL过程的统
③在构建外表后,数据平台已可以查询到原数据仓
一作业调度监控,包括:调度、监控、日志、处理四部库的数据,为构建数据平台的HDM层源数据备份,还
分内容。
需将这部分的数据进行还原操作。
3.原关键数据仓库应用迁移
数据移植流程如图2所示。
新一代数据仓库逻辑架构主要包括在线数据平台与
(2)建立在线数据平台
历史数据屮台两部分。在线数据半台将对原有数据仓库
在线数据平台集中」湶数据缓冲层、源数据历史层、
的体系进行重构,向业务人员提供更多更全的业务数据基础数据模型层和公共数据模型层。源数据缓冲层作为
及更加髙效便捷的模型数据。历史数据平台实现对历史外部业务系统数据接入层,单日缓存业务系统每日数据,
数据的永久存储,并能够提倛给用户历史数据査询的数供历史明细层程序处理已存入基础数据平台。源数据历
据服务接口。
史层是对业务系统源数据进行初步清理后,粗放在数据
应用迁移的主要目标是建设在线数据平台、历史数平台中,保留历史原貌。基础数据模型层保留了原数据
据平台,设计公共数据模型,并实现银监标准化系统仓库部分基础媺据模型,以支持公共数据模型及其他应
数据移植
数据抽取阶段
数据还原阶段
rac
TDH平台
TDH平台
数据仓库
HDFS文件系统
HDM层
职
按照日期快照
能
1500右Xsqp
生成数据文XPu/sQ存储过程
行储
数据量:35TB
将数据还原为
业务系统源表
结构
图2数据移植流程
40 FINANCIAL COMPUTER OF CIIINA
21994-2019ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
专题
lTo
用数据需求,保存模型历史数据。公共数据模型层为数
据仓库的主体数据体,是支撑数据汇总、数据分析的多
脉络清晰
自底向上
无二义性
·价值发现
纬度数据集市
(3)建立历史数据平台
历史数据平台是在线数据平台的数据备份,实现每
框架‖数据
日数据同步。历史数据平台源数据备份结构与在线数
据平台一致,侏存永久数据。历史数据平台公共数据
适配‖需求
模型备份结构与在线数据平台一致,永久保存数据。
并依托公共数据模型的历史,构建历史数据查询服务
封装结构
自顶向下
稳
定服务
迭代扩充
模型接口。
(4)重构银监标准化(EAST)应用
银监标淮化EAST系统改造内容主要是数据连接改图3公共数据模型层建设原则
造(JDBC- hadoop)和参数配置调整,不包括系统功能
和流程。由于EAST系统数据结构为 Oracle表,存储过如图4所示。
程为 Oracle存储过程.需根据大数据半台的特性对表结
构建公共模型层,数据来源主要包括行内数据、同
构进行重构,支持大数据平台的存储过程格式,并进行业数据和外部数据三大部分。
数据移植。
(1)行内数据:行内的业务系统、管理系统数据
4.注重公共模型开发
包括核心、企贷、个贷、国结等数十个源系统数据。九
恒丰银行当前数据仓库存在应用离散、冗余数据加大类数据整合为公共数据模型七大主题,根据柑应主
工、资源紧张等问题。所以,公共数据模型的建设需要题+业竻划分对源数据进行重新整合分类归总。
统一需求管控,建立更大的项目资源池,减少重复开发
(2)同业数据:同业数据包括监管当局和其他银
规划应用方向;统一计算口径,减少数据冗余和数据复行披露的各项业务指标—规模数据、盈利数据、风险
制,减少重复数据加工;同时,能够满足不同应用场景数据。
的共性需求,稳妥推进新技术应用。公共数据模型层建
(3)外部数据:从外部采购或抓取的数据,如征信、
设原则如图3所示
舆情、宏观数据。
在主题模型领域,根据主题+业务方式进行数据存
5.开发专业数据集市与数据应用
储,以具体业务为依据提练主题要素,涵盖客户、事件、
恒丰银行详细规划∫各管理分析领域的业务应用场
产品、作业、财务绩效、資产管理、市场与公共元信景,形成了营销主题、风险主题、客户主题、资讯主题、
息(如费率、利率与汇率〕。依据可重用性、安全性、运营主题、绩效主题等专业共享數据集市,为具体管理
髙叮用性、可管理性、叫扩展性、高性能的设计原则,分析域的业务应用提供了基础叨细层、共享加工层、结
采取总体规划、分层实现的方式。以底层软硬件与数果数据存储和对外服务接口。在数据应用方面,大数据
据相结合,需求与问题驱动,建设良好公共数据模型层,平台项目一期已经陆续构建了信贷工厂、报表平台、精
便于数据更直观完善的展现,为业务和决策人员的分准营销、全面风险预警、客户关系管理CRM、财富管
析决策握供良好的支持。公共数据模型层的整体规划理系统、大数据资讯平台、反欺诈、信用卡交易监测、
2017.05中国金融电脑41
21994-2019ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.ne
SPECIAL
TOPIC
专题
数据来源
缓冲层
模型层
接口层
应用层
-1=-:---+-
行内数据
贴源数据
客户主题
监管接口
监管集市
外部数据
贴源历史
交易主题
经分接口
经分集市
产品主题
风险接口
风险集市
中间加工
作业主题
CRM接口
CRM系统
财务绩效主题
绩效接口
绩效集市
资产管理主题
审计接口
审计集市
市场主题
分行接口
部门、分行集市
图4公共数据模型层的整体规划
数捃可视化、客户生命周期管理、运营风险监测等401/20:同时由于各应用建构在同一个数据半台,每个应
多个上层应用。在二期项目规划中,还包括决策管理引用减少了大量的共性数据加工和数据共享代码开发,软
擎、用户画像与营销推送、实时风险监控等数据应用,件开发成本也得到了降低,预计每年为恒丰银行节约上
充分发挥大数据平台在海量数据计算、非结构化数据处千万元的软硬件投入和系统运维成本;在生产效率层面,
理、实时流数据处理、内存计算与列式存储等领域的能原有传统数据仓库的大数据量跑批处理往往需要4-5小
力与优势。通过大数据平台的业务建模能力,为全行数时,新一代大数据平台的分布式计算能力,结合内存处
据价值发现提供了领城技术基础;通过数据探索、机器理技术,处理冋样数据量级的工作仅需数十分钟,大大
学习模型与算法,为业务部门从行内外海量数据中寻找提升了营销、风控、运营等业务流程的响应能力
价值突破口提供实践依据。
考虑到系统实现的新技术能力以及业务分析团队获
得更高时效性的数据资源和更快的数据分析和建模能
大数据平台建设取得的成效
力,能创造的隐性业务价值也是非常可观的。
目前,基于大数据平台的数据仓库已全面上线,并
大数据平台逐渐成为全行数据管控的枢纽和压舱
支撑仝行统·数据管理与数据服务。通过本次项目的石。恒丰银行通过大数据平台构建数据仓库的项目实践,
技术实践和应用系统的逐步落地,恒丰银行实现了成逐渐建立全行数据综合服务体系,即报表和查询体系、
本管理与业务管控的双效提升。在经济效益层面,经初基于专业引擎的数据计算访问体系、数据分析服务体系、
步估计,企业数据应用的总体硬件投入成本将降为原数据挖掘体系,最终形成了数据应用价值到最终用户的
来的1/5~-1/10,数据库软件授权许可费更是只有原来的合理传导机制。c
栏目编辑:焦卢玲jiaolingfec.com.cn
42 FINANCIAL COMPUTER OF CIIINA
21994-2019ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.ne
(系统自动生成,下载前可以参看下载内容)
下载文件列表
相关说明
- 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
- 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度。
- 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
- 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
- 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
- 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.