基于可复用构件思想的ETL架构设计
数据仓库的数据来源常包含着噪声数据、不完整数据、甚至是不一致的数据。为了得到高质量的数据,必须对抽取(Extract)出来的原始数据做一系列复杂转换(Transform)处理,最后装载(Load)到数据仓库中。这种从原始数据到数据仓库之间,对数据进行的操作称为ETL过程,其工作量大约占系统的60%,实现ETL过程的效率和质量很大程度上决定了数据仓库系统的构建效率和质量。目前研究ETL过程都是集中于个案的研究,强调ETL系统的可扩展性和灵活性,对于如何在类相似或相近的数据仓库项目*享ETL过程的研究则很少,很大程度上阻碍了数据仓库项目建设效率的进一步提高。如何在一类相似或相近的数据仓库项目中发现其共同特征、知识和需求,使得ETL过程可以在这些数据仓库项目中被反复使用,大幅度提高实现ETL过程的效率,从而提高数据仓库构建的效率,研究该问题具有一定理论意义及实用价值。
基于此,这里研究了基于构件的思想,设计并实现了可重用的ETL架构,经北京银联、江苏银联、浙江银联筹10家银联省级分公司的数据仓库项目实际应用,表明该架构是有效的。
1 基于可复用构件思想的ETL架构设计
1.1 设计思想
基于构件技术的软件复用提倡以已有的工作为基础,充分利用过去工作中积累的知识和经验,将已经辨识的具有相对独立功能的构件应用于新系统的开发,保证新系统开发的过程中,能够将重点集中于辨识和实现应用系统特有的构成成分,最终缩短系统开发周期,提高系统的质量。
基于构件技术的软件复用的核心思想包括如下几个方面:
(1)构件化设计。通过系统地分析一类相似或相近的数据仓库项目,识别出其共同特征和可变特征,并对这些特征进行抽象,形成领域分析模型,并据此进一步识别出可复用的构件。
(2)层次化设计。层次化设计可以提高系统的可扩展性和可维护性。通过层次化设计可以将所有识别的构件按一定的规则(如抽象级别、处理对象和处理的功能)分类管理,然后以分层的形式来组织,进而确定不同层构件之间的交互方式,保证每个构件的变化只涉及它的邻近两层的相关构件,实现系统一定程度上的开放性。
(3)接口化设计。不同层次的构件之间需要沟通,沟通需要规范,通过规范的接口可实现构件之间沟通的规范化。接口只制定规范,具体实现交由构件内部完成。接口化设计将构件的差异放到实现阶段,而不是在设计阶段,使得设计阶段可以致力于软件架构设计的完整性和复用性,使得不同系统之间处理的差异通过替换构件而无需变动架构就可得到解决。
相关文章
- 2022-05-10基于CPLD的直流无刷电机驱动电路设计
- 2023-04-12高精度光刻物镜的变形研究
- 2023-01-09基于工作流的装配车间可配置制造执行系统
- 2023-08-09微机控制曲轴疲劳试验台的研发
- 2023-03-06工业自动化仪表的使用



请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。