ITPub博客

首页 > Linux操作系统 > Linux操作系统 > ETL架构师面试题

ETL架构师面试题

原创 Linux操作系统 作者:ceo_lxy 时间:2011-03-21 16:21:54 0 删除 编辑

本部分的题目来自KimballETL Toolkit著作,原著未直接给出答案。这里的中文题目和答案是我参考其原著按自己的理解整理而来的,仅供参考。对于其中不确切的地方,欢迎大家一起沟通。有兴趣的朋友可以直接阅读原著。

分析

1什么是逻辑数据映射?它对ETL项目组的作用是什么?

2在数据仓库项目中,数据探索阶段的主要目的是什么?

3如何确定起始来源数据?

架构

4ETL程中四个基本的过程分别是什么?

5在数据准备区中允许使用的数据结构有哪些?各有什么优缺点?

6简述ETL过程中哪个步骤应该出于安全的考虑将数据写到磁盘上?

抽取

7简述异构数据源中的数据抽取技术。

8ERP源系统中抽取数据最好的方法是什么?

9简述直接连接数据库和使用ODBC连接数据库进行通讯的优缺点。

10简述出三种变化数据捕获技术及其优缺点。

数据质量

11数据质量检查的四大类是什么?为每类提供一种实现技术。

12简述应该在ETL的哪个步骤来实现概况分析?

13ETL项目中的数据质量部分核心的交付物有那些?

14如何来量化数据仓库中的数据质量?

建立映射

15什么是代理键?简述代理键替换管道如何工作。

16为什么在ETL的过程中需要对日期进行特殊处理?

17简述对一致性维度的三种基本的交付步骤。

18简述三种基本事实表,并说明ETL的过程中如何处理它们。

19简述桥接表是如何将维度表和事实表进行关联的?

20迟到的数据对事实表和维度表有什么影响?怎样来处理这个问题?

元数据

21举例说明各种ETL过程中的元数据。

22简述获取操作型元数据的方法。

23简述共享业务元数据和技术元数据的方法。

优化/操作

24简述数据仓库中的表的基本类型,以及为了保证引用完整性该以什么样的顺序对它们进行加载。

25简述ETL技术支持工作的四个级别的特点。

26如果ETL进程运行较慢,需要分哪几步去找到ETL系统的瓶颈问题。

27简述如何评估大型ETL数据加载时间。

实时ETL

28简述在架构实时ETL时的可以选择的架构部件。

29简述几种不同的实时ETL实现方法以及它们的适用范围。

30简述实时ETL的一些难点及其实现方法。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/12122734/viewspace-690081/,如需转载,请注明出处,否则将追究法律责任。

下一篇: Mark
请登录后发表评论 登录
全部评论

注册时间:2008-06-02

  • 博文量
    519
  • 访问量
    495450