ITPub博客

首页 > Linux操作系统 > Linux操作系统 > Kimball Design Tip #1: “点击流”数据集市构建方法

Kimball Design Tip #1: “点击流”数据集市构建方法

原创 Linux操作系统 作者:sunnycoder 时间:2009-07-06 23:16:38 0 删除 编辑

原文名: Guidelines For An Expressive Clickstream Data Mart

 

“点击流”是指web服务器收集的网页动作的记录集合。在原始数据源中,每次点击都会对应一条记录,对用户的操作做最详细的记录。

“点击流”数据量是非常大的,即使是中等的商务网站每天也会产生上亿条记录,我们必须压缩数据量,但又需要满足大部分的业务分析报告。这篇文章会给您一个方法,让我们不再在上亿条记录中爬行,又能在一个有用的粒度上分析访问者的行为。

在“点击流”源数据中,我们可以很容易的找到下面这些维度:日期、时间、访问者、访问的页面、引用页面、动作(POST, GET)

点击动作事实表推荐的粒度是:一条事实表记录 = 一个访问者的Session

如果每个Session平均有20个网页动作的话,我们前面例子提到的每天一亿条记录就被减少到500万每天,这个数量级对大部分中型的数据仓库是适用的。

事实表的维度属性建议如下:

1.      服务器日期(服务器日期)

2.      服务器时间(Session开始时间距离0点的秒数)

3.      访问者日期(访问者机器时间)

4.      访问者ID(匿名访问就是’Visitor’,注册用于使用账号)

5.      开始页面,访问者这个Session访问的第一个界面

6.      结束页面,这个Session访问的最有一个界面

7.      连接页面,访问者从哪里链接到本站(如果有的话)

8.      Session描述,什么类型的

推荐建立以下的计量属性:

1.      访问的页面个数

2.      总停留时间

这个设计能够满足对访问者行为的分析描述,它最重要的维度是“Session描述”,你必须设计一个强大的ETL过程根据页面活动顺序生成各种类型的“Session描述”。

  可以访问 www.intelligententerprise.com/990501/warehouse.shtml 下载免费的文章了解这方面更多的内容。(这文章已经没啦,别点击啦!9年对于网络也算是“沧海桑田”la

  我会在2000 一月份写一篇详细描述“Session描述”维度的文章。

作者:Kimball  译者:小马  nk_phenomenon@hotmail.com  (转载请注明出处) 

原文地址:http://ralph12.securesites.net/html/designtipsPDF/DesignTips2000%20/KimballDT1GuidelinesFor.pdf

(翻译的烂 见教)  

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/7300481/viewspace-608463/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 在这里安家啦
下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2009-03-28

  • 博文量
    3
  • 访问量
    2333