ITPub博客

首页 > 大数据 > 数据分析 > 【些些书情】《深入浅出数据分析》

【些些书情】《深入浅出数据分析》

数据分析 作者:wangsailor 时间:2014-02-14 20:55:19 0 删除 编辑
Micheal Milton著  李芳译  电子工业出版社2010.9

最近一段时间一直在看数据分析相关的书籍,也很幸运地遇见了这三本书《你早该这么玩Excel》《谁说菜鸟不会数据分析》《深入浅出数据分析》。三本书的风格和重点各不相同,第一本侧重于巧妙地使用Excel这个工具,第二本侧重于在数据分析理论的基础上进行基本运用,第三本则是从案例的鲜活角度对一些数据分析方法和思路进行运用展示。感觉像是三部曲,让我从工具到理论到运用依次过了一遍,对数据分析有了一个初步的清晰认识。接下来就是要在工作实践中对这些领悟进行练习,不然就无法将知识变现了。

按照本书的案例顺序,进行笔记整理。阅读这本书就好像和一位导师对话一样,作者的语言是对话式的,所以比较容易受到启发。另外,对于案例的解决也是循序渐进,你能够清楚地知道为什么选择这种思路,以及在不同情况下,该如何进行思路的修改。

一、准备工作
确定问题↓
graphic
数据分析的目的是由客户决定的。但客户提出的需求可能太过笼统,需要进行二次提问和问题分解。可以是对业务内容提问,也可以是对已有数据提问。在这里,客户并不是无所不知的上帝!
对于客户的了解,有利于之后数据分析的着力点分配,找到你的导航地图。

分解↓
graphic
通过数据来透视一家公司的业务开展情况

评估↓

决策

二、保湿霜案例
心智模型
graphic
graphic
心智模型是外界的棱镜,不同的心智模型看到的是不同的世界。一种理解世界的观点。
所以,心智模型,又或者说是数据分析的方法论?

心智模型是有缺陷的,客户的心智模型也是有缺陷的,所以要询问客户所知的不确定因素,看客户的缺陷在哪里。
graphic

通过对更多信息的搜集,发现客户的看法是片面的。他认为保湿霜的主要受众是少女,但其实一些男士也是受众群体,因而可以在后期销售中单独增加这部分的广告;另外,他认为销售放缓是广告不力,实际上是少女市场已经饱和,因而可以减少一部分广告支出,因为受众不需要再被教育了。
信息源要全面,不要单一,不要迷信客户,学会怀疑!

三、星巴仕咖啡案例
观察研究法
星巴士对门店的销售数据进行分析,发现销量下降,想请数据分析师提供解决方案。
graphic
graphic观察研究法中的相关关系是一种假设,学会假设!
graphic

graphic
在整个的问卷分析中,人们反映咖啡价值下降,这是个平均值的表现,可能原因是经济衰退导致人们收入变少,星巴仕咖啡变得更贵了;但 SOHO富人区的咖啡店员却表示不存在这种问题,因为他们的收入不受经济衰退的影响。 因而观察研究法中要考虑到平均样本所掩盖下的特殊样本,即混杂因素的影响。学会怀疑平均值的假象!
所以,在这里要根据“地区”这个混杂因素来列出不同地区的情况,重新审视现状。

现在有两种解决方案:一是进行降价,二是进行宣传,说服消费者他们的咖啡具有价值
CEO选择第一种,并在二月份集体降价,他想知道这种方式让他多赚了多少,但实际上算不出来,因为二月份不降价的销量人们无法预估。他们在这个情况中,没有设置参照组。
第二选择就是和历史一月份数据进行比较,严格上来说是不准确的,历史比较法倾向于检验对象的成功方面,在这个案例中,我们发现二月的销量大于一月,所以在历史比较中,降价是成功的。
对于一种做法的真正比较,不是做与不做的历史比较,而是在同一时空下,已做和未做的参照比较。时间也是一个变量!学会找参照,同期控制法>历史控制法!

graphic
那就开始进行试验吧!如何进行控制组和实验组的划分呢?
按照国家? 这个区域划分太大了,除了价格因素外,可能还会被天气、经济等因素影响。
按照单价店?这个区域划分太小了,可能人们为了买便宜咖啡而跑过几条街。
所以可以按照一定范围内的小区域来进行划分。
graphic
不需要把所有干扰因素都剔除干净,若两组都具有相同程度的同样干扰因素,则也是可以的。

四、浴盆宝案例
最大化问题
浴盆宝公司有一定的橡胶供应,希望在以往的橡皮鸭和橡皮鱼销量的基础上,进行推测两者最合适的生产规模分别是多少,以产生最大利润。
graphic
每一个最优化问题都可以有一个目标函数来表示。
除了目标函数,便是对于可控变量的约束条件(不可控因素),在这个案例中可以用图来表示。
graphic
阴影区域便是变量 X&Y可以取的组合数。
这个函数问题可以用 excel中的solver 来解决
graphic
graphic

graphic
以上的模型是最理想的情况,假设所有鸭和鱼都会有人购买。所以这个模型还需要建立在具体情况上面。
根据以往的销售数据,预估下个月的鱼和鸭的销量,作为最优化模型的另一个约束条件。
尤其在使用模型时,学会需要分清理想状况和现实状况!
graphic

五、新军队网站建设案例
正确地使用图形表示数据,散点图
该网站需要对各个方案的网页设计进行效果分析。
graphic看到简洁图表  炫目图表的时候,都要带着好奇的眼光,询问自己,这个背后反映的是什么意思?学会对图表形状&意义 和 数据意义 敏感!

搞清楚客户的了解需求,在进行数据的比较和展现,而不是用炫目图形罗列出已有数据。

graphic
在研究变量之间的关系时,可运用散点图。
graphic
但在更多的情况下,变量不只一个,因而需要将图多元化。
一种是进行多图绘制。自变量:销售额;因变量:浏览时间、回返率等。

graphic
从这几个图中可以看出网页的表现优劣。

graphic

graphic
通过上面多元化变量图的分析,得出主页 3是胜者。但客户要了解的更多,他想知道为什么主页 3最好,因为加载速度?色调?等等。也就是说要再挖一层,看看主页 3吸引人的具体原因。这个需要向设计师拿到具体设计的信息,然后做假设。比如主页3的加载速度快,所以好。但实际情况是,主页 2的加载速度最快,所以这个原因假设不成立。反之,成立。学会作假设,和验证假设!


六、电肤公司案例
证伪法使用、证据诊断法
电肤要根据 Podphone的新品发布时间来设计皮肤,需要预测新品发布时间。
这里的数据不仅仅指的是数字,更包括信息。

graphic
直觉是一种线性因果,而现实情况是一种网络因果。
根据掌握的证据  变量网络关系网   来对假设进行证伪。
graphic
graphic
对podphone公司的新品发布影响因素进行网络因果分析,来推测。

graphic

通过用所持信息,可以直接除掉 2个假设,还有3个假设。
采用证据来诊断这三个假设,然后将这三个假设按照证据支持从强到弱陈列给客户,再怎么说这些都是假设,而不是论断,所以不能单独呈现一个可能性最大的假设。
graphic
graphic
graphic
当一个证据对所有假设都有效时,则这个证据是没有诊断性的,没有区分性,只有当这个证据可以引起对假设的甄别时,才有诊断性。

graphic
其余三个假设,用证据诊断法进行诊断,按照可能性大小进行排列。

七、患蜥蜴流感
贝叶斯法则
概率分析
第一项医学实验,你的检验结果为阳性,想知道检验结果为阳性时,患病概率是多少。这个医学实验的概率如下,
graphic

条件概率表示方法:
graphic
graphic

也就是说,要算自己的检查结果为阳性的条件前提下,患病的概率。
等于,所有真阳性 /(所有真阳性+所有假阳性)
graphic
graphic
graphic

为了更进一步确认,做了第二项精确度更高的医学实验。
这时的基础概率便不是 1%了,而是第一项算出来的 9%,即经过一次试验后,在这个试验中的所有人患病的概率为 9%
graphic
然后再按照上面的步骤 结果为阴性患病的概率=假阴性 /(假阴性+ 真阴性)

graphic
贝叶斯法则可以在信息不断增加的基础上,进行概率计算。

八、背水投资公司
越南、俄罗斯、印尼等地的投资策略分歧
信念数字化 主观概率

graphic
信念数字化,也就是说把分歧中的概念含糊词用量化的方式来表达。也许某件事的发生概率在你们的意见中存在分歧,但实际上你认为不可能发生的概率为 45%,可能发生的概率为60%,实际上你们的分歧并不是很大。

将各个专家的意见进行量化,然后直观地通过散点图的描绘,可以看见,各个问题的分歧程度。
graphic

graphic
还可以用标准偏差函数,来计算各个论断的偏差程度,也就是分歧程度,然后将具有分歧的问题按照分歧程度进行由弱到强的排列。除了学会用平均值,还要学会用偏差(误差、分歧)!

但中途,出来一条新闻说,俄罗斯总统觉得石油业很没意思,要出售油田。在这种新证据出现的情况下,求分析 分析师新的主观概率。就是对于俄罗斯会不会继续投资石油业这一条的主观概率。一种方法当然是直接分分析师(我觉得还是可行的,但书中的说法是贝叶斯法更严谨),另一种本书中推崇的方法是用贝叶斯法,来算主观概率。
graphic
其中 P(H)P(~H) 是已经知道的,即第一次结果中得出的数据,可作为贝叶斯中的普遍概率存在。
P(E|H)P(~H)P(E|~H) 即在新闻下认为会继续投资的概率、在新闻下认为不会继续投资的概率,则需要重新获得分析师的主观概率。
这里有点奇怪,反正都是要向分析师重新要一遍数据的,为什么不直接要答案呢?
graphic

九、邋遢集的散乱垃圾测量问题
启发法,问题拆解分析
graphic

政府希望邋遢集可以提供证明他们垃圾减少的证据,一个方法就是去直接测量,但这个工作要花费赞助费用的两倍,不值得;这里使用启发法,
graphic

graphic
还是不太清楚启发法是啥玩意儿,按字面上来理解,是一种靠预估定性的方式来分析的方法。这里的话,就是从最开始的变量公众的环保意识到增加一个变量清洁工们眼中的垃圾现状进行分析。就是在这个情况的变量之中选择增加了另一个证据。
graphic
也就是一种思维流程的变化?从单纯地对民众垃圾观念的调查,增加了一项对清理工工作状态变化的调查,就是通过拆解这个行为,来增加另外的证据。
这个案例确实看得有点奇葩 ~~

十、要求加薪与否案例
直方图表现的内因分析
分析师根据以往的加薪数据,进行分析是否要进行要求加薪。
graphic
这里有一个高峰,以及在右边有一个低峰,这里想搞清楚为什么会有这两个峰。
有点迷惑,想知道是否加薪,只需要知道以往的加薪平均率,以及男性和女性区别,对于这两个峰的敏感好奇,确实没想到过。看起来大部分人都是在 5% 左右的加薪率,除了这个,进一步想,为什么 15%-20% 间还有一个小高峰?
所以根据数据组来进行解剖分析。 对于图形中的任意细节都要敏感!
graphic
graphic
graphic
也就是说,最开始的那个是所有人统计下的总体情况。要知道这个特殊的地方就需要按照不同组别再进行统计分析,看看问题出在哪个单元块,好似一场手术的解剖。
所以,从上面这个比较中可以看出,对这个峰起主要作用的是要求加薪和未要求加薪的区别,可以看到,要求加薪的人得到的回报比未要求加薪的人大,因而决定是要求加薪。
graphic
以上数据分析是在历史数据的基础上来预测证明这几个路径的不同结果。
这个案例说明数据分析师必须对图表敏感,对每一个细节充满好奇。

十一、开公司帮助别人最大化加薪案例
预测法
输入一个条件,预测一个结果,通过一个算法来算出这个结果。预测一般都需要建立一个模型,一个算法。
这个算法建立的基础当然是历史数据。从历史数据表现出来的关系来求得算法。
这里的历史数据就是以往的实际加薪率  要求加薪率。
graphic
这样两张直方图无法显示出之间的关系,那就用散点图来试试。横轴为要求加薪数,竖轴为实际加薪数。
graphic
根据这个图来试图算出两个变量之间的关系。
graphic
这里用回归线来表示他们之间的关系。
graphic
就是图上密集部分数据满足的关系。我觉得这里的回归关系并不明显,但本案例的预测算法就是建立在回归函数上的。回归函数,可以当作一种预测算法。

graphic
graphic
graphic
graphic

这个函数关系在本案例中是通过 R 程序计算出来的。
graphic
算出 a b ,就可以对输入的加薪要求进行计算,得出预测的实际加薪结果。
学会根据数据建模!

十二、加薪结果有些准确有些偏差
误差
对于一些实际加薪结果有些准确,有些有点偏差,但都可以在原来的图上画出散点位置,然而对于那些要加薪 25% 30% 的激进加薪者,则不在图里面。
graphic
也就是说,我们之前的回归方程是在一定范围内的预测方程,因而要对该假设进行条件限定。
假设的前提条件 不要忽略。
graphic
graphic
graphic
由于数据库里面的样本只在 0-22 之间,因而这一部分是有先例的,也就是说在前人的基础上是容易成功的,而 22 之外的是没有数据库记录的,也就是说是没有先例,是比较冒险的。

那么对于那些在图里面但是有误差的散点呢,如何解释这个误差?
graphic
graphic
在做回归分析的时候,要注意误差的存在。

graphic
graphic
graphic
graphic
graphic
graphic
graphic
但是客户还是嫌弃这个算出来的误差范围太大,要求缩小误差。根据图形,可以看到在 10% 之后的数据偏离误差的较多,这一部分的提薪要求比较大胆,老板的态度也难以预测;但在 10% 之前的误差还是在预测范围里面的。所以是不是可以把这两个进行分组成两个模型呢?
graphic
graphic
那我们可不可以根据散点来进行更多组的分割呢?分割越小,误差不也越小么?
graphic

十三、《数据邦新闻》的文章数量和明星作者分析
数据关联性 关系数据库的使用
数据邦编辑部把各种数据分成不同的表格进行记录,比如销量、文章数量、作者等等,其中一些表格的各个元素之间是有一定关系的,互相影响。
从不同的表格中提取有用元素,比如分析销量和文章数量的关系时,在子表格中对销量和文章数量进行提取,然后可以通过散点图的方式来观察关系。
graphic
可见 10 篇为最佳篇数
然而在数据多的时候,进行手动复制输入是痛苦的事情,所以可以使用关系数据库管理系统
graphic

graphic


十四、获取竞争对手的求职名单
整理数据
graphic
graphic
graphic


尾声
graphic

这本主要是以思想指导为主,至于其中的怎么建模、怎么用SQL是工具学习的事情,也就是说除了excel之外的工具学习。










<!-- 正文结束 -->

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/22980404/viewspace-1121487/,如需转载,请注明出处,否则将追究法律责任。

下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2009-12-06

最新文章