ITPub博客

首页 > 数据治理 > 数据治理 > 数据分析中的数据源连接与基础操作

数据分析中的数据源连接与基础操作

原创 数据治理 作者:clarance 时间:2020-09-18 14:34:20 0 删除 编辑

第三章 连接数据源

3.1 连接本地文件

打开DataFocus系统,点击左侧数据管理,然后点击右侧操作按钮,点击导入数据。可导入本地CSV、TXT、XLS、XLSX以及JSON等本地数据文件。选中后点击上传,并确认行列属性是否正确。若行列属性不正确(如数值保留了字符串格式未转化为数值格式),则无法进行可视化分析。适用于一些本地已有文件(如一些店铺数据或是自录数据表)的分析,或是一些未购买数据库的企业。

图3-1

3.2 连接数据库

点击左侧数据管理模块,点击上方数据源按钮,点击右侧新建数据源,可点击直连数据和导入数据。需要注意的是,导入数据为数据导入到DataFocus自带大数据仓库,直连数据为直接抽取服务器数据进行分析。若是操作大量分析,建议使用导入数据,DataFocus数据仓库性能可保障分析顺畅,否则直连数据分析则依靠对方设备的性能。数据导入后,可点击上方“开始”则可进行导入,列表可查看导入状态。

导入数据支持定时更新,更新频率一般为每天、每周、每月。直连数据可支持实时更新,数据库中数据有变化,DataFocus中直连的这些表,以及依赖这些表制作的报表等也都能实时更新。

图3-2

图3-3

第四章 DataFocus基础操作

4.1 列名搜索

打开DataFocus系统,点击左上方选择数据源按钮,进行数据选择。

图4-1-1

选择需要操作的数据表,并点击右上角“确定”按钮。一般新导入的数据表会显示在靠前的位置。

图4-1-2

双击左侧列名即可进行组合分析,根据业务需要选择需要分析的列名即可。不需要分析的列名可点击搜索框的“x”按钮,删除此列名。此方法是最为简便的搜索方法,双击搜索即分析,尤其是一些列名规范的数据表,如“产品名称”、“销售金额”等写明确的数据表,则能快速进行分析,双击两个列名即可出现每个产品的销售金额情况。

图4-1-3

并且,可点击右侧图形转换按钮进行图形转换,比如需求变更为看趋势,可将柱形图转换为折线图。可变换的图形主要分为基础图形和高级图形,基础图形有柱状图、折线图、面积图、条形图、堆积柱状图、饼图、环形图、散点图、气泡图、堆积条形图、漏斗图、帕累托图、KPI指标、仪表图、雷达图、位置图、数据透视表以及组合图。高级图形有树形图、瀑布图、旭日图、打包图、箱型图、词云图、弦图、桑基图、平行图、时序柱状图、时序条形图、时序散点图、时序气泡图、经纬图、泾渭气泡图、热力图和统计图。具体可在DataFocus系统中进行体验。

4.2 关键词搜索

关键词搜索,即为在搜索框输入一些关键词进行搜索分析,主要分为以下类型:

1)时间日期关键词搜索分析:

每年/每季度/每月 销售金额

按月统计 销售金额

2018(具体年份)销售金额—>2018 销售金额 9月(加上具体月份)

按周日期统计 销售金额

周三(具体周几) 销售金额

在"2018/04/06" 和"2018/05/31" 之间的销售金额

环比:按 订单日期 计算的 销售金额的总和 的月/季度/周/年增长率

同比:按 订单日期 计算的 销售金额的总和 的月/季度/周/年增长率

图4-2-1

图4-2-2

2)排序关键词搜索分析

排名前X的 销售金额 的总和 产品名称

产品名称 排名后X的销售金额 的总和

按销售金额 的总和 降序/升序排列的 产品名称

图4-2-3

图4-2-4

 

3)字符串关键词搜索分析

产品名称包含/不包含“XX” 销售金额

姓名开头是/开头不是“X” 销售金额

图4-2-5

4)分组统计关键词搜索分析

按 销售金额 分组统计的

按 销售金额 分X组统计的

按 销售金额 分组间隔为X统计的

图4-2-6

5)vs关键词搜索

时间vs:去年vs今年销售金额、8月vs9月销售金额、2016vs2017销售金额

同属性不同值vs:'杭州西溪印象城'vs'杭州城西银泰店' 销售金额、”华东”vs”华南” 销售数量

多数值列vs:去年vs今年销售额,目标额,完成率

'(列中值)'vs'(列中值)'销售数量,毛利,利润,成本

'华东'vs'华南'vs'东北' 销售数量,销售金额

图4-2-7

6)关键词复合搜索

某年多月环比对比:

按 订单日期 计算的 销售金额的总和 的月/季度/年/周/日增长率 九月vs十月 2016

某月多年同比对比:

按 订单日期 计算的 销售金额的总和 的月/季度/年/周/日增长率与往年同期相比 九月

多层次排名统计:

按区域统计 排名前3的销售金额的总和 产品名称

多年每月对比:

按月统计 2016 vs2017销售金额

图4-2-8

4.3 筛选钻取

数据钻取:搜索出图表之后,右击图表,点击向上或向下钻取,选择钻取字段,即可钻取数据。

图4-3-1

数据筛选:点击左侧或下方坐标轴名称,即可进行筛选。选择需要的数据维度,点击完成即可。还可以通过按住鼠标左键,框取数据图进行筛选。比如只需要查看某些数据维度或是集中分析的时候。

图4-3-2

图4-3-3

4.4 公式应用

公式模块是数据分析系统的核心模块之一,用于进行字段的数据处理,DataFocus包含了绝大部分的excel函数,可以涵盖工作中几乎全部的使用场景,并设计了公式辅助功能,免除用户去记忆繁多的公式函数,仅需要点出辅助框,按分类索引引用即可,如下图4.4.1所示。将鼠标移至对应函数上,还可以看到该函数的说明和使用样例,方便快速理解和准确使用函数。点击函数可以将该函数立即加入搜索框,保证用户书写效率。

图 4.4.1 公式辅助

公式模块也配备了和搜索相似的智能输入提示功能,在书写的同时,补全函数并提示可作为参数的数据列,提高公式书写的准确度和效率。

下面来给大家逐一进行介绍各类公式函数与用法。

4.4.1聚合函数

聚合函数包括了八种基本聚合方式和累积、分组、范围等四种条件聚合函数。八种基本聚合方式分别为平均值(average)、计数(count)、最大值(max)、最小值(min)、标准差(stddev)、总和(sum)、方差(variance)、唯一计数(unique_count)。

其中属性列在有聚合情况下,仅支持计数(count)、去重计数(unique_count)两种聚合方式。系统默认数值列的聚合方式为总和,属性列无聚合方式。用户可以在搜索同时在搜索框内直接限定数据列的聚合方式,也可以在数据管理的对应数据表详情中修改默认聚合方式。在公式计算时,遇到需要修改聚合方式的情况,就可以使用聚合函数直接进行修改,比如数据表中有销售额、销售数量、价格三个数值列(默认均为总和聚合方式),我想查看单个产品实际销售价格(即“销售额/销售数量”)和价格的差值,即单品的每件销售利润,这里就需要对“销售额/销售数量”进行聚合修改如图4.4.2,否则会出现错误如图4.4.3。

图 4.4.2 对计算结果进行聚合修改

图 4.4.3 错误示范

所以用户在进行数据分析时,要关注数据的聚合方式,确保数据准确性,并且善用聚合函数来对聚合方式进行灵活的转化。

4.4.2 字符串函数

字符串函数用于对字符进行连接、剪切、匹配等操作,让我们可以将几个零散的字符列拼接成完整易用的一个字符列,或者是从一个长串字符列中截取到我们需要的部分。我们在收集用户的使用反馈过程中,发现DataFocus用户最常用字符串函数去处理收集原始数据文件里不规范的时间信息,通过处理变成标准易用的日期时间列来进行下一步的时间维度搜索分析,就如下图4.4.4所示的,将零散的年月信息合成成日期列。

图 4.4.4 字符串拼接

4.4.3数字函数

数字函数是公式中间最基础也是使用最广泛的一类,用于对数值进行计算,如加减乘除、三角运算、多次乘方、绝对值、取整等等,还有一些复杂运算,包含了excel中的所有数学和三角函数,以及部分的统计函数,满足各种数值计算需求。

这一部分相信在座做数据分析都经常用到,去计算各种财务数据或者运营指标等等。那下图4.4.5中使用一个简单的例子来进行演示。

已知每种货品的销售额和利润,求该类货品的销售成本。

图 4.4.5 用数字函数计算数值

4.4.4 类型转换函数

类型转换函数用于对数据类型进行转换,系统支持转化为五种,分别是布尔型、日期型、浮点型、整数型和字符型。

在业务中,用户可以将数值型的数据列转化为字符型,然后作为属性列进行搜索;也可以转化数据列的数据类型作为参数在公式中调用;比较常用还有将不规范的日期数据通过字符串重组成规范的日期组成,再用’to_date’日期类型转换函数转换为日期列,进行各种日期关键词的搜索。

比如像下图中这样一个非常复杂不规范的日期形式,我们就可以通过字符串函数加上日期类型转换函数整理成正常、易用的日期数据列来使用,如下图4.4.6。

最终使用效果如图4.4.7.

图 4.4.6 日期类型转换

图 4.4.7 转换完成的时间列

还有各种应用场景,都可以根据需求灵活使用,也可以结合其他的函数进行嵌套使用。

4.4.5 逻辑函数

逻辑函数用于进行逻辑判定和逻辑运算。独立使用比较少见,多用于和其他函数结合,在判断条件中调用。

其中的‘if…then…else’函数常用于进行特殊分组分群,比如下图4.4.8中利用该函数进行用户分群,将会员按消费特征分为四个群体,就是很常见的应用场景。

图 4.4.8 分群操作

4.4.6 混合函数

混合函数是用于对数值比较进行判断的函数,主要分两种,一种是判断两个值的关系,如‘<’‘>=’‘!=’等,根据判断结果返回true或false;第二种是判断两个值的大小,返回较大/较小的一个值。该函数常用于和其他函数一起使用,作为参数被调用,或者单独作为比较返回较大/较小值使用。比如,在上一节的分群公式中(图4.4.8)作为if的条件使用。

4.4.7 时间日期函数

时间日期函数是针对时间列的函数,可以对时间列进行各种统计、计算。比如,你可以计算某一时间日期是周内的星期几,是否是周末,是几月、第几个季度等等;也可以计算一整列中的每一天距离某一个日期的天数,这种在计算用户活跃度中的最近一次上线间隔天数这种指标非常方便;也可以计算该日期的年份、月份、季度数目。

如图4.4.9所示,计算日期对应的年月份。

图 4.4.9 计算年月

4.4.8 公式嵌套

在实际业务场景中,常常遇到使用某个之前创建过的公式的情况,如果再输入一遍会导致公式逻辑比较复杂,这里就需要用到公式嵌套功能了。顾名思义,公式嵌套就是在当前正在创建的公式中使用之前创建过的公式,还是非常常见的。

DataFocus系统除了极为稀少的一些场景为了避免数据错误,比如对含有计数(count)聚合或唯一计数(unique_count)聚合的公式进行再聚合的场景,正常的公式嵌套都是可以使用的,公式中的智能提示也会将之前的公式纳入补全选择。

这里我们继续使用4.4.1中的场景进行示范。

数据表中有销售额、销售数量、价格三个数值列(默认均为总和聚合方式),我想查看单个产品实际销售价格(即“销售额/销售数量”)和价格的差值,即单品的每件销售利润。这里之前已经创建了一个销售价格公式,计算了单个产品的实际销售价格如图4.4.2所示,接下来我们要调用这个销售价格公式来进行单品的每件销售利润的计算,如图4.4.10。

图 4.4.10 公式嵌套

图 4.4.11 单品销售利润计算结果

4.5 多表查询

在实际业务中,我们常常需要从不同的多个表里调取字段进行数据分析,所以跨表多表查询是非常重要的功能。

跨表查询的前提是所需表之间有相应的关联关系。DataFocus可以在数据管理页面的表详情页中进行关联关系的建立,我们在数据表的关联关系页面,点击添加关联即可以当前表作为主表开始进行关联关系的配置,如图4.5.1所示,用户需要选择关联的数据表,选择连接类型(内连接、左连接、右连接),最后确认两表之间的关联列(可多个)即可。当然,你可以对某张表创建多个关联关系,只要符合关联关系不闭环的条件即可。

关联关系创建完毕并生效后,会在对应表的名称上显示对应的红色箭头,向下表明该表在关联关系中作为主表存在,向上为从表,双向箭头则即为主表也为另一张表的从表存在于多个关联关系中。并在表的关联关系页面中显示相应的视图,如图4.5.2,这张销售记录表就有着两个关联关系,分别是产品信息表(内连接,关联列为产品码)和时间码表(内连接,关联列为周ID)。

图 4.5.1 关联关系配置页

图 4.5.2 关联关系视图

当按照分析需求正确地建立了多表间的关联关系后就可以在搜索页面,或者中间表页面,作为数据源进行多表查询了,如图4.5.3所示。

图 4.5.3 多表查询

4.6 中间表应用

中间表是DataFocus系统进行复杂数据处理的主要方法,有两种不同的中间表创建方式。

第一种是在搜索时进行中间表的创立,比如我在搜索过程中对数据进行了分析整理和计算,最终得到一张图表如图4.6.1所示,并且想将这张表的数据保存下来做进一步的分析,就可以直接在搜索页面的操作项中找到‘保存为中间表’,将当前表的数据保存为中间表。

图 4.6.1 搜索中间表

中间表的创建需要一定的时间,进入道数据管理页面时,可以看到在创建过程中的中间表会显示为灰色不可用状态,并标明当前的创建进程,根据数据量和复杂度的不同等待时间不同。等中间表创建完成后,就会变回黑色可用状态,并且可以作为一张表类型为搜索中间表的一般数据表在数据源中选择使用。

第二种方式是在数据管理页面的操作项中点击‘创建中间表’,进入一个和搜索页面相似的中间表创建页面,如图4.6.2所示。这里和搜索页面一样可以选择数据源、使用公式和选择数据源中的各个字段。我们点击需要加入的字段和创建公式加入,来构建所需要的中间表,完成以后保存,就可以像搜索创建中间表时一样在数据管理页面找到它了,不同之处在于表类型为关联中间表。

图 4.6.2 关联中间表

那么你可能要问了,这两种表为什么有着不同的表类型,除了操作不同,他们有什么本质的不同呢?

DataFocus系统在搜索分析时是会对数据进行聚合的,就比如我的数据源表中有两条名称相同的商品的销售记录,有着不同的两个销售数量了,当我只按商品名称进行搜索分析时,出现的数据结果是一条商品记录,销售数量为数据源表中两条记录的销售数量的总和,这里发生了一次聚合。而关联中间表创建过程中是没有聚合的,就依然还是两条记录。




来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/69984113/viewspace-2722252/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 没有了~
下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2020-09-18

  • 博文量
    1
  • 访问量
    367