ITPub博客

首页 > 大数据 > 数据分析 > Greenplum 数据分布黄金法则 - 论分布列与分区的选择

Greenplum 数据分布黄金法则 - 论分布列与分区的选择

数据分析 作者:renjixinchina 时间:2016-11-28 16:10:21 0 删除 编辑

摘要: 背景 阿里云ApsaraDB for Greenplum公测以来,已经收到好多用户的公测申请。 要使用Greenplum,登陆到数据库后第一件事当然是建表,然后倒入数据开测。 大部分用户以前是使用MySQL的,并没有接触过Greenplum,语法需要适应一下。 例如MySQL中的

背景

阿里云ApsaraDB for Greenplum公测以来,已经收到好多用户的公测申请。

要使用Greenplum,登陆到数据库后第一件事当然是建表,然后倒入数据开测。

大部分用户以前是使用MySQL的,并没有接触过Greenplum,语法需要适应一下。

例如MySQL中的建表语句

DROP TABLE IF EXISTS `ab01`; CREATE TABLE `ab01` ( `aab001` bigint(10) NOT NULL , `aab007` varchar(50) DEFAULT NULL , `aab008` decimal(14,0) DEFAULT NULL , `create_time` datetime NOT NULL , `deleteedflag` bit(1) DEFAULT b'0' ,
  PRIMARY KEY (`aab001`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 ; 

在Greenplum中可以写成

DROP TABLE IF EXISTS ab01; CREATE TABLE ab01 (
  aab001 int8 NOT NULL ,
  aab007 varchar(50) DEFAULT NULL ,
  aab008 decimal(14,0) DEFAULT NULL , -- 长度 <=15 的decimal建议替换成float8, 运算效率比decimal高 create_time timestamp(0) NOT NULL ,
  deleteedflag bit(1) DEFAULT b'0' ,
  PRIMARY KEY (aab001)
) ; 

Greenplum完整的建表语法参考本文末尾。

分布列选择黄金法则

由于Greenplum是一个分布式的数据库,数据是分散存储在各个数据节点的,所以需要告诉Greenplum数据应该如何分布。

短板效应

当用户请求QUERY时,Greenplum会在所有的节点并行执行,所以最慢的节点会成为整个系统的瓶颈。

Greenplum 支持的分布算法 :

用户可以指定 分布列(允许指定多个列) ,或者使用 随机分布 算法。

那么用户应该如何选择分布列,或者是否要使用随机分布算法呢?

总结起来,需要考虑以下几点

  • JOIN
    当JOIN的列都是分布列时,不需要重分布或广播小表,可以在segment内完成JOIN。
    screenshot
    两个表在JOIN时,如果JOIN列不是表的分布列,那么其中一个更小的表会发生数据重分布,或者broadcast,以继续完成JOIN的动作。
    例如a和b都是随机分布的,在JOIN时,要么广播小表,要么两个表都根据JOIN 列重分布。
    screenshot
    例如a和b,其中a是JOIN列分布,b不是,那么b可以选择广播,或者重分布。
    screenshot
    重分布或广播的动作都是自动完成的,但是这样一定会带来额外的网络开销。

    想象一下,如果你的QUERY并发很高,而且大量的QUERY中涉及到JOIN的数据重分布或broadcast的话,网络很快就会成为瓶颈。

    法则1,分布列尽量选择需要经常JOIN的列,这类查询的并发越高,越应该考虑。

  • 防止数据倾斜
    Greenplum依据指定的分布列,hash取模存放到对应的segment中。

    如果选择的分布列值分布不均匀,就可能导致数据倾斜,某些segment可能非常大,而某些segment非常小。

    数据倾斜的显著危害,1. 空间不均匀,不好规划存储。2. 数据分布过多的节点,容易成为整个系统的短板。

    法则2,尽量选择分布均匀的列,或者多列

  • 高并发查询,选择性好
    如果数据经常被高并发的键值或离散查询,建议将查询条件的列作为分布列,这样不需要连接到所有的segment去查,可以大大提高并发能力。

    例子

    aa01 的分布列是aaz499

    查询分布列时,定位到一个segment查询

    postgres=# explain analyze select * from aa01 where aaz499=1; QUERY PLAN ---------------------------------------------------------------------------------- Gather Motion 1:1 (slice1; segments: 1)  (cost=0.00..120.00 rows=1 width=1973)
    Rows out: 0 rows at destination with 1.352 ms to end, start offset by 144 ms.
    ->  Seq Scan on aa01 (cost=0.00..120.00 rows=1 width=1973)
         Filter: aaz499 = 1 Rows out: 0 rows with 0.031 ms to end, start offset by 145 ms.
    Slice statistics:
    (slice0)    Executor memory: 330K bytes.
    (slice1)    Executor memory: 176K bytes (seg10).
    Statement statistics:
    Memory used: 128000K bytes Optimizer status: legacy query optimizer
    Total runtime: 145.822 ms
    (12 rows) 

    查询非分布列,需要所有的segment参与查询

    postgres=# explain analyze select * from aa01 where cae007='t'; QUERY PLAN ------------------------------------------------------------------------------------ Gather Motion 16:1 (slice1; segments: 16)  (cost=0.00..120.00 rows=2 width=1973)
    Rows out: 0 rows at destination with 2.001 ms to end, start offset by 146 ms.
    ->  Seq Scan on aa01 (cost=0.00..120.00 rows=1 width=1973)
         Filter: cae007::text = 't'::text Rows out: 0 rows (seg0) with 0.047 ms to end, start offset by 147 ms.
    Slice statistics:
    (slice0)    Executor memory: 330K bytes.
    (slice1)    Executor memory: 176K bytes avg x 16 workers, 176K bytes max (seg0).
    Statement statistics:
    Memory used: 128000K bytes Optimizer status: legacy query optimizer
    Total runtime: 147.813 ms
    (12 rows) 

    法则3,尽量选择高并发查询的条件列(指该查询条件产生的中间结果集小的,如果中间结果集很大,那就让所有节点都来参与运算更好,因此不选),如果有多个条件,请先权衡前面的法则

    法则4,不要轻易使用随机分布

分区黄金法则

目前Greenplum支持LIST和RANGE两种分区类型。

分区的目的是尽可能的缩小QUERY需要扫描的数据量,因此必须和查询条件相关联。

法则1,尽量选择和查询条件相关的字段,缩小QUERY需要扫描的数据

法则2,当有多个查询条件时,可以使用子分区,进一步缩小需要扫描的数据

例子,一个用户发起了带两个查询条件col1=xx and col2 between ?1 and ?2 的请求,通过分区,如果表已经根据col1进行了LIST分区,同时根据col2进行了range的分区,那么查询范围可以大大的缩小。
screenshot

小结

  • 分布列选择法则
    原则,避免短板效应。

    法则1,分布列尽量选择需要经常JOIN的列,这类查询的并发越高,越应该考虑。

    法则2,尽量选择分布均匀的列,或者多列

    法则3,尽量选择高并发查询的条件列(指该查询条件产生的中间结果集小的,如果中间结果集很大,那就让所有节点都来参与运算更好,因此不选),如果有多个条件,请先权衡前面的法则

    法则4,不要轻易使用随机分布

  • 分区法则
    原则,缩小查询范围。

    法则1,尽量选择和查询条件相关的字段,缩小QUERY需要扫描的数据

    法则2,当有多个查询条件时,可以使用子分区,进一步缩小需要扫描的数据
    原文地址:https://yq.aliyun.com/articles/57822

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/15747463/viewspace-2129229/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2011-01-30

  • 博文量
    373
  • 访问量
    2056601