ITPub博客

首页 > 数据库 > 国内数据库 > GBase8a MPP Cluster 安装部署——硬件配置建议

GBase8a MPP Cluster 安装部署——硬件配置建议

原创 国内数据库 作者:GBASE南大通用 时间:2020-09-22 11:25:59 0 删除 编辑

明确数据库字符集

GBASE集群支持GBK、UTF-8、GB18030、UTF8MB4字符集,并在安装包制作时进行区分。需要在进行集群安装部署前确认数据库字符集设置,并申请对应版本。

Distribution配置建议

  • 虚拟rack要根据机器部署的实际机架位置进行考虑,保证虚拟rack划分后,主备分片不在同一个物理机架上,增加高可用性;

  • Pattern模式建议采用负载均衡模式;

Coordinate节点配置建议

  • 设备足够建议coordinate节点与GNode分离单独部署;

  • coordinate节点不需要配置很多,建议5或7个;

  • coordinate节点必须在同一网段;

数据分片及副本数配置建议

GBase集群建议单分片, 1主1备模式。

通过多分片和副本机制,可以保证在某节点故障后,故障节点的数据计算任务可以分散到多个计算节点,从而降低承载节点的计算压力,降低木桶效应。

分片数的选取通常权衡两个因素,分别是出现故障节点后木桶效应和无故障下的查询性能,考虑到分片数多后会在无故障情况下反而增大随机IO开销,造成一定的性能损失,通常建议选取1分片部署。  

副本数的选取通常权衡三个因素,分别是高可用、写操作性能和空间占用,副本数多少不会影响查询性能,但副本数多了会增加多副本的写入成本和空间占用,从而也会增加高可用的成本,综合工程经验建议选取1副本。

文件服务器配置建议

  • 可以单独规划服务器或者使用用户已有文件服务器;

  • 文件服务器个数需综合项目加载需求评估,加载性能取决于文件服务器出口带宽,理论上加载性能随数据文件服务器和GNode集群的节点线性提升;

通用磁盘存储空间计算规则

按照业务系统的数据量大小、压缩算法的选择、集群副本数的选择进行GBASE集群存储空间需求的计算。

业务系统数据量通常包括以下几个方面:

  • 历史数据量;

  • 增量周期及每周期的增量大小;

  • 数据存储周期,及全周期的数据总量;

  • 数据量增长率及存储空间预留;

充分考虑上述几个方面的情况,假设某业务系统的全周期的总数据量为 30TB。

GBASE集群物理磁盘容量的计算方法为:

最小磁盘空间需求 MDSR (Minimum Disk Space Requirements) = 总数据量×数据库及相关工作空间因子×副本选项因子×RAID因子×操作系统和文件系统因子×数据库压缩因子。其中:

  • 总数据量:(历史数据+增量数据)*(1+数据增长率),数据生命周期内假设总数据量估算值为30TB。

  • 数据库及相关工作空间因子:需要考虑系统缓冲区、工作空间、流水、次索引、临时表等因素。对于不同的应用而言,此因子要求不同,一般为1.2~2.0,即为100GB的用户数据空间保留20GB~100GB的数据库管理和工作空间。这里根据工程经验选取该因子的值为1.2。

  • 副本选项因子。副本是GBASE集群的数据高可用机制的基础。当采用副本时,GBASE集群将自动为每条数据记录在不同节点所管理的物理磁盘上保持多份拷贝,这样,当某节点的磁盘系统(含RAID保护)发生故障时,客户应用程序仍能通过访问故障磁盘所包含的数据所对应的副本继续工作。GBASE集群最多允许使用2个副本,即同一份数据在整个集群中有3份拷贝。使用2个副本时,副本选项因子为3,使用1个副本时,副本选项因子为2,不使用副本时,副本选项因子为1。考虑到系统数据可靠性要求,建议选择副本因子为2。

  • RAID因子,根据项目工程经验,建议:  

  1. 操作系统使用独立的RAID,如两块600GB的10K SAS盘做RAID1用于安装操作系统;

  2. 在RAID5配置下,建议在磁盘数量n大于10情况下,采用RAID50方式,即建立两个RAID5后再将两个RAID5做成RAID0;

  3. 在RAID5配置下,建议设置热备盘,使用同规格的一块硬盘作为RAID5的热备;

举例,22块600GB 15K SAS硬盘,每7块硬盘做成一个RAID5,然后两个RAID5做RAID0;一块单独硬盘作为热盘。

不考虑操作系统的磁盘开销及热盘, GBASE集群的RAID因子:

  • 一个RAID5情况下,RAID因子等于n/(n-1);

  • 两个RAID5情况下,RAID因子等于n/(n-2);

  • 两个RAID5情况下,RAID因子等于n/(n-3)。

假设系统选用 n=21的RAID50方案,RAID因子为21/18。

  • 操作系统和文件系统因子,Linux操作系统需要的软件安装和工作存储空间,以及GBASE集群在管理用户数据时在Linux文件系统中需开销一部分磁盘空间。根据GBase实际使用经验,此因子为1.2。

  • 数据库压缩因子,GBASE集群提供数据压缩技术,可以对用户数据进行压缩存储,从而减少所需要的物理存储空间,同时可以减少数据库工作时的I/O次数,进一步提高性能。此压缩因子的经验值为10%~70%。通常使用55压缩 算法的压缩比为1:3至1:5之间,这里取平均,因此压缩因子为25%。

这样,系统最小磁盘空间需求的计算公式可以归纳为:  

最小磁盘空间需求MDSR (Minimum Disk Space Requirements)

= 总数据量 ×1.2×2×21/18×1.2×25%

= 总数据量 × 0.84。

综合描述计算方法,总数据量为30TB的系统需要配置的磁盘容量为:

MDSR = 30TB * 0.85 = 25.2TB。


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/69979120/viewspace-2723090/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2020-07-16

  • 博文量
    34
  • 访问量
    13378