ITPub博客

首页 > 数据库 > NoSQL > LSM的存储和定位

LSM的存储和定位

原创 NoSQL 作者:caohongfeng666 时间:2019-05-16 10:43:25 0 删除 编辑
  1.  LSM的存储

主要思想是将直接修改树形结构,改为分几个层级来完成。当完成第一个层级时就反馈完成,其他交由后台来处理。

流程是先写入memory table,之后merge到低级别的sstable,最后merge到高级别的sstable。


如下是Hbase的大体结构:



    2. 定位

Trailer–这一段是定长的。保存了每一段的偏移量,读取一个HFile时,会首先 读取Trailer,Trailer保存了每个段的起始位置(段的Magic Number用来做安全check),然后,DataBlock Index会被读取到内存中,这样,当检索某个key时,不需要扫描整个HFile,而只需从内存中找到key所在的block,通过一次磁盘io将整个 block读取到内存中,再找到需要的key。DataBlock Index采用LRU机制淘汰。


首先,能快速找到行所在的region(分区),假设表有10亿条记录,占空间1TB,   分列成了500个region,  1个region占2个G. 最多读取2G的记录,就能找到对应记录; 

其次,是按列存储的,其实是列族,假设分为3个列族,每个列族就是666M, 如果要查询的东西在其中1个列族上,1个列族包含1个或者多个HStoreFile,假设一个HStoreFile是128M, 该列族包含5个HStoreFile在磁盘上. 剩下的在内存中。

再次,是排好序了的,你要的记录有可能在最前面,也有可能在最后面,假设在中间,我们只需遍历2.5个HStoreFile共300M

最后,每个HStoreFile(HFile的封装),是以键值对(key-value)方式存储,只要遍历一个个数据块中的key的位置,并判断符合条件可以了。 一般key是有限的长度,假设跟value是1:19(忽略HFile上其它块),最终只需要15M就可获取的对应的记录,按照磁盘的访问100M/S,只需0.15秒。 加上块缓存机制(LRU原则),会取得更高的效率。



来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/25380026/viewspace-2644557/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论
曹老道

注册时间:2013-07-31

  • 博文量
    14
  • 访问量
    9740