ITPub博客

首页 > 大数据 > 数据分析 > hadoop异构存储+lucene索引

hadoop异构存储+lucene索引

原创 数据分析 作者:hgs19921112 时间:2019-08-27 11:42:15 0 删除 编辑

异构存储这个词或许很多人并不陌生,但如果一个搜索引擎将Hadoop 得异构存储和索引整合会有什么效果呢?

         我们先来看一下hadoop 异构存储的相关概念:

1.        什么是hadoop 的异构存储

Hadoop 2.6.0 版本中引入了一个新特性——异构存储。异构存储关键在于异构2 个字,异构存储可以根据各个存储介质读写特性的不同发挥各自的优势,比如最普通的Disk 磁盘;而对于热数据而言,可以采用SSD 的方式进行存储,这样就能保证高效的读性能,在速率上甚至能做到十倍于或百倍于普通磁盘读写的速度。

 

2.        目前hadoop 支持的存储类型如下:

* RAM_DISK 存储在内存

* SSD  存储在固态硬盘
* DISK(default)  存储在普通磁盘(默认)
* ARCHIVE

按照RAM_DISK->SSD->DISK->ARCHIVE 的顺序,存取速度由快到慢,单bit 存储成本由高到低。

2.1 命令的使用

0. hdfs storagepolicies  -listPolicies (查看支持的存储策略)

1.hadoop fs -mkdir /data/ssddata (创建目录)

2.hdfs storagepolicies -setStoragePolicy -path /data/ssddata –policy One_SSD

(将目录设置为一份存在ssd 上面,其他的副本存在普通的磁盘上面,以后存储在该文件夹下面的文件的块副本都会存一份在ssd 上面)

3.hdfs storagepolicies -getStoragePolicy -path /data/ssddata( 查看该目录的存储策略,结果如下图)

4. 取消设置的存储策略,创建文件的时候默认为unspecified ,那么该命令可以将其修改为默认值

hdfs storagepolicies -unsetStoragePolicy -path /data/normal/ip2.txt

 

2.2 在上一步中对文件设置的存储策略只是对文件存储类型做了标识,还需要通过hdfs mover 对其文件存储类型进行改变,命令如下

hdfs mover [-p <files/dirs> | -f <local file name>],

3.        索引

在数据检索中,给数据添加索引是一个重要环节,传统中关系型数据库大多通过建索引来达到快速检索的效果,OLTP 数据库大多是B 或者B+ 树索引。想必大家都知道lucene, 它的索引是倒排索引(该概念不再这里叙述),不同的分词使它的全文检索功能很强大。诸如大家熟知的Elasticsearch 也是在以lucene 做索引引擎。但遗憾的是ES 并不支持异构存储,且ES 在面临单个分片数据量超大时也会存在瓶颈问题。

4.          通过上面两个方面的分析,我们可以试着设想,是否能够做一个这样的OLAP 数据库:可以将数据存放在hdfs 上,并且数据通过lucene 做了索引,那么这样检索数据的速度会快上百倍、千倍,并且它还实现了异构存储的方案,热数据存放在SSD ,并且可以定期自动的迁移,这样可以大大节省硬件成本。如果,如果这个数据库还实现了sql 查询的方式,那岂不是超爽,学习成本也将大大下降,只需要掌握SQL 语法就可以玩转大数据啦!Emmmmm 理想很丰满,现实...... 现!实!也!有!网上查找还真有这样的产品,录信数软 LSQL ,看到介绍还不错,更不需要像ES 那样要学习他的接口,还有Restful 风格的查询接口。想当年年少不知头发贵,一入IT 深似海。有这样的产品,妈妈再也不用担心我的头发掉光啦^_^ !附上官网链接: www.lucene.xin ,还可以免费试用噢!为了我们滴头发,还不快快了解一哈^_^


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31506529/viewspace-2655070/,如需转载,请注明出处,否则将追究法律责任。

下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2017-11-22

  • 博文量
    98
  • 访问量
    81770