ITPub博客

首页 > 大数据 > Hadoop > HDFS分布式文件系统

HDFS分布式文件系统

原创 Hadoop 作者:山有木xi 时间:2020-06-05 14:35:25 0 删除 编辑

分布式文件系统(Hadoop Distributed File System)是Hadoop核心子项目,为Hadoop提供了一个综合性的文件系统抽象,并且只会实现了多类文件系统的接口。HDFS基于流式数据访问、存储和处理超大文件。

在HDFS中引入了存放元数据信息的服务器:NameNode和实际存放数据的服务器:DataNode。

HDFS有着显著的特点

  • 存储数据较大

运行在HDFS的应用程序的数据处理有较大的需求,从存储GB到存储TB级别的超大文件,在目前的实际应用中,HDFS以及被利用来管理存储PB级别的数据

  • 支持多硬件平台

Hadoop可以运行在廉价、异构的商用硬件集群上,并且可以在HDFS设计时充分考虑数据的可靠性、安全性、高可用性

  • 支持流式数据

HDFS有一个设计思路是“写入一次,多次读取”、数据源生成数据集后,会被复制分发到不同的存储节点,已用于响应数据分析任务的请求。HDFS放宽了可移植操作系统接口的要求,可以以流的形式访问文件系统中的数据

  • 数据的一致性高

因为采用“写入一次,多次读取”的策略,所以支持追加不支持多次修改,降低了数据不一致性的造成可能

  • 有效预防硬件失效

HDFS的设计能够有效预防硬件异常并且具有自动恢复数据的能力

  • 高容错性

HDFS能够自动保存数据的多个副本,并且能够自动将失败的任务重新发配,具有高容错性

所以,HDFS经常被使用于各个场景下,例如:

大数据存储:分布式存储

日志处理:擅长日志分析

ETL:数据可抽取到MYSQL,oracle,Lucene

机器学习

搜索引擎

但是,相对于的,HDFS也有不适应的地方

不适合低延迟的数据访问

HDFS不适合处理那些数据访问要求低延迟的请求,因为HDFS主要是为了高数据的吞吐设计的,会产生稿时间延迟的代价

无法高效的存储大量小文件

HDFS采用主从架构来存储数据,需要用到NameNode来管理文件系统的元数据,以响应请求。为了快速响应请求,元数据存在主节点的内存中,如果小文件数量多达,容易造成内存不足,导致系统错误

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/69917874/viewspace-2696464/,如需转载,请注明出处,否则将追究法律责任。

下一篇: HDFS的体系结构
全部评论
Oracle OCA(Java),IBM高级工程师认证,中国软件行业人才(高级c语言),高级Android工程师,对数据库并发与性能调优也有一定了解

注册时间:2019-04-25

  • 博文量
    83
  • 访问量
    235578