ITPub博客

首页 > 大数据 > Hadoop > hadoop概要

hadoop概要

原创 Hadoop 作者:Michael_DD 时间:2014-03-12 13:02:19 0 删除 编辑
hadoop 


hadoop 简介:
   hadoop是一个能够对大量数据进行分布式处理的软件框架,实现了google的MapReduce编程模型和框架,
   把应用程序分割成效的工作单元,并把这些单元放到集群节点上执行。


角色:
NameNode:
          NameNode是HDFS守护进程,负责记录文件如何分割成数据块的,以及这些数据块分别被存储在哪些数据节点上
          主要功能:对内存及I/O进行集中管理


DataNode:
         DataNode属于集群中的每个服务器都运行的一个后台程序,负责把HDFS数据块读写到本地的文件系统


Secondary NameNode:
         Secondary NameNode用户监控HDFS状态的辅助后台程序,做NameNode的备用


JobTracker:
          JobTracker后台进程用来连接应用程序与Hadoop。  每个Hadoop集群只有一个JobTracker,一般运行在集群的Master节点上


TaskTracker:
         TaskTracker与负责存储数据的DataNode结合,遵循主/从架构   每个节点上仅有唯一的一个TaskTracker




族群:
Hadoop子项目:


   Hadoop Common: 属于hadoop项目的核心部分,为Hadoop各子项目提供各种工具


   HDFS: 提供高吞吐量访问的分布式文件系统   GFS的开源实现


   MapReduce:大型数据的分布式并行编程模型和程序执行框架   google的MapReduce的开源实现


Hadoop相关项目:
   
   AVRO:作为Hadoop的RPC(远程过程调用模块),使Hadoop的RPC模块通信速度更快,数据结构更紧凑


   Cassandra:是一套开源分布式的NoSQLogic数据库系统  Facebook开发    集google BigTable 的数据模型与Amazon Dynamo的完全分布式的架构于一身


   Hama: 为科学计算提供一个机遇整体同步并行计算技术的分布式计算框架


   HBase:Apache Hadoop项目,开源  基于列存储模型的分布式数据库


   Hive:提供数据摘要和查询功能的数据仓库


   Pig:是在MapReduce上构建的一种高级的数据流语言
  
   ZooKeeper:用于解决分布式系统中一致性问题,是Chubby的开源实现



         

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/29500582/viewspace-1108228/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2014-02-22

  • 博文量
    326
  • 访问量
    2466923