ITPub博客

首页 > 大数据 > Hadoop > 好程序员大数据培训分享Hadoop入门学习线路图

好程序员大数据培训分享Hadoop入门学习线路图

原创 Hadoop 作者:好程序员 时间:2020-06-21 22:59:18 0 删除 编辑

  好程序员大数据培训分享Hadoop 入门学习线路图, Hadoop 是系统学习大数据的必会知识之一, Hadoop 里面包括几个组件 HDFS MapReduce YARN HDFS 是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面, MapReduce 是对数据进行处理计算的。 YARN 是一种新的 Hadoop 资源管理器,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

   如何入门Hadoop 学习,不妨从以下这些知识点学起,希望我的分享能对大家的学习有帮助:

   先附一张大数据学习线路图:

   Zookeeper

   这是个万金油,安装Hadoop HA 的时候就会用到它,以后的 Hbase 也会用到它。它一般用来存放一些相互协作的信息,这些信息比较小一般不会超过 1M ,都是使用它的软件对它有依赖,对于我们个人来讲只需要把它安装正确,让它正常的 run 起来就可以了。

   Mysql

   我们学习完大数据的处理了,接下来学习学习小数据的处理工具mysql 数据库,因为一会装 hive 的时候要用到, mysql 需要掌握到什么层度那?你能在 Linux 上把它安装好,运行起来,会配置简单的权限,修改 root 的密码,创建数据库。这里主要的是学习 SQL 的语法,因为 hive 的语法和这个非常相似。     

   Sqoop

   这个是用于把Mysql 里的数据导入到 Hadoop 里的。当然你也可以不用这个,直接把 Mysql 数据表导出成文件再放到 HDFS 上也是一样的,当然生产环境中使用要注意 Mysql 的压力。

   Hive

   这个东西对于会SQL 语法的来说就是神器,它能让你处理大数据变的很简单,不会再费劲的编写 MapReduce 程序。

   Oozie

   既然学会Hive 了,我相信你一定需要这个东西,它可以帮你管理你的 Hive 或者 MapReduce Spark 脚本,还能检查你的程序是否执行正确,出错了给你发报警并能帮你重试程序,最重要的是还能帮你配置任务的依赖关系。    

   Hbase

   这是Hadoop 生态体系中的 NOSQL 数据库,他的数据是按照 key value 的形式存储的并且 key 是唯一的,所以它能用来做数据的排重,它与 MYSQL 相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/69913864/viewspace-2699792/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2019-03-20

  • 博文量
    342
  • 访问量
    150062