ITPub博客

首页 > 大数据 > Hadoop > 王家林的云计算实战:Hadoop数据库管理员实战(面向数据库管理员、系统管理员等)

王家林的云计算实战:Hadoop数据库管理员实战(面向数据库管理员、系统管理员等)

Hadoop 作者:han254 时间:2013-03-21 20:37:18 0 删除 编辑

一:家林的话:

全球最大超市业者 Wal-Mart在使用Hadoop;

全球最大拍卖网站 eBay在使用Hadoop;

全球最大信用卡公司 Visa在使用Hadoop;

Facebook在使用Hadoop;

Yahoo在使用Hadoop;

Google在使用Hadoop;

中国移动在使用Hadoop;

华为在使用Hadoop;

百度在使用Hadoop;

淘宝在使用Hadoop;

京东在使用Hadoop;

网易在使用Hadoop;

 

Hadoop天生就是解决大数据高并发问题的,所有的互联网厂商还等什么?

Hadoop入门级别的月薪不低于8000元,所有的工程师还等什么?

 

互联网企业云计算服务企业每天都会产生大量的数据并面临高并发的严峻考验,传统的关系型数据库已经无法满足大数据量高并发的要求,何以解忧?Hadoop!

二:这个课程能带给您什么价值?

1, 深入理解Hadoop技术架构;

2, 彻底全面清晰的理解Hadoop运作机制;

3, 能够独立规划及部署生产环境的Hadoop集群;

4, 掌握Hadoop基本运维思路和方法;

5, 对Hadoop集群进行管理和优化;

 

三:适合对象:

数据库管理员(DBA);

公司的系统管理员;

想转型的DBA;

四:基础要求

了解Linux系统;

了解网络;

了解 shell sql python 等脚本语言的一种;   

五:培训内容

 

时间

内容

备注

 (集群安装和管理)

第1个主题Hadoop的来源和动机

1.传统大规模系统存在的问题

2.对一种新的解决方案的需求

 

2个主题:Hadoop安装和部署准备

1. Hadoop系统模块组件概述

2. Hadoop试验集群的部署结构

3. Hadoop 安装依赖关系

4. Hadoop 生产环境的部署结构

 

第3个主题:Hadoop集群安装和部署

1. Red hat Linux基础环境搭建 上机实验

2. Hadoop 单机系统版本 安装配置 上机实验

3. Hadoop 集群系统版本 安装和启动配置 上机实验

4. Hadoop 集群异常Debug 方法

5. Hadoop 集群简单测试方法

6. 使用 Hadoop MapReduce Streaming 快速测试系统

 

4个主题:Hadoop组件详解

1. Hadoop HDFS 基本结构

2. Hadoop HDFS 副本存放策略

3. Hadoop NameNode 详解

4. Hadoop SecondaryNameNode 详解

5. Hadoop DataNode 详解

6. Hadoop JobTracker 详解

7. Hadoop TaskTracker 详解

 

5个主题:Hadoop集群配置详解

1. Hadoop core-site,hdfs-site,mapred-site 配置详解

2. Hadoop 高可用配置方法

 

时间

内容

备注

 

 

 

 

 

 

 

 

 

 

 

 

 

 

第二天(集群优化和管理)

第1个主题Hadoop集群配置:机架感知,开启压缩和任务均衡

1. Hadoop 集群安装和开启LZO压缩

2. Hadoop 配置集群具备机架感知

3. Hadoop 集群开启公平任务调度器

4. Hadoop 集群开启能力任务调度器

 

2个主题:Hadoop 集群维护与管理

1. 查看集群状态

2. HDFS数据管理

3. Mapreduce 任务管理

4. HDFS安全模式

5. 模拟集群Namenode,jobtrack失效

6. 添加删除节点

7. 数据平衡

8. 文件数据跨集群拷贝

9. 集群升级

 

第3个主题:Hadoop 集群规划和测试

1. 集群规划(硬件,系统,网络)

2. 集群性能测试

 

4个主题:Hadoop 集群监控和运维

1. 使用Ganglia 监控Hadoop集群

2. 使用Cacti 监控操作系统

 

5个主题:Hadoop HDFS高可用

1. Hadoop 元数据NFS备份方案

2. Hadoop SecondaryNameNode备份方案

3. Hadoop CheckpointNode备份方案

4. Hadoop BackupNode备份方案

5. Hadoop Cloudera HA Namenode 方案

 

时间

内容

备注

第三天(Hive数据仓库)

第1个主题Hive仓库集群

1. Hive的作用和原理说明

2. 仓库和传统数据仓库的协作关系

3. Hadoop/Hive仓库数据数据流

4. Hive 部署和安装

5. Hive Cli 的基本用法

6. HQL基本语法

 

2个主题:Hive仓库集群高级

1. 使用JDBC 连接Hive进行查询和分析

2. 使用正则表达式加载数据

3. HQL高级语法

4. 编写UDF函数

5. 编写UDAF自定义函数

 

第3个主题:Hive仓库优化

1. 使用Hive分区优化查询

2. 使用Lzo压缩优化数据存储容量

3. HiveServer HA (使用haproxy提高HiveServer可用性)

4. 编写Hive自定义MapReduce脚本优化查询

5. Hive数据倾斜和查询性能优化

 

4个主题:Hive仓库外围系统

1. 使用Sqoop进行数据分析

2. 使用oozie配置工作流

3. phpHiveAdmin 安装和使用

 

 

 

<!-- 正文结束 -->

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/22703104/viewspace-1120008/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 没有了~
下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2009-10-13