ITPub博客

首页 > 大数据 > Hadoop > 大数据处理Hadoop应用与开发

大数据处理Hadoop应用与开发

Hadoop 作者:yachn1 时间:2013-11-07 16:21:22 0 删除 编辑

   

大数据处理Hadoop应用与开发

二、培训对象

各地政府云计算物联网产业相关负责人,各企业CIO、信息中心负责人、技术总监,云计算中心负责人,云计算产业投资团队,云计算应用开发商,云计算硬件设备供应商,云服务提供商,高校、科研院所云计算项目负责人。

各企业大数据架构师、技术总监、数据挖掘负责人、数据挖掘开发工程师

四、培训特色

    注重应用:分析国内实际情况,结合国际、国内成功经验。Hadoop采用实战的项目,让学员在短时间内掌握Hadoop的搭建与配置。并进行高效的大数据清洗和分析。

  形式灵活:互动课堂、免费技术沙龙、提供云计算项目建设咨询、大数据Hadoop平台的搭建。

   附件一课程大纲

课程模块

课程主题

主要内容

案例和演示

模块一

Hadoop的来源和动机

传统大规模系统存在的问题 

Hadoop概述 

Hadoop分布式文件系统      

MapReduce工作原理         

Hadoop群剖析            

 Hadoop生态系统对一种新的解决方案的需求

Hadoop的行业应用案例分析

Hadoop在云计算和大数据的位置和关系

阿里集团技术平台,Hadoop在淘宝、支付宝的作用

电商眼中的Hadoop和推荐系统。

暴风数据台:Hadoop对于产品优化的价值。

Hadoop对于趣游、热酷等游戏公司的作用

移动大云项目(big cloud)中的Hadoop

联通使用Hadoop/Hbase解决3G详单查询问题。

模块二

Hadoop生态系统介绍和演示

Hadoop HDFS 和 MapReduce 

Hadoop数据库之HBase 

Hadoop数据仓库之Hive

Hadoop数据处理脚本Pig 

Hadoop数据接口Sqoop和Flume,Scribe DataX 

Hadoop工作流引擎 Oozie

Yahoo如何使用Hadoop构建大规模搜索的应用

FaceBook 基于Hadoop构建数据仓库

模块三

Hadoop组件详解

Hadoop HDFS 基本结构

Hadoop HDFS 副本存放策略

Hadoop NameNode 详解

Hadoop SecondaryNameNode 详解 

Hadoop DataNode 详解

Hadoop JobTracker 详解 

Hadoop TaskTracker 详解

Hadoop Mapper类核心代码

Hadoop Reduce类核心代码

Hadoop 核心代码

模块四

Hadoop安装和部署

Hadoop系统模块组件概述

Hadoop试验集群的部署结构

Hadoop 安装依赖关系

Hadoop 生产环境的部署结构

Hadoop集群部署

Hadoop 高可用配置方法

Hadoop 集群简单测试方法 

Hadoop 集群异常Debug方法

 

Hadoop安装部署实验

Red hat Linux基础环境搭建

Hadoop 单机系统版本安装配置

Hadoop 集群系统版本安装和启动配置 

使用 Hadoop MapReduce Streaming 快速测试系统

Hadoopcore-site,hdfs-site,mapred-site 配置详解

模块五

Hadoop和传统数据库技术优劣势对比

Hadoop/Hive 对比 Oracle 在构建数据仓库上的优劣势

Hadoop 如何和传统IT系统配合完成原来不可能的任务

Apache社区版本:Cloudera 版本、MapR版本、Intel版本、Oracle、Dell、HP版本

模块六

编写MapReduce高级程序

使用 Hadoop MapReduce Streaming 编程

MapReduce流程          

剖析一个MapReduce程序 

基本MapReduceAPI 概念  

驱动代码 MapperReducer

Hadoop流 

API 使用Eclipse进行快速开发               

新MapReduce API 

MapReduce的优化

MapReduce的任务调度

MapReduce编程实战

如何利用其他Hadoop相关技术,包括Apache Hive, Apache Pig,Sqoop和Oozie等 

满足解决实际数据分析问题的高级Hadoop API 

Hadoop Streaming 和 Java MapReduce Api 差异。

 MapReduce 实现数据库功能

利用Combiners来减少中间数据

编写Partitioner来优化负载平衡

直接访问Hadoop分布式文件系统(HDFS)

Hadoop的join操作

辅助排序在Reducer方的合并

定制Writables和WritableComparables 

使用SequenceFiles和Avro文件保存二进制数据 

创建InputFormats OutputFormats

Hadoop的二次排序

Hadoop的海量日志分析

在Map方的合并       

模块七

集成Hadoop到现有工作流 

Hadoop API深入探讨

存储系统 

利用Sqoop从关系型数据库系统中导入数据到Hadoop 

利用Flume导入实时数据到Hadoop 

ToolRunner介绍使用MRUnit进行测试 

使用Configure和Close方法来进行Map/Reduce设置和关闭 

使用FuseDFS和Hadoop访问HDFS

使用分布式缓存(Distributed Cache)

直接访问Hadoop分布式文件系统(HDFS) 

利用Combiners来减少中间数据

编写Partitioner来优化负载平衡  

模块八

使用Hive和Pig开发及技巧

Hive和Pig基础              

Hive的作用和原理说明

Hadoop仓库和传统数据仓库的协作关系

Hadoop/Hive仓库数据数据流

Hive 部署和安装

Hive Cli 的基本用法

HQL基本语法

使用Oozie的动机      

 Oozie工作流定义格式  

使用JDBC 连接Hive进行查询和分析

使用正则表达式加载数据

HQL高级语法

编写UDF函数

编写UDAF自定义函数

使用Sqoop进行数据分析

使用oozie配置工作流

phpHiveAdmin 安装和使用

模块九

实用开发技巧

排序和搜索索引            

用Mahout进行机器学习 

Term Frequency – Inverse Document Frequency 

图论简介  

Word Co-Occurrenc

用Hadoop表示图

一个图算法的实现:单源最短路径

<!-- 正文结束 -->

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/21515816/viewspace-1120429/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 没有了~
下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2009-04-29