ITPub博客

首页 > 大数据 > Hadoop > Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析

Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析

Hadoop 作者:donaldzhangcn1c 时间:2014-03-08 16:30:00 0 删除 编辑
Greenplum <wbr>Hadoop分布式平台的大数据解决方案及商业应用案例剖析

课程讲师:蒙老师 
课程分类:Java
适合人群:初级
课时数量:70课时
用到技术:MapReduce、HDFS、Map-Reduce、Hive、Sqoop
涉及项目:Greenplum Hadoop大数据分析平台

一、课程内容介绍:
 
   1、课程背景
      GREENPLUM适用场景:
 
         Greenplum的架构采用了MPP(大规模并行处理)。在 MPP 系统中,每个 SMP 节点也可以运行自己的操作系统、数据库等,它的特点主要就是查询速度快,数据装载速度快,批量DML处理快。而且性能可以随着硬件的添加,呈线性增加,拥有非常良好的可扩展性。因此,它主要适用于面向分析的应用。比如构建企业级ODS/EDW,或者数据集市等等。
 
      GREENPLUM运行的平台:
 
         GREENPLUM运行在X86架构的硬件平台上,目前支持的操作系统包括32/64位的 LINUX(REDHAT/SUSE)/SOLARIS/MAC OS
 
      GREENPLUM的前景:
 
         GREENPLUM 诞生于2003年硅谷,2010/07 EMC收购了GREENPLUM,并把GREENPLUM作为EMC面向分析云的战略核心产品,加以大力发展。该产品不仅在国际市场发展很快,在国内市场发展也很快。最著名的案例就是阿里巴巴集团,经过多种产品的精心选型,最终选择GREENPLUM作为它们的数据仓库平台存放数百TB的业务数据去高效支持各种分析应用。正是由于产品发展速度很快,但是在相关人才上存在很大缺口。
 
      Hadoop的前景:
 
         随着云计算、大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈。谷歌、淘宝、百度、京东等底层都应用hadoop。越来越多的企 业急需引入hadoop技术人才。由于掌握Hadoop技术的开发人员并不多,直接导致了这几年hadoop技术的薪水远高于JavaEE及 Android程序员。
Hadoop入门薪资已经达到了8K以上,工作1年可达到1.2W以上,具有2-3年工作经验的hadoop人才年薪可以达到30万—50万。
一般需要大数据处理的公司基本上都是大公司,所以学习hadoop技术也是进大公司的捷径!
 
      Greenplum Hadoop大数据分析平台:
 
         大量的半结构化和非结构化信息无法管理和存储,大数据增长速度惊人,每年以几何级数速度增长,需要有专业化的解决方案应对大数据挑战。EMC收购了Greenplum之后,推出的针对Hadoop的Greenplum的数据库软件。采用Greenplum HD技术管理半结构化和非结构化信息,整体TCO更低,除了进行有效存储和管理,可以通过MapReduce技术进行并行的分析和挖掘,把大量的数据存储变成有价值的数据资产。
 
 
 
   2、课程内容简介:
 
 
      本系列课程主要分三部分:(总共70讲左右)
 
 
         第一部分 Greenplum 分布式数据库基础(35课时)
 
         第二部分 Hadoop分布式系统基础(30课时)
 
         第三部分 Greenplum Hadoop大数据分析平台(4课时)
 
 
      适合对象:
 
 
         1、要求具有一定的Linux和Java基础
         2、要求具有一定SQL语言基础
 
 
 
   3、课程大纲:
 
 
      第一部分 Greenplum 分布式数据库基础(35课时)
 
         1 Greenplum架构
            什么是Greenplum
            Greenplum体系结构
            Greenplum高可用性架构
 
         2 安装Greenplum
            配置环境
            安装并初始化GPDB系统
            启停数据库
            配置GP系统
 
         3 客户端接口和程序
            pgAdmin III
            PSQL
 
         4 角色权限管理
            客户端认证
         管理用户和组
 
         5 分布式数据库存储
            数据是如何存储的
            分布策略
 
         6 GBDB查询处理
            查询命令的执行
            SQL查询处理机制
            并行查询计划
 
         7 定义数据库对象
            创建并管理数据库
            创建并管理表空间
            创建并管理模式
            创建并管理表
            分区表
            数据分布与分区
            压缩存储与行列存储
            序列、索引与视图
 
         8 管理数据
            插入、更新、删除记录
            事务管理
            空间回收和统计
 
         9 数据加载
            外部表加载
            COPY加载
            GPLOAD加载
 
         10 资源负载管理
            创建资源队列
            分配资源队列
 
         11 备份恢复
            串行备份和恢复
            并行恢复和恢复
 
         12 GP SQL语法
            数据字典
            函数
            存储过程
 
         13 性能调优
            常见性能问题
            跟踪性能问题
            查询调优
 
         14 扩展GP系统
            节点的准备和添加
            初始化新Instance
            重分布表
 
         15 GP MapReduce
            MapReduce基础
            GP MapReduce编程
            MapReduce作业执行和故障诊断
 
 
      第二部分 Hadoop分布式系统基础(30课时)
 
         1 什么是Hadoop
            Hadoop思想起源:Google
            Hadoop的架构
            Hadoop思想体系
 
         2 部署Hadoop集群
            准备和配置环境
            三种运行模式
            简单集群安装和配置步骤
            大型生产集群部署
 
         3 HDFS实战
            HDFS体系结构
            HDFS的可靠性
            HDFS文件操作
 
         4 Map-Reduce体系架构
            Map-Reduce编程模型
            性能调优
            Map-Reduce工作机制
            日志分析
 
         5 Map-Reduce API开发实战
            Eclipse插件安装
            数据筛选程序
            倒排索引实战
 
         6 Hadoop组成
            Pig, Hbase, Hive, Zookeeper组件
            Sqoop, Avro, Churkwa, Cassandra组件
            Hbase体系结构
 
         7 HBase数据库
            单机模式安装
            伪分布式安装
            完全分布模式安装
            HBase数据库操作
 
         8 Pig实战
            Pig框架
            Pig安装配置
            Pig运行操作
 
         9 Hive实战应用
            Hive组件与体系架构
            Hive安装配置
            Hive操作
 
         10 Sqoop应用
            安装配置
            数据操作示例
 
         11 云计算
            什么是云计算
            云计算模式和形态
            Hadoop在云计算的运用
 
         12 Hadoop商业应用案例剖析
            京东商城
            百度
            阿里巴巴
 
 
      第三部分 Greenplum Hadoop大数据分析平台(4课时)
 
         1 Greenplum Hadoop架构
            集成架构的特征
            集成架构的优势
            商业案例展示
 
         2 Greenplum Hadoop集群部署
            部署Hadoop集群
            部署Zookeeper
            部署Hbase
            部署Hive
            部署Pig
            集群操作示例

视频截图:
Greenplum <wbr>Hadoop分布式平台的大数据解决方案及商业应用案例剖析
Greenplum <wbr>Hadoop分布式平台的大数据解决方案及商业应用案例剖析
Greenplum <wbr>Hadoop分布式平台的大数据解决方案及商业应用案例剖析
Greenplum <wbr>Hadoop分布式平台的大数据解决方案及商业应用案例剖析




云盘下载地址:http://yunpan.cn/Q4EeUPgXqiFZt
有疑问也可以加我一起探讨QQ:1337784574 
<!-- 正文结束 -->

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/21325866/viewspace-1114292/,如需转载,请注明出处,否则将追究法律责任。

上一篇: 没有了~
下一篇: 没有了~
请登录后发表评论 登录
全部评论

注册时间:2009-04-07