ITPub博客

首页 > 大数据 > 数据分析 > 大数据出奇制胜的法宝

大数据出奇制胜的法宝

数据分析 作者:想学好IT技术 时间:2015-12-30 17:43:58 0 删除 编辑

作为下一代云计算大数据的核心技术,Spark性能超Hadoop百倍,算法实现仅有其1/10或1/100,是可以革命Hadoop的目前唯一替代者,能够做Hadoop做的一切事情,同时速度比Hadoop快了100倍以上。目前Spark已经构建了自己的整个大数据处理生态系统,国外一些大型互联网公司已经部署了Spark。甚至连Hadoop的早期主要贡献者Yahoo现在也在多个项目中部署使用Spark;国内的淘宝、优酷土豆、网易、Baidu、腾讯、皮皮网等已经使用Spark技术用于自己的商业生产系统中,国内外的应用开始越来越广泛。Spark正在逐渐走向成熟,并在这个领域扮演更加重要的角色,刚刚结束的2014SparkSummit上的信息,Spark已经获得世界20家顶级公司的支持,这些公司中包括Intel、IBM等,同时更重要的是包括了最大的四个Hadoop发行商都提供了对非常强有力的支持Spark的支持。

1月24日第1期Spark把云计算大数据速度提高100倍以上小时36分钟

主题:革命Hadoop,Spark如何100倍提高云计算处理速度!云计算、大数据浪潮来袭,继Hadoop之后,谁将是下一代最热门的技术?如何把云计算大数据处理速度提高100倍?如何在最短的时间内掌握Spark技术核心?Spark人才极度匮乏,如何成为年薪百万的技术弄潮儿?

2月12日第33期:Spark本质论之RDD的在分布式系统中的实现小时38分钟

RDD近乎完美的解决了分布式并行计算的各种计算范式并极大的简化分布式计算的编程工作,是Spark的精髓和灵魂。本次大讲堂首先从RDD的数据模型入手,进而细致解析RDD的SQL具体实现内幕。opic1:RDD上的数据模型RDD的数据格式RDD的数据分区不可变性和自定义转换Topic2:RDD的SQL实现列式内存存储局部DAG。

3月12日第32期:Spark本质论之RDD的架构与编程接口1小时38分钟

RDD近乎完美的解决了分布式并行计算的各种计算范式并极大的简化分布式计算的编程工作,是Spark的精髓和灵魂。本次讲座首先从RDD的编程接口入手,进而细致解析RDD的具体实现内幕;Topic1:RDD的抽象与编程RDD的抽象RDD的编程接口Topic2:RDD的具体实现JobScheduling&MultitenancyInterpreterIntegration&MemoryManagementSupportforCheckpointing。

2月5日第31期:Spark本质论之RDD的设计初心与模型实现1小时8分钟

RDD近乎完美的解决了分布式并行计算的各种计算范式并极大的简化分布式计算的编程工作,是Spark的精髓和灵魂。本期讲座首先从当今分布式计算的现状和问题入手,以RDD模型切化解分布式计算的问题,在最后从RDD编程模型实现的角度谈到RDD的本质;Topic1:RDD的设计初心分布式计算的现状和问题RDD的独特之处Topic2:RDD模型实现RDD实现模型RDD的本质探讨RDD编程

1月22日第30期:Spark性能杀手Shuffle1小时47分钟

Shuffle是Spark的性能杀手,Spark在shuffle方面也做了很多工作,Spark1.0开始提供了可拔插的shuffle框架,1.1基于此框架提供了基于sort的shuffle实现,1.2将sort-basedshuffle作为默认实现,以后Spark还会去做一些externalshuffleservice等。本次讲座首先从Shuffle的工作机制入手,以源码切入Shuffle的核心内幕,在最后提出针对Shuffle的优化技巧;Topic1:Shuffle源码彻底解析不通Spark版本的ShuffleShuffle实现内幕源码Topic2:Shuffle性能优化Shuffle性能优化几种常见场景Shuffle性能优化技巧总结

1月17日第29期:Spark1.2的新特性(主讲:mmicky)1小时5分钟

Topic1:shuffle的进化Topic2:streaming的容错Topic3:mllib的pipeline

1月8日第28期:系统架构角度看sparkstreaming(主讲:Jason)1小时9分钟

【新闻分享】Sparkstreaming1.2中新特性【内容分享】1,实时计算的用途和特点;2,实战架构图以及源码展示;3,streaming与storm比较【总结】Storm可以提供成熟的商业级别实时计算框架,streaming处于快速发展阶段。Storm可以为关键业务,包括计费等提供解决方案。(如例一,电信计费)Streaming可以为互联网等低价值大数据提供解决方案,(如pv,uv,统计等等,例2)

12月25日第27期:学习Spark源码的一些方法(主讲:harli)1小时7分钟

学习Spark源码的一些方法——介绍在源码阅读中用到的学习方法主讲:harliSpark爱好者Topic1:指导方法Topic2:常用方法的简单介绍Topic3:结合源码阅读谈学习方法

12月18日第26期:Spark-submit和spark-shell源码内幕解析2小时11分钟

Spark-shell提供了对开发者非常友好的和Spark交互的命令终端,其本身是Spark应用程序,而spark-submit是Spark新推出的统一的应用程序提交方式,基于spark-submit开发者可以有更加统一和丰富的提交和自定义程序属性和运行环境的方式;本次讲座首先从spark-submit和spark-shell的工作机制入手,以源码切入Spark中spark-submit和spark-shell工作机制的内幕,通过源码带领您畅快游览spark-submit和spark-shell的核心!Topic1:Spark-shellSpark-shell解析SparkContexts实例sc交互式命令终端的内幕源码Topic2:Spark-submitSpark-submit解析Spark-submit出发的Master、Worker等源码解析。

12月11日第25期:Spark消息驱动系统Akka原理、源码和实际使用1小时24分钟

Spark的分布式消息驱动系统式使用Akka来完成的,借助于Akka和CaseClass,极大的简化了Spark中不同Actor(含不同机器的Actor)通信;本次大讲坛首先从Akka的工作机制入手,以源码切入Spark中对Akka的使用。

12月4日第24期:SparkR架构原理与技术实战58分钟

SparkR是一个R语言包,提供了一个轻量级的前端,用于把R中的代码运行在Spark集群中。SparkR通过RDD类暴露SparkAPI,允许用户以交互方式在集群上从Rshell运行jobs。通过SparkR,我们可以利用R进行大数据交互分析,也可以在节点上利用R的数据分析库,这是大数据的一个新利器。本次课程从R语言的介绍和动手实战开始,然后介绍SparkR的使用和代码实战,帮助你掌握R和Spark两个大数据处理的利器。Topic1R语言快速入门1.1R语言解析和核心1.2R实战示例Topic2使用SparkR2.1SparkR的安装2.2使用SparkR编写WordCount2.3使用SparkR的更多代码示例。

11月27日第23期:源码彻底解析Driver的前世今生和来世2小时11分钟

Spark程序本身分为了Driver和Executor两部分,由Driver部分驱动整个Spark集群中Executor的并行执行,所以对Driver的深入研究就显得特别重要,这也是每个Spark技术爱好者必须掌握的内容。本次课程通过源码深入探秘Driver,通过循序渐进的源码和原理剖析帮助各位掌握Driver的初始化、具体对Job的驱动以及在Standalone模式下Driver的源码深入解析,是Spark源码爱好者必须课程。Topic1:Driver的核心;SparkConf源码解析;SparkContext源码解析;SparkEnv源码解析;Topic2:Job的工作流程;DAGScheduler;TaskScheduler;Task源码解析;Topic3:Driver下的Standalone模式Driver;Master;Executor;Task。

11月20日第22期:源码彻底解析cache和checkpoint2小时13分钟

Cache和CheckPoint是Spark本身极为重要的特性,Cache机制能够在迭代算法和交互式应用中需要重复访问的访问的更快,而对于那些运行耗时或者长时间运行的工作(例如SparkStreaming)则可以进行CheckPoint来改变RDD的计算链条,这样当后面的计算出错时可以直接从CheckPoint的RDD直接读取数据进行计算。本次课程通过源码深入探秘Spark的Cache和CheckPoint,通过循序渐进的源码和原理剖析帮助各位掌握Cache和CheckPoint的精髓。Topic1:Cache源码彻底解析;Cache与Persist;Cache的原理机制;Cache的工作过程;Cache的最佳实践;Topic2:CheckPointCheckPoint的使用场景;CheckPoint的内部机制;读取CheckPoint的数据;CheckPoint最佳实践。

11月13日第21期:源码解析SparkGraphx的内幕1小时54分钟

图计算广泛应用于社交网络、电子商务等领域,SparkGraphX是图计算领域的屠龙宝刀,对PregelAPI的支持更是让SparkGraphX如虎添翼。本次课程通过源码深入探秘SparkGraphX,通过代码解析SparkGraphX的各种操作实战,紧接着通过代码解析经典图算法在SparkGraphX中的实现和案例解析;Topic1:SparkGraphX源码解析和操作实战?Graph和GraphImpl解析?GraphOps解析?Tableoperator与graphoperator?verticies、edges、triplets?构建graph、删选verticies、删选edges、查看triplets?PropertyOperators?StructuralOperators?ComputingDegree?CollectingNeighbors?Joinoperators?MapReduceTriplets?PregelAPITopic2:经典图算法在SparkGraphX中的实现和源码解析?PageRank源码剖析及案例解析?TriangleCount源码剖析及案例解析?ShortestPaths源码剖析和案例解析。

11月6日第20期:源码彻底解析Tachyon1小时11分钟

第20期主题:源码彻底解析TachyonTopic1:Tachyon架构剖析和工作机制Topic2:Tachyon源码解析Topic3:Spark下的Tachyon

10月30日第19期:源码解析sparkonYarn的内幕1小时43分钟

Yarn是大数据时代的操作系统,核心用于资源管理和资源调度,SparkonYarn是Spark顺应时代形势的抉择。本次课程,循序渐进的源码研究SparkonYarn,从Yarn的案例开始,到Yarn的自定义开发,紧接着通过细致剖析SparkonYarn,最后深入分析SparkonYarn的核心源代码,是Yarn爱好者和Spark学习者的一次技术盛宴!Topic1:实例演示SparkonYarn的工作Topic2:SparkonYarn、Topic3:SparkonYarn的源码剖析

10月24日第18期:源码彻底解析Standalone的前世今生和来世2小时4分钟

10月16日第17期:源码彻底解析Shuffle的前世今生和来世1小时51分钟

Shuffle是所有想成为Spark高手的人必须掌握的核心内容,是Spark学习者的核心之一,是Spark学习者的难点,亦是Spark性能优化的关键;Shuffle是SparkRDD操作中至关重要的阶段,Shuffle的过程直接决定了Spark的性能;本次大讲坛首先从Shuffle的工作机制入手,然后条分缕析RDD中产生Shuffle的核心函数,最后,从历史实现的角度谈SparkShuffle的源码实现和性能优化,是所有Spark爱好者不可错过的核心内容!

10月9日第16期:Akka下的Driver、Master、Worker深度解析1小时52分钟

Akka已经成为分布式消息驱动领域的实施标准,广泛应用于在线游戏,金融/银行业,贸易,统计,赌博,社会媒体,电信、Web媒体,手机媒体、MOM,在线游戏,赌博、商业智能、数据挖掘、通用数据处理和复杂事件流处理;Spark的分布式消息驱动系统式使用Akka来完成的,借助于Akka和CaseClass,极大的简化了Spark中不同Actor(含不同机器的Actor)通信;本次大讲坛首先从Akka的工作机制入手,以源码切入Spark中对Akka的使用,从作业的提交和Driver、Master、Worker、Executor相互交互等角度带领您一睹Akka在Spark中使用的神韵!Topic1:Akka的架构和工作机制Akka架构解析Akka的工作机制Akka的工作流程Topic2:从Job提交和运行看Spark对Akka的使用;通过Akka向Master注册程序;通过Akka启动Driver;通过Akka启动Executor;Topic3:Driver、Master、Worker中对Akka的使用Driver和Master通过Akka的交互;Master和Worker通过Akka的交互;Driver和Executor通过Akka的交互。

10月2日第15期:Spark内核源码深度解析2小时56分钟

掌握Spark内核是精通Spark的关键,也是驾驭Spark的精髓所在。可以说,Spark内核是每个想彻底掌握Spark的人员的必修课,通过对内核的探索,我们对整个Spark的运行机制会了如指掌,这对Spark的大规模应用、性能优化、系统自定义开发Spark系统都是至关重要的。本课程首先从Spark任务调度。

9月26日第14期:SparkonDocker深度揭秘1小时45分钟

Docker云计算最新一代虚拟化技术,正逐步成为PAAS轻量级虚拟化技术的标准。作为一个开源的应用容器引擎,Docker不依赖于任何语言、任何框架和系统,使用沙箱机制的Docker可以让开发者把应用打包到可移植的容器之中并能够部署到所有的主流的Linux/Unix系统上。本次课程,深入Docker本质和内幕,从深入虚拟化技术开始,到深入Docker内核,到使用DockerFile构建并管理Image,紧接讲解PaaS下的Doker,最后解析SparkonDocker,是Spark爱好者和Docker学习者的一次技术盛宴!Topic1:深入虚拟化技术Container技术Docker的本质镜像管理Topic2:深入DockerDockerAUFSDockerHub&DockerRegistryDockerRegistryAPIDockerRemoteAPIDockerfileTopic3:Image的构建与管理DockerFile解析用DockerFile构建Image用DockerFile管理ImageTopic4:SparkonDockerSpark对Docker的支持解析SparkonDocker源码解读。

9月17日第13期:Tachyon内核解析及Spark与Tachyon操作实战2小时3分钟

Tachyon是大数据时代杀手锏级别的技术,是大数据时代必须掌握的技术。通过Tachyon,分布式机器可以基于Tachyon构建的分布式内存文件存储系统来共享数据,这对分布式系统的机器协作和数据共享以及速度的提升都具有非凡的意义;本次课程我们首先从Tachyon的架构入手,Tachyon的架构和启动原理,然后细致解析Tachyon的操作API,最后通过源码深入解析Spark下的Tachyon。Topic1:Tachyon架构剖析Tachyon架构解析;Tachyon安装、启动解析;Topic2:Tachyon操作详解Tachyon中API的操作实例详解;TachyonAPI的本质;Topic3:Spark下的TachyonSpark中对Tachyon的使用;Tachyon源码深度解析;Tachyon实现启示录。

9月10日第12期:作为云服务的SparkasaService2小时2分钟

JobServer是SparkasaService的非常重要的功能,也是2013年和2014年的SparkSummit均提到的内容,SparkasaService类似于Restful的实现为多个客户端共享Spark计算代码提供了具体的实现。本次课程我们首先从REST架构下的Spark架构入手,阐述REST接口下的job和context管理,然后细致解析JobServer实现内部,最后动手实战一个JobServer工程的常见和使用。Topic1:REST架构下的Spark架构REST架构解析Spark的REST架构解析Topic2:JobServer揭秘提交Job查询JobJobAPI详解ContextAPI详解Topic3:JobServer动手实践创建JobServer工程的具体步骤JobServer案例实战测试JobServer。

9月4日第11期:Spark&Docker1小时47分钟

Docker是当今云计算领域最受关注的技术,是新一代云计算技术的核心所在,是软件自动化部署的标准所在。作为一个开源的应用容器引擎,Docker不依赖于任何语言、任何框架和系统,使用沙箱机制的Docker可以让开发者把应用打包到可移植的容器之中并能够部署到所有的主流的Linux/Unix系统上。Docker也是最新一代虚拟化技术,正逐步成为PAAS轻量级虚拟化技术的标准。本次课程,循序渐进的揭秘Docker&Spark,从Docker工作原理开始,到使用DockerFile构建并管理Image,紧接讲解PaaS下的Doker,最后解析Spark&Docker,是Spark爱好者和Docker学习者的一次技术盛宴!Topic1:Docker揭秘Docker到底是什么?Doker的工作机制揭秘Docker的核心原理Topic2:Image的构建与管理DockerFile解析用DockerFile构建Image用DockerFile管理ImageTopic3:PaaS下的DockerPaaS的本质PaaS下的DockerTopic4:Spark&DockerSpark&Docker关系Spark对Docker的支持SparkonDocker。

8月28日第10期:SparkonYarn1小时52分钟

Yarn是大数据时代的操作系统,核心用于资源管理和资源调度,SparkonYarn是Spark顺应时代形势的抉择。SparkonYarn是Spark在Yarn开发规范的基础上开发的自己版本的Yarn,遵循Yarn的规范您也可以开发自己的应用程序。本次课程,循序渐进的深入探秘SparkonYarn,从Yarn的架构本质开始,到Yarn的自定义开发,紧接着通过细致剖析SparkonYarn,最后深入分析SparkonYarn的核心源代码,是Yarn爱好者和Spark学习者的一次技术盛宴!Topic1:Yarn的架构本质及Yarn的自定义开发Yarn的原理和框架Yarn工作的完整生命周期Yarn上的应用开发流程Topic2:SparkonYarnWhyrunSparkonYarn?SparkonYarn的工作原理和流程Yarn-client与Yarn-ClusterTopic3:SparkonYarn的源码剖析ApplicationMaster源码剖析ExecutorLauncher源码剖析YarnClientClusterScheduler源码剖析YarnClusterScheduler。

8月21日第9期:深入掌握图计算领域的SparkGraphX原理和实战3小时28分钟

图计算广泛应用于社交网络、电子商务等领域,SparkGraphX是图计算领域的屠龙宝刀,对PregelAPI的支持更是让SparkGraphX如虎添翼。在淘宝,SparkGraphX不仅广泛应用于用户网络的社区发现、用户影响力、能量传播、标签传播等,而且也越来越多的应用到推荐领域的标签推理、人群划分、年龄段预测、商品交易时序跳转等,据淘宝的明风介绍,借助于SparkGraphX,经过半年多的尝试,淘宝之前一些想做但因为没有足够的计算能力而不能实现的图模型,现已不是问题。本次课程,循序渐进的深入探秘SparkGraphX,从SparkGraphX架构设计开始,然后立刻通过代码解析SparkGraphX的各种操作实战,紧接着通过代码解析经典图算法在SparkGraphX中的实现和案例解析,最后分析SparkGraphX在淘宝的应用及启示,间或有GraphX的框架源码解析,内容设计错落有致而浑然天成,是图计算爱好者和Spark学习不可错过的饕餮盛宴!Topic1:SparkGraphX架构设计Topic2:SparkGraphX源码解析和操作实战Topic3:经典图算法在SparkGraphX中的实现和案例解析Topic4:SparkGraphX在淘宝的应用及启示。

8月14日第8期::MachineLearningonSpark2小时3分钟

本次课程,循序渐进的揭秘MLLib,同时通过代码案例详细剖析机器学习中三种最常用的算法LinearRegression、K-Means、CollaborativeFiltering,最后和大家分享MLLib源码及其与GraphX、SparkStreaming等的协同。Topic1:探秘MLLib机器学习世界中MLLibMLLib架构解析LinearRegresssion解析K-Means解析CollaborativeFiltering算法解析Topic2:MLLib代码实例解析LinearRegression案例。

288月7日第7期:如何一次性掌握Spark80%以上的精髓2小时34分钟

本次课程,循序渐进的逐步而彻底的剖析RDD,包括RDD的DAG图的产生和执行过程、宽依赖和窄依赖等;对于Spark的任务调度模型,更是深入源码的全程穷根究底;而对于Job本身及其执行模型,更是从AppClient出发,细致剖析其与Master等的交互和最后的执行过程;Topic1:揭秘RDD实现RDD到底是什么?RDD中的宽依赖和窄依赖PartitionerHadoopRDD、FilteredRDD、JoinedRDD解析Topic2:洞悉Job本质Job的本质Job的构成Job的执行模型。

7月31日第6期:使用SprakStreaming进行实时流处理1小时30分钟

无需等待的实时计算时代-如何在90分钟内通过SparkStreaming掌握大数据实时计算和流处理Whywait?!以流处理和实时计算为核心是云计算大数据未来的核心方向,信息的实时性越强其价值越大,伴随着流处理能力的的加强,大数据的计算会全面进入实时计算的时代!SparkStreaming构建于Spark之上,是Spark四大核心子框架之一,SparkStreaming能够使用Spark内核的所有功能。基于SparkStreaming,我们期待在90分钟内通过原理解析、各种SparkStreaming的案例代码、源码分析、性能优化等助您轻松驾驭流处理和实时计算。Topic1:SparkStreaming架构与原理Topic2:SparkStreaming案例集锦Top3:源码分析与性能优化。

7月17日第4期:构建商业生产环境下的Spark集群实战1小时57分钟

对于90%以上想学习Spark的人而言,如何构建Spark集群是其最大的难点之一,为了解决大家构建Spark集群的一切困难,我们把Spark集群的构建分为了四个步骤,每个步骤聚焦构建集群的一个核心,从零起步,不需要任何前置知识,涵盖操作的每一个细节,构建完整的Spark集群。从零起步。

7月24日第5期:SparkSQL架构和案例深入实战1小时49分钟

Spark1.0版本发布最光彩夺目的莫过于SparkSQL,其目标是成为大数据时代的“KillerApplication”,SparkSQL是绝大多数Spark开发者必须掌握的核心。知名测试数据表明:借助于Catalyst和Codegen,SparkSQL的执行效率远高于Shark,而Shark的运行速度远高于Hive。SparkSQL的出现标志着开发者能在Scala代码里写SQL,支持SQL语法检查,能把RDD指定为Table存储起来,与此同时支持SQL语法的DSL。在此基础上就可以使用RDD的一切操作并能够提供对MLlib等的数据支持等。Topic1:SparkSQL实战案例集锦Topic2:SparkSQL内核揭秘Top3:SparkSQL源码分析。

7月10日第3期:Spark1.0内核探索2小时2分钟

Spark1.0内核探索这是Spark内核的一次大揭秘!这正是你梦寐以求的Spark课程!入木三分的指出Spark的本质;高屋建瓴的俯瞰Spark的架构设计;一阵见血的剖析Spark的作业调度静态和动态过程;?电光石火般的掌握RDD的要害;?立竿见影的理解DAG和Stage;?锱铢必较的解析Task的提交与执行;RDDObjects、DAG、DAGScheduler、TaskSet、TaskScheduler、Task、Worker、BlockManager一一粉墨登场!Topic1:Spark架构设计Driver、Master、Worker;SparkContext;DAGScheduler;TaskS等。

7月3日第2期:Spark的Shark和SparkSQL1小时44分钟

第2期Spark亚太研究院决胜大数据时代公益大讲堂讲座主题:Spark的Shark和SparkSQL用高达5千万条级别的真实数据的操作尽显SQL使用者在云计算大数据时代的用武之地!您不必懂Spark,也可以把大数据的处理速度提高10倍。

课程地址://edu.51cto.com/course/course_id-1659.html

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/30601580/viewspace-1967964/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2015-11-30

  • 博文量
    5
  • 访问量
    2897