ITPub博客

首页 > 大数据 > Spark > 大数据学习,大数据发展趋势和Spark介绍

大数据学习,大数据发展趋势和Spark介绍

原创 Spark 作者:华为云学院 时间:2018-10-17 11:24:14 0 删除 编辑

Spark介绍

 

大数据是随着计算机技术、通信技术、互联网技术的发展而产生的一种现象。

以前我们没有实现人和人之间的连接,产生的数据没有现在这么多;或者说没有把产生的数据记录下来;即使记录下来,我们也没有很好的工具对这些数据进行处理、分析和挖掘。而随着大数据技术的发展,我们开始逐渐地拥有这种能力,来发掘数据中的价值。

大数据技术在 2012年之前是以MapReduce为代表的批处理技术;2013年之后,则是以Spark为代表的大数据处理引擎;展望未来,大家越来越关注人工智能和大数据的结合,希望通过人工智能技术从大数据中挖掘更多的价值。近年来人工智能的爆发,也正是得益于大数据技术在存储、算力和算法上的飞速发展,所以人工智能和大数据是密不可分的,离开大数据,人工智能也是无源之水,无木之本。我们可以打个比方,如果把人工智能比喻成火箭,那么大数据技术就是推动这艘火箭的燃料。

以上我们从宏观的角度来看大数据技术的发展趋势,下面让我们以一个技术人员的角度,来看看当前大多数企业中所使用的大数据平台的系统架构。

首先企业会从各个渠道收集数据,这些数据通过消息订阅系统,一部分会经过一些流失的计算和处理,支持在线和实时的分析;另一部分数据则进入到相对静态的数据湖中,中间会涉及到数据的清洗、过滤、再加工等操作,另外还可以对数据进行结构调整来优化业务,如合并大量小文件等等。数据湖中这些数据可以用来支持商业分析报表、数据挖掘、人工智能等应用。事实上 Spark是当前使用最普遍的大数据计算引擎。在各个大企业的业务系统中,都把Spark作为数据处理和分析的核心组件。简单来说,原始的数据通常需要利用Spark来进行一系列的处理,才能最终应用于人工智能等应用,可以说Spark已经成为大数据处理领域的一个实施标准。所以在当前大数据+AI的时代,正是因为有了像Spark这样的大数据技术,才使得企业能够更快、更好地搭建业务系统,服务于所需的应用,从而充分的结合大数据和AI的能力,进一步发掘数据中的价值。

接下来让我们一起了解一下 Spark。作为大数据技术中的明星,Spark它是一种通用的高性能的集群计算系统。它起源于UC Berkeley AMP Lab一个研究项目,于2010年开源,2013年加入Apache基金会,如今Spark个在全球已经拥有50万的Meetup成员,Spark的开源社区有1300+开发者,Spark也被广泛的使用于企业和高校中。

那么究竟是什么让 Spark能得到大家的青睐呢?第一点原因就是它的高性能,比传统MapReduce要快一百倍以上,让Spark这个项目在一开始就非常的引人注目。其次,是它的通用性,Spark让你可以在一个Pipline里面编写SQL、Streaming、ML、Graph等多种应用,而在Spark号之前是没有一个系统能够做到这一点的。第三点,Spark支持Java、Scala、Python、R、SQL等多种API,而且设计得非常简洁易用。不光如此,Spark还在其周围构建丰富的生态,他能够处理多种数据源,如HBase、Kafka、MySQL等等,以及多种数据格式,如Parquet、ORC、CSV、JSON等等。此外还支持多种模式的部署,Yarn、Mesos、Kubernetes(也简称为K8S),另外Spark也提供独立的Standalone部署模式。

通过上面的内容我们大概了解了大数据发展趋势和 Spark的特点,是否意犹未尽呢,想要了解更多大数据、Spark的信息,请登录华为云学院( )学习相关课程《华为云数据湖探索服务》、《大数据入门与应用》。。。还有更多精彩课程等你来学习!


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31556022/viewspace-2216654/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论
华为云学院运营,工作日每日发关于华为云,云计算,人工智能等干货、资讯文章。

注册时间:2018-09-25

  • 博文量
    100
  • 访问量
    76839