ITPub博客

首页 > 大数据 > Hadoop > 好程序员技术解析Hadoop和spark的性能比较

好程序员技术解析Hadoop和spark的性能比较

原创 Hadoop 作者:好程序员IT 时间:2019-06-17 16:01:17 0 删除 编辑

  好程序员技术解析   Hadoop和spark的性能比较, 大数据 培训一度受到广大 IT爱好者的追捧,成为最热门的培训学科!前景无需多述,高薪就业,职场一片坦途!今天好程序员就为大家讲解下关于大数据的知识要点。问:

Hadoop和spark的性能 有何区别

  如果说 Hadoop是一家大型包工队, 我们可以通过它组织人员进行合作,搬砖建造房屋,弊端在于速度较慢。

  Spark是另一家包工队,成立 时间较晚, 但是他们搬砖 更为灵活 ,可以实时交互地盖房子, 工作效率比 Hadoop快得多。

   Hadoop开始升级,指定调度专家YARN调度工人。Spark从多个仓库搬砖(HDFS,Cassandra,S3,HBase),还允许不同专家如YARN/ MESOS对人员和任务进行调度。

   当然, Spark和Hadoop团队 进行 合作,问题变得更加复杂。 作为两个 独立的包工队, 二者 都有着各自的优缺点和特定的业务用例。

   因此,我们说 Hadoop和spark的性能 区别在于:

  Spark在内存中运行速度比Hadoop快100倍,在磁盘上运行速度快10倍。众所周知,Spark在数量只有十分之一的机器上,对100TB数据进行排序的速度比Hadoop MapReduce快速3倍。此外,Spark在机器学习应用中的速度同样更快,例如Naive Bayes和k-means。

  Spark性能之所以比Hadoop更优,原因 在于 每次运行 MapReduce任务时,Spark都不会受到输入输出的限制。事实证明,应用程序的速度要快得多。 再有 Spark的DAG可以在各个步骤之间进行优化。Hadoop在MapReduce步骤之间没有任何周期性连接,这意味着在该级别不会发生性能调整。但是,如果Spark与其他共享服务在YARN上运行,则性能可能会降低并导致RAM开销内存泄漏。出于这个原因,如果用户有批处理的诉求,Hadoop被认为是更高效的系统。


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/69913892/viewspace-2647417/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论
欢迎关注公众号:好程序员特训营 web前端教程分享 723729549 大数据教程分享 703503210

注册时间:2019-03-20

  • 博文量
    248
  • 访问量
    188405