ITPub博客

首页 > 大数据 > 数据分析 > Spark 高难度对话 SQL Server

Spark 高难度对话 SQL Server

原创 数据分析 作者:dbLenis 时间:2018-10-09 22:16:01 0 删除 编辑

在我们欢天喜地迎接超级长假的时候,地球的另半面拉斯维加斯正在进行着一场超级火爆的 GIIS (Global Information Industry Summit)峰会。看名头,这是一场信息领域的全球峰会,峰会的少不了 DB-Engines 公布的前 300 名  SQL 以及 NoSQL ,耳熟能详的有 Oracle, SQL Server, MySQL, PostgreSQL, DB2, Redis 等等。而近来大红大紫的 big data 领军人物,Hadoop, Spark, Hive, Flink 等也是悉数到场。


自费参加峰会的 L, 也是兴致勃勃,一改往日长假必远游的定律,来到拉斯维加斯。


奇怪的现场布置也是让 L 匪夷所思,巴洛克式的拉斯维加斯参会厅,足以容纳 20000 多家站台,今天却一切为二。


挂着红布的半边,是 Oracle, SQL Server 等商业巨头的阵营,各位负责人正装凛然,狗牌挂的一个比一个大,鼻子敲得一个高过一个。从他们飞扬的涂抹中,已然数据库的天下从来都是老子说了算。L 想靠近仔细看看各家的杀手锏,却被黑鬼保安拦了下来,一个大摆开的指着 Summit Introduction (入门须知)牌子,L 拿下他那因为长期熬夜写 SQL 而高度近视达 1200 度 的镜片,俨然还能看清须知上红色标红的参会价格  $1100. 虽然对 SQL 几乎痴迷,但这几近半个月薪水的价格,还是让他垂下了高扬的头。


举兴而来,败兴而归。


L 转了身,无奈的走向了另一边。这一边,满盘皆绿,绿色的欢迎布,绿色的小旗子,全是 NoSQL 大佬。仔细瞅了瞅,门口的指示牌,仅标了 Free 四个字母!“这便宜赚大了”,L 一个箭步冲了进去。


Cloudera, Hortonworks 两位占据了大门两侧。瞧那几位绿色妹子,肤白腿直,烟熏妆一个比一个妖娆,L 不禁想起来去年泰国之旅,尤其在芭东过的那一夜,永世难忘。


不知不觉 L 遛过了只有在书中才见过的 Hive, Spark, Flink,Kylin, Redis, 还有正在研究的 Elastic, MongoDB , 一堆尚未听说过的 Splunk, HAHA, Vertica, RocksDB.  


虽然见不到熟知的 SQL Server 和 Oracle 大佬,但 big data 界的大佬都是见了个遍,也算没白花这个机票钱。L 逛得也累了,出来场子透透气,看到旁边的 Starbucks,顿时来了劲,早想尝一口美国正宗的星爸爸了,可不能错过。


刚嘬了两口的 L 再次来到绿色阵营门口,正好碰上 Spark 和 SQL Server 也出来透气,两人夹着烟,正你一句我一句的攀谈起来。


SQL Server: 小 S, 听说你最近动作很大啊。

Spark : 大 S, 哪有的事嘛。不过吃口饭而已。


说完,两人都失口大笑,L 看他们,觉得比兄弟还亲。


SQL Server: 小 S, 我们的很多老顾客说,你们很快。你说说,你们到底快在哪里了嘛?

Spark: 快是男人的必备技能,好吧。

SQL Server: 说正经的呢!

Spark: 你看看你们,都老了呢。不中用了吧。

SQL Server: 去,走了,聊不下去了。


Spark: 哈哈哈,好好好。 来支笔,我给你画一下。

L 看着 Spark 在白墙上,慢慢画出了这幅草图:

SQL Server: 这也不能说明什么问题吧


Spark: 你仔细看。 你家的分布式,顶多 8 台机,连着 Master 一起算,顶多9 台。那么这 9 台能否同一时间处理同一个数据集呢? 肯定是不行的,对吧。因为这些 机器之间的数据总是存在一定的延时窗口,同步的机器只能有 3 台,假定是 s1 状态,而另外几台机器都是存着 s0 的状态。 而我们家的集群就不一样了,要几台有几台,分分钟上线 1000 台也是小事。如果将 10T 数据均分到这些集群的机器上,并且都存在内存中做计算,你想快,这还是事儿嘛?


SQL Server: 难怪我们的部分客户都开始动摇了

Spark: 再想一想,你们那 sql server 一核心 $15000, 人家 10 核心就被成本整死了,搭上 windows server 一核心 $6000, 贸易战咯,钱不好赚啊。


SQL Server: 那你们的数据源来自哪里呢?把这些数据源均分到每台机器也不好算啊

Spark: 数据源都来自你们的库里啊。我们有 JDBC, 均分那是细节问题,配置一下分区就可以了。大 S , 我再给你画一张图,保你明白。

整个流程都明白了吧。就是这么简单,将你们的数据先定义好,分成多个线程来抽。只是怕线程开多了,把你们给堵死,哈哈。


SQL Server : 看上去好像很简单的样子嘛。来给我讲讲细节呗,比如你们是用什么接口语言来抓我们库里的数据啊,你们的 Master 是怎么调度那么多的 Job 呢?

Spark: 看家本领都 show 给你了,也不给我买杯星爸爸,不讲 。

SQL Server: 淘气!


Spark 头也不回,走掉了。。。留下 SQL Server 还在看着那两幅图,突然他想到了什么,掐掉烟赶紧跑回去了。


L 来到白墙前,打开 Mac, 在有道云笔记本上,开始写道:

在我们欢天喜地迎接超级长假的时候,地球的另半面拉斯维加斯正在进行着一场超级火爆的 GIIS (Global Information Industry Summit)峰会。。。


故事纯属虚构,您乐了就成


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31553767/viewspace-2215788/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论
SQL 的世界,也可以很精彩

注册时间:2018-09-08

  • 博文量
    12
  • 访问量
    3900