发布时间:2018-06-06 20:15:43

如果你善于使用Pandas变换数据、创建特征以及清洗数据等,那么你就能够轻松地使用Dask和Numba并行加速你的工作。单纯从速度上比较,Dask完胜Python,而Numba打败Dask,那么Numba+Dask基本上算是无敌的存在。将数值计算分成Numba sub-function和使用Dask map_partition+apply,而不是使用Pandas。对于100万行数据,使用Pandas方法和混合数值计算创建新特征的速度比使用Numba+Dask方法的速度要慢许多倍。......【阅读全文】

阅读(3455) | 评论(0) | 转发(0)

发布时间:2018-06-06 10:09:12

Druid是一款支持数据实时写入、低延时、高性能的OLAP引擎,具有优秀的数据聚合能力与实时查询能力。在大数据分析、实时计算、监控等领域都有特定的应用场景,是大数据基础架构建设中重要的一环。Druid在滴滴承接了包括实时报表、监控、数据分析、大盘展示等应用场景的大量业务,作为大数据基础设施服务于公司多条业务线。本次演讲我们将介绍Druid的核心特性与原理,以及在滴滴内部大规模使用中积累的经验。......【阅读全文】

阅读(3701) | 评论(0) | 转发(0)

发布时间:2018-06-06 10:07:46

每年,市场上都会出现种种不同的数据管理规模、类型与速度表现的分布式系统。在这些系统中,Spark和hadoop是获得最大关注的两个。然而该怎么判断哪一款适合你?......【阅读全文】

阅读(2710) | 评论(0) | 转发(0)

发布时间:2018-06-06 10:05:55

从20世纪60年代中期开始至今,数据库系统的研究和开发已经走过了50多年的历程,经历了多次迭代。自进入大数据时代,没有企业还会问“数据是否重要?”,因为数据对业务的驱动价值日益明显。随着硬件技术的进步和数据种类、数量以及应用领域的多变,数据库的类型也变得越来越多,与数据库最相关的DBA人群成为受到冲击最大的一群人。......【阅读全文】

阅读(1793) | 评论(0) | 转发(0)

发布时间:2018-06-06 10:04:23

在过去几个月的走访调研中,针对Gartner《2017年数据管理技术成熟度曲线》做出的Hadoop“即将在到达生产成熟期之前衰落”的结论,笔者询问了数十位大数据领域技术专家的观点,Hadoop在国内大数据市场的地位正如笔者所预料的一样稳固。既然如此,那么是Gartner的结论有误吗?我们应该如何正确解读这份报告?抛开报告,Hadoop生态各组件到底表现如何呢?......【阅读全文】

阅读(1412) | 评论(0) | 转发(0)
给主人留下些什么吧!~~
留言热议
请登录后留言。

登录 注册