ITPub博客

首页 > 云计算 > 公有云实践 > 2019年大数据领域十大趋势盘点

2019年大数据领域十大趋势盘点

翻译 公有云实践 编辑:李代丽 时间:2019-01-31 18:24:11 0 删除 编辑

如今,几乎每家企业都在大谈数字化,推动数字化创新。其实,在整个变革过程中,数据才是最重要的一环。所以,“数据变成现代企业竞争的新石油资源”,这种说法一点都不夸张,大家都在试图抢占更多数据。但实际上,到今天为止,从大量收集数据到转化为实际的数据价值,还有一定的挑战。只有那些能够解决大数据挑战的企业,才能真正在数字化创新的成果中获益。

那么,2019年大数据领域到底有哪些新趋势呢 ?本文总结了十大要点!

1. 数据管理仍然是一个巨大难题

大数据分析背后的逻辑,再清楚不过。在大量数据中发现隐藏的信息模式,并通过机器学习模型发现这些模式,用于生产,以自动化模式进行操作。在必要时,还要重复清洗一些数据。

看上简单,实际上从概念到投入生产环境,存在着巨大沟壑。特别对于初学者来说,从不同的数据库收集数据需要ETL和很多专业的数据库技能。清洗数据并根据大数据进行机器学习训练,也需要大量的时间和金钱,尤其在使用深度学习技术时,挑战更大。也就是,要想通过大数据挖掘出有价值的内容,需要特殊技能,甚至需要一整套更高明的解决方案。正是这样的原因,数据管理依然有提高的空间,数据工程师也因此成为最受企业赏识的职业角色。

2. 数据孤岛问题激增

这不是一个很难理解的问题。在五年前,Hadoop正处于鼎盛时期,从那时开始,我们就在想把所有数据(用于分析和事务工作负载)合并到一个平台上。由于种种原因,这一想法从未真正实现。其中最大的难题是,不同的数据类型有不同的存储需求。关系型数据库、图形数据库、时间序列数据库、HDFS和对象存储都有各自的优缺点。如果开发人员将所有的数据都塞进一个适合所有人的数据湖中,那么他们就无法最大限度地发挥优势。

在某些情况下,将大量数据收集到一个地方是有意义的。例如,像S3这样的云存储为企业应用提供了灵活且具有成本效益的存储,而Hadoop可以用于非结构化数据存储和分析。但对于大多数企业来说,他们采取的方式,只是选择建立了新的架构平台,当平台越来越多,数据孤岛问题也就随之扩散。

3.流媒体分析技术迎来最具突破性的一年

处理新数据的速度越快,您的企业就会越好。这就是实时或流媒体分析背后的驱动力。但是现实情况是是,实现起来相当困难,而且成本也很高。现在,随着企业分析团队的成熟和技术的不断进步,这种情况正在发生变化。

NewSQL数据库、内存中的数据网格和专用的流分析平台正在围绕一个共同的功能聚合,即对传入数据的超快处理,使用机器学习模型来自动化决策。如果再与Kafka、Spark和Flink等开源流框架中的SQL功能结合起来,企业就可以在2019年取得真正意义上的进展。

4. 数据治理带来了风险

有些人把数据称为“新石油”。它也被称为“新货币”。不管拿什么比喻,数据是有价值的,这一点已达成共识。但是,如果不小心对待,数据治理会带来风险。一项在线调查显示,2018年有近6000万美国人受到身份认证盗窃的影响,比2017年增加了300%。数据泄露问题已经将大数据推到了风口浪尖。

大多数企业都已经意识到,大数据的野蛮增长时代将结束。虽然暂时没有人会对数据滥用处以罚款,但是可以肯定的是,这种行为将不再被大众容忍。

5. 随着技术的发展,大数据技能也在不断变化

人力资源通常是大数据项目中最大的成本,因为人最终是构建、运行并让大数据投入使用的执行者。找到拥有合适技能的人,对于将数据转化为价值是绝对关键的,不管你使用的是什么技术。

但随着技术的进步,我们所理解的技能外延,也在发生着新变化。到2019年,你会看到把神经网络投入生产的人才,会更加炙手可热。

在纯粹的数据科学家中,Python继续在语言中占据主导地位。尽管对于了解R、SAS、Matlab、Scala、Java和C语言来说,只了解Python的人,还欠缺很多技能。

随着数据治理的加速发展,数据管理员会成为最受欢迎的人才,能够使用核心工具(数据库、Spark、Airflow等)的数据工程师,将会看到新的发展机会。

实际上,自动化技术的进步,企业可以通过简单的数据分析完成更多的工作。与统计和编码方面的专业知识相反,数据和业务方面的知识可能会让你在大数据的道路上走得比你想象的更远。

6. 深度学习变得更扎实

深度学习带来了前所未有的颠覆力,为人工智能的高速发展奠定了鉴定的基础。但到2019年,这一势头丝毫没有减弱的迹象。企业将继续尝试像TensorFlow、Caffe、Keras、PyTorch和MXnet这样的深度学习框架,以寻求将大量数据集实现商业化。

企业将把深度学习扩展到最初的用例之外,比如计算机视觉和自然语言处理(NLP),并找到实现这种强大技术的新方法。大型金融机构已经发现,神经网络算法在识别欺诈方面比“传统”机器学习方法更有效,对于新用例的探索将在2019年继续前行。

7. Kubernetes扩展趋势明

软件定义世界,而操作系统可以控制软件。对于开发人员来说,Kubernetes可以编排大数据的底层应用。

Kubernetes来源于谷歌,用于管理和编排云中的虚拟Linux容器,它已经成为大数据生态系统中最热门的技术之一。当多云和混合部署变得越来越普遍,Kubernetes是将所有应用结合在一起的粘合剂。

大数据软件供应商曾经把软件运行在Hadoop上,现在却想办法运行在Kubernetes上。可以说,支持Kubernetes,已经成为软件供应商的首要需求,甚至包括Hadoop供应商。

8.云安全不容忽视

云市场很大,而且越来越大。2018年,三大公有云供应商的增长率接近50%。尤其在有了大量的大数据工具、技术以及廉价的存储空间之后,云更成为最佳选择。

到2019年,会有越来越多的小型企业和初创企业成为主流的公有云提供商的客户,这些云提供商正投入大笔资金建设随时可运行的大数据平台,其中包括自动学习、机器学习、分析数据库和实时流分析等。

未来,规模较大的公司也会发现云计算难以抗拒,他们可能看重的不只是成本。目前,这些大公司上云的阻力依然是安全问题,他们不敢把所有鸡蛋放在一个云的篮子里。

9. 新技术将会出现

当今推动创新的许多主流大数据框架和数据库都是由硅谷的网络巨头创建的,并作为开源软件发布。没有迹象表明大数据发展有什么不好的消息,如果非要说有什么不同的话,那就是大数据创新正在加速。

2019年,大数据技术人员最好能在他们的大数据平台架构中保留尽可能多的灵活性。由于性能的原因,我们很容易将应用程序与特定的技术结合起来,但是当出现更好更快的技术时,这可能会让我们陷入另外一个坑。

所以,尽可能保持应用程序的松耦合状态,但又不失紧密集成的能力,因为最终必须将原有的系统拆分并重新构建。

10. 大数据将推动智慧地球的发展

如今,智能设备正不断地收集数据,并已遍布于我们的周围环境。

在消费者需求的驱动下,智能设备正以惊人的速度激增。在亚马逊Alexa和谷歌Assistant这两大领先平台上,智能设备生态系统如雨后春笋般涌现,为消费者提供了将远程访问和人工智能融入照明、暖通系统、门锁和家电等一切事物的机会。

在5G无线网络的推动下,如今在智能家居领域所发生的一切,将很快在全球范围内发生。消费者将能够与多种设备交互,在我们所到之处提供新的个性化服务。

总之,2019年,大数据将在多个领域取得进展。虽然大数据和人工智能带来了大量的技术挑战、法律问题和伦理障碍,但大数据带给世界的好处实在太大,不容忽视。

来自 “ https://www.datanami.com/2019/01/21/10-big-data-tr ”,原文链接:http://blog.itpub.net/31545808/viewspace-2565352/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2018-09-19

  • 博文量
    58
  • 访问量
    76147