ITPub博客

首页 > 应用开发 > IT综合 > 理解数据运营

理解数据运营

原创 IT综合 作者:御数坊 时间:2020-06-05 17:21:51 0 删除 编辑

基思·富特(Keith D. Foote)    2020年5月14日

https://www.dataversity.net/understanding-dataops/


图片来源网络 侵删


数据运营(DataOps,Data Operations)源起于敏捷哲学,它依赖于自动化技术,致力于提高信息处理的速度和准确性,包括数据的访问、分析、集成以及质量控制。起初,数据运营只是作为一种最佳实践,随之逐渐发展和成熟,现在已经成为开展数据分析的全能方法。此外,它依赖并促进着数据分析团队与IT运营团队之间的良好沟通。

从本质上讲,数据运营主要探讨的是如何简化数据的管理方式和产品创建方式,并将这些改进与业务目标相协调。例如,如果企业的目标是降低客户流失率,那么可以使用客户数据开发一个推荐引擎,根据客户的兴趣为其提供特定的产品信息——这些客户可能想要的某些产品。

实现数据运营通常需要配套的人力、组织以及资金保障。数据科学团队必须能够访问构建推荐引擎所需的数据以及用于部署推荐引擎的工具,然后才能将其与网站集成。因此,在实施数据运营计划前,需要仔细考虑组织的目标和预算问题。


01
敏捷、DevOps和数据运营
2001年发表的《敏捷宣言》表达了一些富有远见的软件开发人员的真知灼见。他们认为需要对“开发软件”进行彻底的重新思考,包括推翻一些基本假设。这些务实的思考者更加看重个人和互动而不是过程和工具,强调软件的构建而不是全面的文档,响应变化而不是陷入计划的泥潭,更喜欢客户协作而不是合同谈判。敏捷是指一种关注客户反馈、协作和小规模快速发布的哲学。DevOps同样诞生于敏捷哲学。

DevOps是指将开发团队(代码创建者)和运营团队(代码用户)结合在一起的实践。DevOps是一种软件开发实践,专注于这两个团队之间的沟通、集成和协作,目的是更加快速地部署产品。DevOps的概念产生于2008年,当时安德鲁·沙弗(Andrew Clay Shafer)和帕特里克·德博瓦(Patrick Debois)正在讨论敏捷基础设施的概念。2009年,随着在比利时举行的第一届德沃斯日活动,这一理念开始传播开来。一场关于提高软件开发效率的对话逐渐演变成了一个旨在改变传统软件开发方方面面的反馈系统。变化的范围从编码到与各个利益相关者的沟通,以及持续部署软件。

数据运营是对敏捷和DevOps哲学的扩展,但侧重于数据分析领域。数据运营并不拘泥于特定的架构、工具、技术或语言,它具有相当的灵活性。而数据运营的支持工具将促进协作、安全、质量、访问、易用性和编排。

《信息周刊》(Information Week)的特约编辑莱尼•利伯曼(Lenny Liebman)在一篇题为《数据运营对大数据成功至关重要的三个原因》的文章中首次介绍了数据运营的理念。2017年,数据运营呈现迅猛增长的态势,与之相关的分析师报道、调查、出版物和开源项目等指标都显著增加。2018年,数据运营出现在了高德纳公司(Gartner)的数据管理技术成熟度曲线(Hype Cycle)上。

数据运营有它自己的宣言——专注于探寻减少完成一个数据分析项目所需时间的方法,从最初的想法到完成用于沟通目的的图形、模型和图表。数据运营通常使用被称为统计过程控制(SPC,Statistical Process Control)的方法来监控数据分析过程。通过对数据流的持续监控,当出现异常时,数据分析团队将会收到自动警报的通知。


02
数据运营的好处
数据运营的目标是促进数据科学家、IT人员和技术人员之间的协作,并通过每个团队的协同工作,以更快、更智能地利用数据。数据管理越好,数据就越好,也就越可用。基于大量的数据和更好的数据,才会有更好的分析,进而转化为更好的洞察力、更好的业务战略和更大的利润。下面列出了开展数据运营的五个好处:

1)数据问题/解决能力:每12到18个月,创建的数据量就会翻一番。数据运营有助于快速高效地将原始数据材料转化为有价值的信息。


2)增强的数据分析:数据运营促进了多方面分析技术的使用。新的设计用于辅助数据分析的机器学习算法正变得流行。这些算法将帮助数据专家在将数据交付给客户之前对其进行收集、处理和分类,并可以在尽可能短的时间内提供来自客户的反馈,促进对快速变化的市场需求作出迅速的反应。


3)寻找新的机会:数据运营打开了灵活性的大门,并改变了组织内的整个工作流程。优先权切换以及新机会将以范式转移的形式出现。这有助于建立一个新的生态系统,在办公室和部门之间将不再有边界,各类人员,如开发人员、运营商、数据工程师、分析师和营销顾问可以进行实时协作,规划和构建实现公司目标的方式。将不同领域的专家聚集在一起的协同作用加快了响应时间,并提供了更好的客户服务,进而增加了企业的利润。


4)提供长期指导:数据运营促进了数据管理的持续实践。它使用多租户合作模式帮助协调来自于不同客户的需求。数据专家可以组织数据、评估数据源并研究来自客户的反馈。实现基于机器学习的数据运营可以使这些(以及更多)过程自动化,从而使业务更加高效。

数据运营应该被看作是一条可支持在数据源和数据用户之间实现全面的互操作性(交换和使用信息)的双向道路。通过使用自动化流程,数据分析和数据管理变得更加精简,相关步骤确保了产品的快速部署、交付以及无缝改进。


03持续分析

持续分析是近期的一项主要进展。它不再使用复杂的批量数据通道和ETL,取而代之的是云计算和微服务。持续数据处理支持实时交互,并在占用较少资源的情况下提供即时洞见。这种连续的方法允许同时运行多个无状态(不保存数据)引擎,从而不断丰富、分析和处理数据。因此,“持续分析”方法能够更快地给出答案,同时也使IT工作更简单、成本更低。


传统上,数据科学家与IT开发团队是相互分离的,因为他们的技能(数学、统计学和数据科学)使他们与众不同。然而,持续交付的方法使得大数据团队可以在更短的周期内发布他们的软件。在这种情况下,数据科学家使用与普通程序员相同的代码库编写代码,并将代码保存在Git等代码库中,而负责编写连接数据源的API的程序员也是如此。大数据工程师和DevOps工程师共同在Ansible和Docker中编写剧本和脚本,而测试通常是整个流程中以自动化方式执行部分。


持续分析本质上是对持续交付软件开发模型的扩展。使用此模型的目的是为了发现新的方法,以便将编写分析代码的工作与安装大数据软件相结合,而且最好是在可以对软件进行自动测试的体系中。


04
实现数据运营

受到系统灵活性和数据质量较差的挑战,越来越多的组织已经发现数据运营将会是一种解决方案。数据运营包括促进更快、更可靠的数据分析所需的相关工具和流程。虽然实现数据运营的方法并不是唯一的,但一些基本步骤包括:


1)数据民主化:缺乏信息/数据是获得更好决策的障碍。CEO、一般管理人员、数据科学家、IT和商业利益相关方都可以访问组织的数据。一个自助服务式的的数据访问程序以及支持它的基础设施是必不可少的。此外,深度学习和机器学习应用都需要不断的新数据流来完成学习和改进。

2)应用平台和开源工具:数据科学平台必须包含在数据运营体系中,并且能够支持多种框架和语言。数据移动、集成、编排以及性能等,对于平台也很重要。在开源工具可用的情况下,就不需要、也不应该再重新发明轮子。

3)自动化、自动化、还是自动化:为了更快地完成数据密集型项目,自动化是绝对必要的。它可以帮助消除诸如数据分析、管道监控和数据测试等耗时的手动操作。微服务促进了自立性,使数据科学家可以自由地将模型构建和部署为API。这反过来又允许工程师可以根据需要来集成代码,而无需重构。总的来说,这会提高生产率。

4)治理得当:在建立成功蓝图(解决您的数据科学团队所需的工具、流程、优先级、基础设施和关键绩效指标)之前,对影响业务的长期决策要谨慎。

5)推倒烟囱:协作对于一个成功的数据运营计划至关重要。由于数据“烟囱”造就了只有少数人才能访问数据的境地,应该被消除。用于实现数据运营的平台和工具应该支持更大的目标,即让人们更有效地使用数据。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31556435/viewspace-2696558/,如需转载,请注明出处,否则将追究法律责任。

全部评论

注册时间:2018-09-27

  • 博文量
    13
  • 访问量
    5259