数据科学领域在至少10年的时间里快速发展,尽管时间很短,但数据文化已经开始成为主流。即使是来自石油、天然气或矿业等传统领域的企业,也从数据作为会计需求的商品转变为数据第一,甚至政府也宣布了国家数字战略。也许今天没有一家公司没有宣布他们是数据驱动的,并且每一个决定都是基于数据的。诺亚·哈拉里(al Noah Harari)在他的《神之家》(Home Deus)一书中对数据宗教的兴起进行了反思。
随着数据文化的兴起,出现了各种各样的专业,今天,当我们遇到首席数据官、数据分析师、计算机视觉工程师、数据工程师、商业智能专家、数据产品经理、数据管理员等人时,我们不再感到奇怪。与此同时,像MLOps、DataOps或数据治理这样的整体方向似乎已经出现了。一切都取决于数据,目前没有任何迹象表明数据发展会放缓。然而,在此反思中,我们将弄清基本的定义:什么是数据管理,创建一个数据驱动的公司需要一个核心数据团队。
一 什么是数据管理
由数据管理协会(DAMA)提供的正式定义解释了数据管理是指在计划、政策、程序和实践的开发、执行和监督的活动,这些活动在它们的生命周期中交付、控制、保护和增强数据和信息资产的价值。
同时,Gartner Glossary提供了一个实用的定义:数据管理由实践、架构技术和工具组成,用于跨企业中的数据主题领域和数据结构类型实现对数据的一致访问和交付,以满足所有应用程序和业务流程的数据使用需求。
换句话说,一般来说,数据管理是一个专注于为终端用户证明数据、安全性及其质量的领域。该领域的主要议题可分为:
•数据库管理——关系数据库和NoSQL数据库的设计和维护是必不可少的,但同时对任何组织的部分用户都是隐藏的,普通用户在出现问题时就会知道。在开始从数据使用中获取数据之前,应该推出数据仓库或/和数据湖。随着数据文化的兴起,该领域也在不断发展。然而,业务用户理解只有在关键业务流程中使用了数据之后才投资于核心数据基础设施的重要性。
•数据集成——从不同的来源收集数据是任何分析的起点。这包括提取、加载和转换(ELT),这是ETL的一种变体,当数据被加载到目标平台时,它仍保持原始形式。
•数据治理,数据质量——GIGO(垃圾输入,垃圾输出)是众所周知的概念,每个分析师至少都遇到过一次数据质量问题。清理并保持数据的有序是数据驱动组织的主要概念。如果你不确定数据的质量你怎么能保证决策的质量。数据治理定义了要做的正确的事情,数据一致性和完整性是该过程的关键指标。
因此,数据管理是发展数据驱动型组织的基础或起点。与此同时,最终用户或首席执行官可能会在深入到数据分析和在数据驱动下重新设计现有业务流程之后感受到这种努力。
二 数据分析和数据管理
让我们定义什么是数据分析。Garner Glossary解释了分析从特定领域分析信息的过程,或者将BI功能的广度应用到特定的内容领域(例如,销售、服务、供应链)。
因此,正如我们在定义中看到的,数据分析至少是但不是生成业务价值的数据生命周期的最后阶段。数据字段之间存在高度重叠,但在我看来,主要的区别是数据管理更侧重于数据获取和准备,否则就是数据分析流程响应业务价值提取。
尽管数据管理是任何分析项目的重要组成部分,但只有在核心业务流程中开始实施分析活动后,它才开始对整个组织起重要作用。
三 数据团队的组织结构和发展
对于许多组织来说,当他们刚刚迈出进入数据驱动文化的第一步时,主要的问题是,他们应该将数据管理团队分离为两个专门的团队,还是一个团队。
在我所遇到的大多数情况下,这主要取决于两个要点:
•提供业务连续性所需的数据量
•商业客户的渴望程度
假设第一点很清楚,但第二点还需要解释。业务需求的数量与公司的数据文化水平相关。这意味着,如果客户缺乏数据素养,不熟悉数据的强大功能,不了解如何使用和使用什么来改进他们的流程,那么他们的需求就不会很好。
我没有给出结论,只是强调数据团队的发展包括与整个组织相同的过程部分。从一个完整的分析师小组开始,他们能够独立创建数据管道,研究它们,创建仪表板,找到见解并为最终用户解释。当业务用户在开发时,他们的需求也在上升,你必须拥有先进的技术和对其工作原理有深刻理解的人员。在这个阶段,对于一个小团队来说,要成为整个公司分析堆栈的专家是相当困难的。因为这个原因,你必须为新成员打开团队的大门,可能会考虑分离来支撑企业的深度应用。
四 为什么大多数数据治理计划都失败了?如何避免这些错误?
经常受到官僚主义和繁文缛节的影响;在任何组织中,数据治理都是一项具有挑战性的壮举。
与数据科学或工程项目不同,数据治理有效地实现了业务变化。不愿改变并不是一个新现象。1948年发表的一份名为《克服变革阻力》的期刊强调了工厂工人不同的参与率如何在接受上述变革方面产生了截然不同的结果。尽管这项研究可以追溯到70多年前,但人类的基本心理特征没有改变。那么,为什么数据治理经常以失败告终呢?
以下是四大原因:
# 1在数据治理视为一个限时的项目
#2当数据治理没有管理层的支持时
#3当数据治理与其他分析计划混淆时
# 4当固定在企业级治理而不是一个可执行的策略
1 当数据治理被视为一个有限时间的项目时
数据治理经常被视为一个时间有限的项目。这给实现不现实的目标带来了过度的压力。与业务涉众接触,解释数据治理的重要性,获得他们的支持,并推出培训需要时间。
花了很长时间!
此外,投资回报率缓慢上升,导致领导人失去耐心。
如果这被视为一个项目,那么就有一个项目即将结束的预期。相反,治理活动需要嵌入到整个业务中,并使业务正常运行。
仅仅是让人们意识到治理是他们的责任而不是IT的责任,就需要持续数月的努力。
通过拥有一个专门的治理团队,以设定目标和指标来领导业务变更,可以避免这种错误。但是,在需要的时候让专家参与进来,建立你自己的业务能力来领导这个功能。将数据治理视为一个新的单元,它负责在所有不同的业务领域实施治理。
2当数据治理没有管理层的支持时
我该从哪里开始呢?人们要么害怕他们的领导人,要么受到他们的鼓舞。哪一个更适合我们下次再讨论吧!
关键是,如果领导者和高管不支持这种嵌入数据治理的商业变革,这肯定会破坏整个计划。
高管们还将了解如何在各自领域内最好地实施变革,他们将知道如何团结自己的团队,并能够应对不可避免的阻力。
要避免这种错误,可以让主要的执行发起人,通常是CDO(首席数据官),他可以影响其他高管和高级领导团队支持这个想法。
3当数据治理与其他分析计划混淆时
然而,数据管理和分析之间的区别并不是很清楚。
我在这里解释为什么缺乏对数据管理的理解。
一个一生中花了很大一部分时间在分析项目上的人不可能在一夜之间成为数据管理专家。所以,如果你正在考虑重组你的团队,把数据治理的指挥棒交给你最好的分析同事;我劝你再想想!
一个由对这个领域没有激情的人领导的团队将不可避免地导致失败。
与执行工具、指标或仪表板的分析计划不同;数据治理嵌入需要策略构建和执行。雇佣外部人员来启动这个过程,同时让这个人来帮助建立内部能力,这是很常见的。
通过使用团队中最受信任的影响者来领导主动性工作,可以避免这种错误。您可以自由地按照最大的分析计划松散地运行数据治理嵌入,但是,不要将它们连接起来。否则,你的目标可能会偏离轨道。
4当固定在企业级治理而不是一个可执行的策略
这是指战略被抛到一边,专注于在尽可能短的时间内完成整个业务。
大象必须一口一口地吃下去。但从这个类比延伸下去,大象也必须被烹调和准备好,一次一片。
在企业范围内启动时,必须从一两个业务领域开始。特别是那些对数据治理及其有影响力的领导层有一定忠诚度的领域。这样做的原因是为了确保该计划在最初几周不会遇到障碍。这也是新团队和新战略最容易受到诋毁者破坏的时候。
通过使用一些领域的成功作为例子,让其他领域参与到数据治理的推出中,可以避免这个错误。人类过度地患有FOMO(害怕错过),所以在一些领域嵌入数据治理意味着其他领域也会想要参与进来。
五 结论
这绝不是一个详尽的清单;单就糟糕的策略而言,我还可以轻松地补充更多要点。然而,我希望这篇简洁的文章能帮助您理解典型的数据治理问题以及如何避免它们。