如何成为真正发挥大数据作用的数据驱动型公司?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

作者是业界资深的数据分析师,人工智能投资人,他在文章里给我们介绍了什么是大数据的来源,目前在数据领域的初创公司与现有巨头的竞争现状,各自在数据领域所采取的不同做法,数据分析工作的外包,为什么有关大数据的项目总是会失败?

在本章节中,我想试着描述、分享一下大数据在公司商业运营情境当中所扮演的角色。

大数据的能力是从何处而来?

首先,我想先花一点时间来谈谈有关数据的价值,数据所发挥的作用,它是从何处而来的。

之前我说过,「企业专家中心「(Centre Of Excellence) 这个部门非常之重要,它作为最前沿的公司职能部门,负责将数据的角色引入到公司,并将其功能放大化。它的主要职能就是对跨部门的工作进行协调,具体包括了下面这几项内容:

l 对企业的技术架构进行维护和升级;

l 决定应该收集什么样的数据,从哪个部门来收集这些数据;

l 推动人才招募计划;

l 制定「关于从数据中获取真相」的流程环节以及战略,并制定有关隐私、合法合规性、以及行业道德规范标准的政策制度。

但是,除此之外还存在其他的管理架构和形式。也许对你现有的商业模式来说,还存在匹配程度更高的管理架构和形式,

数据分析、组织结构模式

其实,在商业模式和数据分析基础的结合上,存在着好多种组合方式,商业单元(BU)各自独立,各自为战是一种法子;相互独立的 BU 为了某些具体的项目相互协作也是一种法子;企业内部治理(公司治理的金字塔顶端)是一种途径;外部中心(企业专家中心)也是一种途径。

数据初创公司与数据垄断型公司的对决

到底是数据初创公司胜出?还是数据垄断型公司胜出?这个答案不可能清楚地给出,里面有太多需要考虑到的变量,尤其跟公司本身所处的行业,还有所持有的竞争优势有关。最重要的一点是,商业策略的制定,跟公司处于哪个成长阶段有着莫大的关系。

尽管从历史经验上我们可以看出:很多小公司在结构上比大公司要有着明显的优势(就比如说一些初创公司在管理数据上面比大型药品公司要做的出色的多),但是这并不能说:公司越是初期,在数据处理和应用上的成熟度更高。

更准确的说法是:因为小公司本身的灵活性,它们在这方面行动会非常迅速,而且因为本身基数小,所以很容易在增长比例上大幅超越大公司。

在这里,我想要强调的重点是:初创公司和大公司,在面对数据问题,尽管目标一样,但是采取的路径和方式方法是截然不同的。我将这两种方法分别称之为:「回溯型方式」和「前瞻型方式」

「前瞻型方式」一般适用于小型初创公司,更准确的说,是那些刚刚进入行业不久,短期内还无法产出大量的数据,但是很快就会实现。正因为这一点,决定了它们从一开始就要制定一个高效实用数据的战略。

「回溯型方式」更适合于已经在行业里扎根多年的大公司,它手上握有海量数据,但是它们不知道怎么使用,比如如何将数据向某个中心枢纽集中。

前瞻型方式

采取这种方式的初创公司不拘泥于过去既定的任何组织架构,而且从一开始,为了某种长期的愿景,它就制定出非常严格的数据政策,以避免未来在数据领域出现任何的突发状况。而且,它一开始就投入大量的资源和时间,如果做对了的话,那么它会绕开接下来运营发展中的种种不便。

一开始就制定好一个完善的数据政策,能够很好地满足初创公司在接下来发展中,处于各个不同发展阶段时的需要。更重要的是,年轻的公司所受的约束较少,这种约束不仅体现在内部,比如官僚层级还没有形成;更体现在外部,比如政策法规上面扶持鼓励远远多过约束限制。而且它们往往对风险的接受度较高,使得它们愿意去测试和应用很多前沿科技,它们更愿意关注高质量的数据,而不是追求数据量的积累以便获得研发的基础。

回溯型方式(已有的大公司)

大公司往往会遇到下面的两个问题:

1. 它拥有的数据量确实非常大,但是它们不知道该如何是好。

2. 它们手里有数据,而且头脑中已经存在着明确的目的,但是因为数据质量达不到标准,数据整合方式上面并不完善,以及配套技能上不过关,它们连启动这个项目都做不到。

先说第一种情况。这样的公司往往是刚试着转型到数据驱动领域,它是有数据,但是不知道如何从中提取出有价值的东西出来。鉴于很多大公司的工作岗位要求都很明确,工作任务都被塞的很满,要求也比较高,所以某些时候它是无法做到公司内部进行创新的,也就是说,它们太忙了,根本抽不出时间。有些行业,比如银行业、金融科技行业,这个问题体现的尤其明显。

关于这个问题,我认为一开始就要聘请一名专门在商业想法、战略上做创新的领导人进来。这个人富有经验,能够成为「数据驱动」理念的传道者,哪怕他不具备非常强大的计算机技术背景,他也能够为整个公司带来非常宝贵的建议和想法。

有了这样一个角色的存在之后,再去考虑找一名合格的数据分析师。

让我们再来看第二种情况。他们手上有数据,也有明确的目的,但是不知道如何利用它们。我认为这存在着两种解决方案:

1. 公司从「一张白纸」出发,建立某种全新的数据平台,团队,以及以数据为核心的文化;

2. 公司直接将数据分析工作以及与数据有关的问题外包出去。

第一种方式如果一切进展如预期一样,肯定会带来更加稳健强劲的发展,但是成本也比较高。所以这个时候决策者是需要权衡成本收益谁大谁小的。

第二种方式是数据分析工作的外包。大公司一般倾向于选择某些大学作为数据分析工作的外包方。理由很简单:大学一般来说都比较缺钱,也需要数据来进行一些研究,从而方便最终形成论文报告。一般它们的报价也比专注于做数据分析的初创公司要低很多,更何况大学机构中不缺人才,不缺时间,不缺意愿,有足够多的理想条件来收拾整理一堆乱七八糟的数据。

相比之下,初创公司以盈利为目标,选择它就意味着较高的成本,但是它也是有优势的。往往这样的公司里聚集着世界最顶尖的数据分析人才,而它本身就掌握着很多非常有价值的应用研究案例和数据库,这些东西都是大学机构所比拟不了的。

但无论你是选择大学机构还是初创公司,都存在着一个绕不开的问题:数据的隐私安全性。你需要问下面的这些问题:

公司外包出去的数据都是什么?第三方机构是如何保证这些数据的安全性的?它们是怎么存储数据,决策机制又是怎样的?

除了这两种办法之外,其实还有一些「旁门左道」,能够让你近乎于免费的得到数据分析结构。这就是科技圈里日趋流行起来的黑客马拉松和某些行业内聚会。你在这其中可以看到很多人有数据分析的才能,也能通过公开自己的数据,免费地拿到数据分析结果。

为什么大数据项目很容易失败?

原因来自各个方面:

缺少商业目标和规划;

无法正确的找出需要解决的问题,缺少解决方案规模化的路径;

缺少 C 级管理人员或者高管的认可及支持;

过度投入大量时间和金钱,尤其是队伍中人才组成不合理,这一点尤其常见;

不合理的预期;

公司内部的屏障:比如存在很多数据走不出来的 “深坑”,团队内部糟糕的沟通机制,基础设施问题等等;

将这项工作看作是一时的项目,而不是持续性的学习过程;

数据管理、保护、隐私方面做的不到位。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
1月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
258 7
|
1月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
43 2
|
1月前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
82 1
|
2月前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
54 3
|
21天前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
42 4
|
27天前
|
存储 大数据 数据管理
大数据分区简化数据维护
大数据分区简化数据维护
24 4
|
1月前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
58 3
|
1月前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
66 2
|
1月前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
102 2