如何成为真正发挥大数据作用的数据驱动型公司?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

作者是业界资深的数据分析师,人工智能投资人,他在文章里给我们介绍了什么是大数据的来源,目前在数据领域的初创公司与现有巨头的竞争现状,各自在数据领域所采取的不同做法,数据分析工作的外包,为什么有关大数据的项目总是会失败?

在本章节中,我想试着描述、分享一下大数据在公司商业运营情境当中所扮演的角色。

大数据的能力是从何处而来?

首先,我想先花一点时间来谈谈有关数据的价值,数据所发挥的作用,它是从何处而来的。

之前我说过,「企业专家中心「(Centre Of Excellence) 这个部门非常之重要,它作为最前沿的公司职能部门,负责将数据的角色引入到公司,并将其功能放大化。它的主要职能就是对跨部门的工作进行协调,具体包括了下面这几项内容:

l 对企业的技术架构进行维护和升级;

l 决定应该收集什么样的数据,从哪个部门来收集这些数据;

l 推动人才招募计划;

l 制定「关于从数据中获取真相」的流程环节以及战略,并制定有关隐私、合法合规性、以及行业道德规范标准的政策制度。

但是,除此之外还存在其他的管理架构和形式。也许对你现有的商业模式来说,还存在匹配程度更高的管理架构和形式,

数据分析、组织结构模式

其实,在商业模式和数据分析基础的结合上,存在着好多种组合方式,商业单元(BU)各自独立,各自为战是一种法子;相互独立的 BU 为了某些具体的项目相互协作也是一种法子;企业内部治理(公司治理的金字塔顶端)是一种途径;外部中心(企业专家中心)也是一种途径。

数据初创公司与数据垄断型公司的对决

到底是数据初创公司胜出?还是数据垄断型公司胜出?这个答案不可能清楚地给出,里面有太多需要考虑到的变量,尤其跟公司本身所处的行业,还有所持有的竞争优势有关。最重要的一点是,商业策略的制定,跟公司处于哪个成长阶段有着莫大的关系。

尽管从历史经验上我们可以看出:很多小公司在结构上比大公司要有着明显的优势(就比如说一些初创公司在管理数据上面比大型药品公司要做的出色的多),但是这并不能说:公司越是初期,在数据处理和应用上的成熟度更高。

更准确的说法是:因为小公司本身的灵活性,它们在这方面行动会非常迅速,而且因为本身基数小,所以很容易在增长比例上大幅超越大公司。

在这里,我想要强调的重点是:初创公司和大公司,在面对数据问题,尽管目标一样,但是采取的路径和方式方法是截然不同的。我将这两种方法分别称之为:「回溯型方式」和「前瞻型方式」

「前瞻型方式」一般适用于小型初创公司,更准确的说,是那些刚刚进入行业不久,短期内还无法产出大量的数据,但是很快就会实现。正因为这一点,决定了它们从一开始就要制定一个高效实用数据的战略。

「回溯型方式」更适合于已经在行业里扎根多年的大公司,它手上握有海量数据,但是它们不知道怎么使用,比如如何将数据向某个中心枢纽集中。

前瞻型方式

采取这种方式的初创公司不拘泥于过去既定的任何组织架构,而且从一开始,为了某种长期的愿景,它就制定出非常严格的数据政策,以避免未来在数据领域出现任何的突发状况。而且,它一开始就投入大量的资源和时间,如果做对了的话,那么它会绕开接下来运营发展中的种种不便。

一开始就制定好一个完善的数据政策,能够很好地满足初创公司在接下来发展中,处于各个不同发展阶段时的需要。更重要的是,年轻的公司所受的约束较少,这种约束不仅体现在内部,比如官僚层级还没有形成;更体现在外部,比如政策法规上面扶持鼓励远远多过约束限制。而且它们往往对风险的接受度较高,使得它们愿意去测试和应用很多前沿科技,它们更愿意关注高质量的数据,而不是追求数据量的积累以便获得研发的基础。

回溯型方式(已有的大公司)

大公司往往会遇到下面的两个问题:

1. 它拥有的数据量确实非常大,但是它们不知道该如何是好。

2. 它们手里有数据,而且头脑中已经存在着明确的目的,但是因为数据质量达不到标准,数据整合方式上面并不完善,以及配套技能上不过关,它们连启动这个项目都做不到。

先说第一种情况。这样的公司往往是刚试着转型到数据驱动领域,它是有数据,但是不知道如何从中提取出有价值的东西出来。鉴于很多大公司的工作岗位要求都很明确,工作任务都被塞的很满,要求也比较高,所以某些时候它是无法做到公司内部进行创新的,也就是说,它们太忙了,根本抽不出时间。有些行业,比如银行业、金融科技行业,这个问题体现的尤其明显。

关于这个问题,我认为一开始就要聘请一名专门在商业想法、战略上做创新的领导人进来。这个人富有经验,能够成为「数据驱动」理念的传道者,哪怕他不具备非常强大的计算机技术背景,他也能够为整个公司带来非常宝贵的建议和想法。

有了这样一个角色的存在之后,再去考虑找一名合格的数据分析师。

让我们再来看第二种情况。他们手上有数据,也有明确的目的,但是不知道如何利用它们。我认为这存在着两种解决方案:

1. 公司从「一张白纸」出发,建立某种全新的数据平台,团队,以及以数据为核心的文化;

2. 公司直接将数据分析工作以及与数据有关的问题外包出去。

第一种方式如果一切进展如预期一样,肯定会带来更加稳健强劲的发展,但是成本也比较高。所以这个时候决策者是需要权衡成本收益谁大谁小的。

第二种方式是数据分析工作的外包。大公司一般倾向于选择某些大学作为数据分析工作的外包方。理由很简单:大学一般来说都比较缺钱,也需要数据来进行一些研究,从而方便最终形成论文报告。一般它们的报价也比专注于做数据分析的初创公司要低很多,更何况大学机构中不缺人才,不缺时间,不缺意愿,有足够多的理想条件来收拾整理一堆乱七八糟的数据。

相比之下,初创公司以盈利为目标,选择它就意味着较高的成本,但是它也是有优势的。往往这样的公司里聚集着世界最顶尖的数据分析人才,而它本身就掌握着很多非常有价值的应用研究案例和数据库,这些东西都是大学机构所比拟不了的。

但无论你是选择大学机构还是初创公司,都存在着一个绕不开的问题:数据的隐私安全性。你需要问下面的这些问题:

公司外包出去的数据都是什么?第三方机构是如何保证这些数据的安全性的?它们是怎么存储数据,决策机制又是怎样的?

除了这两种办法之外,其实还有一些「旁门左道」,能够让你近乎于免费的得到数据分析结构。这就是科技圈里日趋流行起来的黑客马拉松和某些行业内聚会。你在这其中可以看到很多人有数据分析的才能,也能通过公开自己的数据,免费地拿到数据分析结果。

为什么大数据项目很容易失败?

原因来自各个方面:

缺少商业目标和规划;

无法正确的找出需要解决的问题,缺少解决方案规模化的路径;

缺少 C 级管理人员或者高管的认可及支持;

过度投入大量时间和金钱,尤其是队伍中人才组成不合理,这一点尤其常见;

不合理的预期;

公司内部的屏障:比如存在很多数据走不出来的 “深坑”,团队内部糟糕的沟通机制,基础设施问题等等;

将这项工作看作是一时的项目,而不是持续性的学习过程;

数据管理、保护、隐私方面做的不到位。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
27天前
|
存储 大数据 数据挖掘
【数据新纪元】Apache Doris:重塑实时分析性能,解锁大数据处理新速度,引爆数据价值潜能!
【9月更文挑战第5天】Apache Doris以其卓越的性能、灵活的架构和高效的数据处理能力,正在重塑实时分析的性能极限,解锁大数据处理的新速度,引爆数据价值的无限潜能。在未来的发展中,我们有理由相信Apache Doris将继续引领数据处理的潮流,为企业提供更快速、更准确、更智能的数据洞察和决策支持。让我们携手并进,共同探索数据新纪元的无限可能!
77 11
|
2月前
|
存储 分布式计算 大数据
MaxCompute 数据分区与生命周期管理
【8月更文第31天】随着大数据分析需求的增长,如何高效地管理和组织数据变得至关重要。阿里云的 MaxCompute(原名 ODPS)是一个专为海量数据设计的计算服务,它提供了丰富的功能来帮助用户管理和优化数据。本文将重点讨论 MaxCompute 中的数据分区策略和生命周期管理方法,并通过具体的代码示例来展示如何实施这些策略。
81 1
|
2月前
数据平台问题之在数据影响决策的过程中,如何实现“决策/行动”阶段
数据平台问题之在数据影响决策的过程中,如何实现“决策/行动”阶段
|
2月前
|
存储 监控 安全
大数据架构设计原则:构建高效、可扩展与安全的数据生态系统
【8月更文挑战第23天】大数据架构设计是一个复杂而系统的工程,需要综合考虑业务需求、技术选型、安全合规等多个方面。遵循上述设计原则,可以帮助企业构建出既高效又安全的大数据生态系统,为业务创新和决策支持提供强有力的支撑。随着技术的不断发展和业务需求的不断变化,持续优化和调整大数据架构也将成为一项持续的工作。
|
2月前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之ODPS数据怎么Merge到MySQL数据库
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
2月前
|
消息中间件 数据采集 JSON
大数据 - DWD&DIM 行为数据
大数据 - DWD&DIM 行为数据
43 1
|
2月前
|
机器学习/深度学习 人工智能 分布式计算
理解并利用大数据的力量:解锁数据背后的价值
【8月更文挑战第7天】大数据已成为推动社会进步和经济发展的重要力量。通过理解并利用大数据的力量,企业可以解锁数据背后的价值,优化业务流程、提升决策效率和创新能力。然而,大数据应用也面临着诸多挑战和风险,需要企业不断学习和实践以应对。相信在未来的发展中,大数据将为我们带来更多的惊喜和机遇。
|
2月前
|
分布式计算 安全 大数据
MaxCompute 的安全性和数据隐私保护
【8月更文第31天】在当今数字化转型的时代背景下,企业越来越依赖于大数据分析来推动业务增长。与此同时,数据安全和隐私保护成为了不容忽视的关键问题。作为阿里巴巴集团推出的大数据处理平台,MaxCompute(原名 ODPS)致力于为企业提供高效、安全的数据处理解决方案。本文将探讨 MaxCompute 在数据安全方面的实践,包括数据加密、访问控制及合规性考虑等方面。
64 0
|
2月前
|
数据采集 数据挖掘 Python
python爬虫去哪儿网上爬取旅游景点14万条,可以做大数据分析的数据基础
本文介绍了使用Python编写的爬虫程序,成功从去哪儿网上爬取了14万条旅游景点信息,为大数据分析提供了数据基础。
|
2月前
|
存储 分布式计算 大数据
大数据处理竟然这么简单?学会这几招,你也能在数据洪流中游刃有余,秒变数据大师!
【8月更文挑战第6天】面对海量数据,有效处理成为关键。本文介绍大规模数据处理的核心挑战及解决方案,涵盖分布式存储(如HDFS)和计算(如Spark)。通过示例代码展示HDFS文件读写及Spark数据处理流程。此外,还强调了数据质量、安全及合理资源配置的重要性,助您在数据海洋中洞察先机。
59 1

热门文章

最新文章