数据实践之美:32位大数据专家的方法、技术与思想. NO.1 数据化运营的方法论体系

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

NO.1

数据化运营的方法论体系

张子良

网名胖子哥,混迹IT十余载,好读书,不求甚解。经史子集,诸子百家,一样不通。唯喜老庄之道,凡事随心,顺天应时,无所苛求。术业有专攻,金融和互联网领域数据方向,数据架构、数据仓库、BI分析多有涉猎,所憾无一精通,唯有孜孜以求,继续践行。

从大数据,到互联网思维,有人迷失,有人觉醒,迷失者继续凌乱,而清醒者却开始探索其背后的本质。当喧嚣散去,山还是山,商业还是商业,本质未变,变的只是渠道和方法。互联网与大数据时代,如何回归商业的本质,数据化运营也许不是唯一的答案,但却会是一种有效的手段。

本文采用“5w+1h”方法论,试图构建数据化运营的方法论体系,带你走进数据化运营世界。全篇围绕“谁来做数据化运营?为什么需要数据化运营?数据化运营的目标和收益是什么?数据化运营如何做?何时做?从什么地方切入?”等问题一一展开,抽丝剥茧,若能给读者启示,足以快慰我心。

谁来做数据化运营(Who)

核心观点:数据化运营的组织架构=顶级组织+自顶向下。

“名不正,则言不顺;言不顺,则事不成”,关乎数据化运营能否实现的首要问题是组织架构,作为企业的数据化运营部门,必须是顶级组织,与各业务线平级,唯有如此才能解决企业数据化运营面临的最大问题:部门沟通与协调。有了顶级的数据化运营组织架构,自顶向下地推动数据运营的战略和规划,才能使其变成现实。

1.吃过螃蟹的阿里巴巴和要吃螃蟹的联想

数据化运营行业的翘楚非阿里巴巴莫属,早在2013年,阿里巴巴就通过组织架构调整,将原有的淘宝、天猫、一淘、阿里国际业务、阿里云、聚划算和阿里小企业业务7大事业群,拆分为了25个事业部,其中就包括数据平台事业部,从此数据战略正式进入阿里巴巴的公司战略。根据公开资料获取到的阿里巴巴调整后的组织架构示意如图1所示。

 

图1 阿里巴巴组织架构图2013

2016年3月18日,联想集团宣布了新一年的组织架构调整,调整后的结构如图2所示。

 

图2 联想集团组织架构2016

图2中,笔者最为关心的是数据中心业务集团的成立,作为一个传统IT设备厂商,居然能有此决心,姑且不论其成效如何,单凭这一点,实在令人叹服,而在此背后则是数据的魅力。

2.固若金汤的篱笆墙和拧巴的数据产品经理

业务线利益、部门利益、小群体利益是数据化运营路上必须翻过的大山,每个机构都会人为地设置各种数据互通的藩篱,好比是扎紧的篱笆墙。数据化运营最大的难题是数据打通,最浪费时间和精力的则是内部关于数据互通的沟通与协调,最拧巴的莫过于数据产品经理,一方面为数据分析模型殚精竭虑,一方面巧妇难为无米之炊。

因此,执行数据化运营的团队,在企业组织架构中,必须且只能够是与各业务线平级的顶级组织部门;数据化运营的推进模式必须且只能够是站在整个企业级视角自顶向下的推进,而非自底向上。

数据化运营的驱动力(Why)

核心观点:数据化运营的驱动力=业务运营瓶颈+数据技术成熟。

数据化运营的驱动力来源于企业的业务发展瓶颈和大数据技术的成熟,以互联网行业为例,用户规模已经趋于饱和,无法依靠野蛮拓荒的模式继续下去,开源与节流才是出路,通过开源拓展新的流量渠道,通过精耕细作盘活存量,有效解决企业业务发展的天花板问题。数据化运营依托数据化技术的成熟,伴随大数据技术的发展和开源分布式技术体系的成熟,为企业的数据化运营提供廉价高效的技术支撑。

1.业务运营瓶颈

任何一个行业的发展,都有自身的规律,由盛而衰,不可避免。企业的生命周期同样要经历发展、成长、成熟、衰退等阶段。成长期抢占更多的用户和市场份额,成熟期维持更久的时间,赚取尽可能多的利润,是每个企业运营的瓶颈。而要想解决该问题,数据化运营可以提供有力的支持,通过用户研究,提供个性化营销服务,有效增加用户粘性;通过行为分析,制定社会化推荐策略,有效提高销售成功率。

2.数据技术成熟

传统数据处理技术的瓶颈主要体现在分布式文件存储和并行计算能力上,海量数据的存储和计算,制约着企业数据应用的发展。以分布式文件系统HDFS、并行计算框架Map/Reduce为代表的大数据技术的日趋成熟,企业数据化运营的技术瓶颈得以突破。同时因为Hadoop的开源发展模式,有效降低了企业使用大数据技术的成本。

数据化运营的目标和收益(What)

核心观点:数据化运营的目标和收益=内部业务支持+外部数据变现。

数据化运营的目标在于改善现有业务和扩展新的领域。一方面通过数据分析,改善现有业务能力,如阿里的数据魔方;另一方面通过数据挖掘,衍生新的业务形态,如阿里的蚂蚁金服。数据化运营的收益与目标相呼应,可以体现在对内和对外两个方面,对内输出数据服务能力,辅助改善现有业务,获取更多的收益;对外拓展新的领域,形成新的业务形态,获取数据变现收益。

1.对内:数据让业务变得更好,却无法度量其收益

数据的价值,人人可知,却又人人不可知,原因在于当其应用于改善现有业务时,其输出为数据分析结果,而收益获取的方式却是业务推广和验证,彼此之间信息与知识单向流通,没有形成有效的数据的闭环。循环与迭代,是数据化运营的核心思想。数据团队提出分析模型,业务团队跟进验证并反馈结果;数据团队更新模型,业务团队跟进验证,如此往复,数据应用的效果则自然可以实现量化。

2.对外:数据变现,一半是海水,一半是火焰

伴随大数据技术的成熟,数据存储和计算的瓶颈得以解决,越来越多的企业投入到数据市场的建设中,诸如大数据交易所等机构相继出现。直接的数据买卖,其实是行走在一片灰色地带,在隐私与安全的边界游走,真正能畅游者,又有几人。行业自身的差异,以及跨企业数据壁垒的牢不可破,企业要想实现数据变现很难。对外的数据变现模式有很多,但是真正能够盈利的很少。就企业而言,最好的实践则是基于现有数据,衍生新的业务领域,如支付宝之于阿里,白条之于京东,都可以作为数据变现模式的范本。

数据化运营的切入点(Where)

核心观点:数据化运营切入点=业务驱动+迭代思维。

数据化运营的切入,可以从企业视角构建和完善企业的数据能力,即数据治理;也可以从用户视角,以业务需求为驱动,采用迭代思维,设计相关的数据产品和工具平台,满足企业的数据服务需求。数据治理是一个长周期、重投入、慢收益的模式,适合成熟稳重、有长远战略眼光的企业;业务驱动加迭代思维,强调的是快速就绪、快速响应、快速收益,比较适合创业公司和互联网企业。

1.数据治理:徐而图之

数据治理是对企业数据资产管理行使权利和控制的活动集合(计划、监督和执行),数据治理职能指导其他数据管理职能如何执行,数据治理是在高层次上执行数据管理制度。数据治理有一套完整的知识体系,在此不赘述,有兴趣的朋友可以阅读相关专著。与数据治理相关的十大知识领域如图3所示。

 

图3 数据治理总体规划

数据治理是一个规范化与标准化数据的问题,通过对现有数据的梳理与分析,各种问题暴露无遗,参考数据不一致,业务术语不统一,元数据没有统一管理等,诸如此类的问题层出不穷。做数据的人是有职业病的,犹如洁癖,这一点笔者深信不疑,数据的打通,提供了一种对比的视角看数据和业务,而此时数据人的心中会涌出千万个规范与标准,并且忍不住要动手去改造和完善。此本是好事,比较成熟和理想的团队本该如此,然而大多数情况下,笔者不建议如此,因为企业未必有此耐心和精力,你要做的事情是重投入,轻产出,必须慎之又慎。须知很多事水到渠成,数据治理的事情,务必徐而图之。

2.数据应用:唯快不败

数据化运营的核心原则是业务驱动,应用先行,数据仓库的建设,数据标准化的建设,都必须为数据应用让路。此处有两个方面的原因:其一,就数据分析研究数据,本身是没有价值的,因为你既无法深入理解数据本身,又没有场景的验证,任何类型的数据模型的设计都是过程;其二,当数据应用到业务中时,我们才能够发现数据是如何被使用的,如何设计数据存储模型和分析模型,才能够满足业务的需求。因此,数据模型的设计不必深究,水到渠成即可,数据应用的原则唯快不败,通过快速迭代,提升数据服务能力。

如何做数据化运营(How)

核心观点:数据化运营模式=横向跨领域的数据整合+纵向的数据价值链打通。

横向的跨领域的数据整合,是企业实现数据化运营的基础,通则不痛。数据打通不是目的,只是手段,纵向的数据价值链打通才是目的。纵向的数据价值链打通的产物则体现为外部的数据产品、数据定制服务和面向内部的运营决策系统。

1.横向的跨领域数据整合

通则不痛,传统设计模式下,“急用先行”的设计思想,缺乏整体设计与规划,带来的“数据烟囱”问题,是当今企事业单位信息系统面临的最大问题。横向的跨领域数据整合包括数据打通和数据融合两部分。横向的数据打通包括两个层次的内容,同一业务领域内不同业务部门之间的数据打通,如生产数据、销售数据、库存数据和营销数据的打通;不同业务领域之间的数据打通,如同一集团公司电商业务和金融业务之间的数据打通。数据融合则针对已经打通的数据,进行重构,基于业务领域和数据主题进行数据主题域模型的设计和数据存储模型的设计,即通常意义上的数据仓库的建设,如图4所示。

 

图4 跨领域数据整合机制

横向的跨领域数据打通解决数据可用的问题,数据融合则通过数据重构解决数据易用的问题。从可用到易用,为纵向的数据价值链打通提供了数据基础。

2.纵向的数据价值链打通

如果说横向的跨领域数据整合为数据化运营奠定了坚实的基础,那么纵向的数据价值链打通则为数据化运营提供了方向和指引。数据价值链模型是纵向数据价值链打通的理论基础,其工作原理如图5所示。

 

图5 数据价值链模型

数据是业务系统所产生的事实或者度量,本身不可解读,任何一个数字,如果没有上下文,则没有任何意义。信息是指有意义的数据,即有上下文的数据,只有附加了语境信息,数据才有实际的意义。知识是指可理解的信息,是经过归纳、总结、组合得出的原则、理论或观点。智慧则是可以预测未来的知识,是知识进过深加工和重新学习的结果。

纵向的数据价值链打通,需要将价值链模型具象化、适配化,使其适应我们所处的业务环境和数据环境。具体而言就是:通过数据集成,形成数据,解决数据可访问问题;通过业务解读,形成信息,解决数据可读性问题;通过归纳分析,形成知识,解决数据可理解性问题;通过深度学习,形成智慧,解决数据应用问题。落实到具体的业务系统建设则是构建ODS系统,集成数据;构建数据仓库,解读数据;构建OLAP,理解数据;构建BI,应用数据。

数据化运营可以从组织视角和技术视角两个维度进行分析,顶级数据组织,解决数据化运营最大的障碍:跨部门沟通和数据整合难题;依托大数据技术的成熟的完善,突破企业业务运营的瓶颈,改善现有业务和扩展新的领域,获取更多的收益;以业务需求为驱动,以数据应用为切入;通过横向的数据整合和纵向的数据价值链打通,实现数据化运营的目标。

 

 

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
数据采集 数据可视化 大数据
Python在大数据处理中的应用实践
Python在大数据处理中扮演重要角色,借助`requests`和`BeautifulSoup`抓取数据,`pandas`进行清洗预处理,面对大规模数据时,`Dask`提供分布式处理能力,而`matplotlib`和`seaborn`则助力数据可视化。通过这些工具,数据工程师和科学家能高效地管理、分析和展示海量数据。
67 4
|
18天前
|
数据采集 运维 Cloud Native
Flink+Paimon在阿里云大数据云原生运维数仓的实践
构建实时云原生运维数仓以提升大数据集群的运维能力,采用 Flink+Paimon 方案,解决资源审计、拓扑及趋势分析需求。
17541 28
Flink+Paimon在阿里云大数据云原生运维数仓的实践
|
23天前
|
分布式计算 大数据 Spark
Spark大数据处理:技术、应用与性能优化(全)PDF书籍推荐分享
《Spark大数据处理:技术、应用与性能优化》深入浅出介绍Spark核心,涵盖部署、实战与性能调优,适合初学者。作者基于微软和IBM经验,解析Spark工作机制,探讨BDAS生态,提供实践案例,助力快速掌握。书中亦讨论性能优化策略。[PDF下载链接](https://zhangfeidezhu.com/?p=347)。![Spark Web UI](https://img-blog.csdnimg.cn/direct/16aaadbb4e13410f8cb2727c3786cc9e.png#pic_center)
64 1
Spark大数据处理:技术、应用与性能优化(全)PDF书籍推荐分享
|
5天前
|
机器学习/深度学习 人工智能 数据可视化
大数据时代的数据可视化技术:趋势、挑战与未来展望
【7月更文挑战第22天】随着技术的不断进步和应用场景的不断拓展,数据可视化技术将在更多领域发挥更大的作用。未来,我们可以期待更加智能化、实时化、沉浸式和民主化的数据可视化解决方案的出现。同时,随着数据量的不断增加和数据类型的不断丰富,数据可视化技术也将面临更多的挑战和机遇。只有不断创新和优化技术才能满足日益增长的需求并推动数据可视化技术的持续发展。
|
5天前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【7月更文挑战第22天】在大数据领域,Python算法效率至关重要。本文深入解析时间与空间复杂度,用大O表示法衡量执行时间和存储需求。通过冒泡排序(O(n^2)时间,O(1)空间)与快速排序(平均O(n log n)时间,O(log n)空间)实例,展示Python代码实现与复杂度分析。策略包括算法适配、分治法应用及空间换取时间优化。掌握这些,可提升大数据处理能力,持续学习实践是关键。
18 1
|
24天前
|
大数据 数据处理 计算机视觉
使用LabVIEW进行大数据数组操作的优化方法
使用LabVIEW进行大数据数组操作的优化方法
33 3
|
25天前
|
数据可视化 前端开发 大数据
商场智能导视系统深度解析,AR与大数据融合创新商业运营模式
**商场智能导视系统提升购物体验:** 通过三维电子地图、AR导航、AR营销、VR全景导购及可视化数据,解决顾客寻路困扰,增强店铺曝光,简化招商流程,优化商场管理,借助科技创新驱动顾客满意度、品牌曝光度及运营效率的全面提升。
53 0
商场智能导视系统深度解析,AR与大数据融合创新商业运营模式
|
9天前
|
SQL 存储 分布式计算
MaxCompute产品使用合集之使用pyodps读取数据表时,可以通过什么方法来加速读取效率
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
11天前
|
机器学习/深度学习 运维 算法
|
1月前
|
机器学习/深度学习 分布式计算 大数据
MaxCompute产品使用问题之如何确保write_table方法能够正确执行
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。