风剑分享 | 只有数据最懂公司的痛点,指导企业决策走向

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 在2018中国大数据高峰论坛上,数澜科技CEO风剑分享了对数据资产化的理解、大数据平台的建设、大数据落地过程中的挑战,以及数据应用在未来的机遇与挑战。具体全文摘录如下: 一、什么是数据资产化 “数据资产化是数澜一直秉持的概念并持续在做的事情”。

图一

在2018中国大数据高峰论坛上,数澜科技CEO风剑分享了对数据资产化的理解、大数据平台的建设、大数据落地过程中的挑战,以及数据应用在未来的机遇与挑战。具体全文摘录如下:

一、什么是数据资产化

“数据资产化是数澜一直秉持的概念并持续在做的事情”。

风剑曾经在负责阿里巴巴集团大数据业务的时候,见过很多应用场景。他觉得目前大多数的人对数据的认知并不够,也不能理解数据从哪里来,有怎样的价值,以及对未来业务的支撑在哪里?

举一个例子,如果我们是一个手机加工厂,我们拥有各个领域和类型的数据,且每天都在产出数据,但除了产出数据外,企业还希望数据能够直接作用于业务领域,优化业务效果。这就是认知上的差异,即数据到底能带来什么价值,把原始的数据,变成业务上能够使用的数据的过程就是数据资产化。

世界上所有的资产,只有数据资产是越用越有价值的。因为它的产生和业务之间是若即若离的关系,如果你不使用它,它就会变成了一堆数字,如果你经常使用它,那它就越来越有价值。

我们自己在实践过程当中有两个关键的技术点:第一点是将数据打通整合。很多家企业都有不同厂家提供的几十套业务系统,怎么把这些数据,包括邮件、视频、语音等给连接、打通是目前整个行业都在解决的问题。

第二点是在数据打通之后把这些数据真正有效的组成业务上能够看见的、可识别的、可使用的数据,这是整个行业都在面临的特别大的挑战。

我们把从数据打通到数据组织到数据标签化,再到数据内部体系化的过程叫数据资产化。

图二

二、大数据平台的搭建与应用

如果从另一个角度举一个有关数据资产化的例子,就可以了解到平台是如何搭建的。

现在的shopping mall都有探测技术,当顾客来了就会知道这个顾客是谁,这些数据是很有价值的,但它们只是数据资产,并不是数据资产化。什么才是数据资产化呢?当有人进出的时候,把这样的行为的人、物、场景的关系匹配,拉到历史的维度上,刻画到历史的每一个时间节点上,这就是一个基于时空维度产生的事件。在所有的时空维度上这个过程本身就是资产化,它能够带来的结果就是一个人所有的行为都出现了,比如这个人过去经常一个人到shopping mall吃饭、看电影、逛街。忽然有一天变成了两个人共同进出,又有一天这个人看完电影去了母婴店,这就是一个场景下的数据资产化的过程。可以看到原生的数据只有三个,但是所带来的数据资产会丰富到几百几千几万个维度,甚至可以刻画出一个人买东西是货比三家还是犹豫不决的购物心理,从数据视角看起来,价值是巨大无边的,这就是数据资产化。

我们有一系列的方法论来支撑完成数据资产化,第一点需要把这些数据基于场景、基于时空维度串起来,否则就没有参考价值了。

第二点我们的大数据平台数栖可以对客户的数据进行加工、开发、建模等,从业务平台层面来讲就是数据data-mapping,怎么把mapping好的数据做成profile,就是把探测数据到人的整个维度做一个全系的画像。这就是数据开发。

数据开发的过程不需要改变客户的知识结构,也不需要改变以往的数据存储结构,数栖平台是一个全系的、全维度的数据开发平台。有了这个还不够,还要有大量的数据需要做成标签体系,但怎么能快速生成应用,目前还是一个需要解决的问题。

比如做营销,或者风控还可能是做消费者洞察画像的,我们把这些叫做数据应用。我们要做一个用户画像来洞察这些人是坏人还是好人,利用的就是个人数据资产加数据技术,然后通过算法和模型计算,把这个人画出来,这就是用户画像能力。我们把这种能力封装进入一个实体,称之为数据引擎。数据加数据技术构成了数据引擎,然后把各种数据引擎呈现在平台里面,客户用的时候特别方便。

以风控引擎举例,风控引擎里有很多场景,比如金融、企业、个人等,数据引擎的应用可以随场景变化而变化,在场景里把数据基于场景特征进行收敛和聚焦,通过标签加数据引擎快速生成应用。

有了开发平台、数据引擎和自有的数据资产之后,还要打造一个数据应用平台和服务平台,这中间包含三项核心能力,包括data-mapping、data-profile、data-service。如果把这三点结合起来,一个数据平台基本上就成型了。我们整个平台的构建也是依据这个数澜自有的理论,把判断的数据放进来,能够将时空及场景连接起来,基于开发平台把它做成一套profile,再基于一套数澜自有的数据技术把它分割成一些数据服务,无论是to B面向实体店铺或者企业,还是to C面向消费者,都有合适的应用场景,并最终通过数据平台让数据活起来、用起来,当然这是我们一直想要实现的理想。

三、大数据的时光倒流理论

这里的挑战在于认知data-mapping,数据如何做mapping,实际上在于数据的认知。

我们在做地产行业的数据服务时发现如何利用大数据提升业主的满意度,这是一个非常需要数据认知的过程。

在大家想象中,提升业主满意度特别简单,通过业主有无投诉,有无报修等数据来做分析即可。但是传统的满意度分析中使用的都是单一的数据,为业主满意度提升带来的价值特别有限。地产公司找到我们时希望能够用大数据提升业主满意度,那时候我们提出一个假设,整个地产公司五大服务体,业主、物业公司、供应商、承建商、服务商。如果能把这五大主体之间的关系构建起来,那提升满意度就可以找到切入点了,比如带着全家人看一套房子,一共五个人去看,三个人满意,两个人不满意,究竟是满意还是不满意,这里面是没有量化的标准,也没有对与错之分。但是当我把这五个关系之间的实体构建起来,找到任何一个事件的相关数据,这个事件出发交点在哪里,那我们就能了解了。这就是我们把这种事件驱动起来的能力—数据认知的能力。

举个例子:比如我买了一个新房子,我不太满意,我会打电话过去投诉并且报修很多问题。业主会在一个电话中把所有问题都描述清楚,这个过程会产生很多的非结构化的数据,比如业主是否有家人,有小孩,有老婆,有老人等,哪个水龙头漏水、进而关联水龙头是谁生产的、谁服务的、物业公司是谁、服务周期、供货周期、服务质量等,把所有的数据都串起来以后就会知道这是一个批量问题,还是个性化问题。

再举个例子,比如业主说“你必须把马桶给我往左移五公分”,物业公司就会说这个房子是精装修交付的,所有的楼层,甚至整个小区都是这样的。但业主为什么要移呢?他会说“我小孩的浴盆放不进去,你说要不要移?”物业可能会说那我给你移,但是这个工程特别巨大,这里面给出的信息就是他有小孩,要放一个浴盆给小孩洗澡,这才是问题产生的根结所在。数据要被深度的、多维的洞察,才能逼近事实本质,光靠采样分析是发现不了这样的问题。

我把这种能力称之为基于事件的mapping能力,大量的数据经常都是这样。不断地移动每一个时间节点的事件,对到这个时间轴上然后抽取这类事件的共性数据,我们把这种方法,总结称为时光倒流理论。

四、只有数据最懂你的公司

很多企业面临着不知道自己的数据价值在哪里,以及数据怎么用的问题。这是数据的产品化应用问题,很多企业会想当然的做出来一个产品然后告诉客户这个产品可以解决哪些痛点。我跟数澜的员工讲,我们任何人跟客户谈,尽量不要给客户讲我们的产品能解他的业务痛点,因为我们不懂他的业务。地产行业客户做了几十年,他们业务的痛点不是我们可以很快了解的。但是数据可以,数据最能懂公司的痛点,甚至判断公司后续的决策方向。

就像我前面举的例子,在做地产领域的时候,我把它们的投诉、工单信息打通之后,我们可以做到用大数据提升业主的满意度,结果客户发现自己还可以做好多事情,比如资金管理,供应商能力管理,服务商管理等。业主满意不满意,只有数据能够知道,我们把这个过程叫基于数据资产化的场景化驱动。我们喜欢跟客户讲道理告诉他我不懂你的业务,但是你的数据能懂你的业务,如果你给我机会让我把你的数据资产化,你基于这个数据资产来做数据业务的时候你会发现他的发挥的价值会非常高。

我们先倒过来以客户的业务做牵引,把客户的数据全部资产化交付给客户来满足客户的业务场景。这种应用特别广泛,我举一个标签提示的数据资产给到他,他可以做无数的数据资产应用来分析这个店铺的流量都去了哪里,它对我的贡献有多大,哪一些做资产,哪一些做客户分析,其实这里还是一个认知的问题。

我估计在未来两到三年内,就是国内大部分大数据应用的最大障碍就是对数据的认知和场景化的认知问题。

五、数据应用创业需要聚焦

数澜目前还是会倾向于传统公司,因为传统公司做了几十年、上百年后,他们很清楚自己短板在哪里,应该付出什么。我们做客群的时候只做传统公司,地产,汽车,零售、化工,我们都有涉及。

在数据时代的浪口,有很多的传统公司赶上来了。互联网时代很多东西他们已经彻底错过了,大数据时代它们不希望再错过数据时代。不聚焦的公司初期可以能还可以,但到后面就会丧失竞争力。我们目前主要聚焦在零售和地产,但是也许明年我们的金融事业部就会成立。

六、数据时代是以场景为驱动的

最近跟很多人讨论过这个话题,我们是这样理解的,我们现在会比较谨慎的提大数据,我们把这个时代叫数据时代。在IT时代的时候,IBM也好、Oracle也好,那个年代所有的核心都是围绕需求来驱动的,但是数据时代是以场景为驱动的。

判断一家公司是不是大数据公司就一个标准,你提供的产品是需求驱动还是场景驱动,如果卖一个成熟的产品那就是典型的需求驱动,只能满足客户的一部分需求。但是数据时代的到来就特别奇怪,它偏偏就是以场景作为驱动的,你的数据产品能不能给我提供支撑,我们选择的时候也比较谨慎,我们这两天讨论的有一个结论就是在数据时代的初期阶段咨询服务是特别重要的环节,就是一套理论一套方法论不断地总结、讨论,不断地告诉他应该这样做,才可能慢慢地往数据操作系统层面走。

我们认为在未来的两到三年可能会出现一个拐点,很多参考都是大数据咨询业务占优势,业务产品无论做得多好,都是单点业务以外的,包括AI的产品,风控产品做到极致。更大范围还是咨询为主,在未来的两到三年。我们有3331计划,在未来的三到五年之内有一大波具有初级,就是通用型的数据产品会出来,它可能以拐点方式来驱动数据的应用,但是不知道这种数据是怎么样的,我们也一直在探索这个数据形态。

关于风剑

数澜科技创始人、董事长兼CEO,顶尖数据应用科学家、国际领先大数据理念的倡导者、国内大数据应用实践的先行者。

甘云锋(风剑),中国国籍,数澜科技创始人、董事长兼CEO。曾在华为、金蝶、阿里巴巴担任过数据架构师、数据科学家、数据业务负责人等职位。2012年即开始负责创建阿里集团最核心的数据互联技术(ID-MAPPING)、数据资产体系(TCIF)、数据价值营销系统(DMP)、城市智慧大脑(AI项目)等;沉淀国际领先的大数据思想及前沿技术研究,奠定大数据应用建设的基础理论构架,并在此基础上构建了国内首个较为系统全面的大数据应用平台; 2015年即作为国内首批将大数据理念思想及大数据技术能力灵活应用到各专业领域特别是传统行业的大数据应用实践者,获得超过20多个行业领域客户及资本市场的认可和青睐。

文章来自数澜社区,这里有最全的数据中台/可视化/Hadoop文章等你来唷~

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
SQL 数据采集 运维
从数据到价值,DataOps精益数据运营概述
DevOps大家可能比较熟悉,但对于概念相近的DataOps大家可能还不清楚。简单来说,如果DevOps是更快交付软件的一种理念,那DataOps就是"更快交付高质量数据"的一种理念。 我们星轨工具团队过去围绕数据链路,沉淀了很多工具和组件,提升了我们数据域项目交付的效率和质量,这和DataOps提倡的聚焦数据链路,从全局提效很匹配。因此我们结合DataOps理念做了一些探索和实践,本文会详细给大家介绍下DataOps理念。
2113 2
从数据到价值,DataOps精益数据运营概述
|
3月前
|
人工智能 供应链 测试技术
CIO们在运营、创新、IT和业务的关系及如何利用GenAI方面的九大经验教训
CIO们在运营、创新、IT和业务的关系及如何利用GenAI方面的九大经验教训
|
数据采集 存储 运维
作为一线开发对数据治理的认知
数据治理的目的是为了让数据更加准确,降低后续数据清洗的难度,节约成本,加强把控,好处是说不完的,但这实际开发中所遇到的问题却比好处要复杂,你可能考虑到所有的问题,但却无法预估问题解决的难度。
172 1
|
Cloud Native 前端开发 IDE
「技术人生」第10篇:如何做研发效能提升(即指标体系建设过程回顾)
本文作者将给大家提供一些简单的容易实操的方法,能够让所有人都知道什么是效能的提升,如何提升个人的效能,如何提升团队的效能。
1636 12
「技术人生」第10篇:如何做研发效能提升(即指标体系建设过程回顾)
|
算法 Java 业务中间件
研发人员如何才能在做业务的过程中自我增值?
如何才能在做业务的过程中不再是资源一样被消耗而是像资产一样自我增值?如何成长?如何高效率地成长?如何让自己的成长走在环境要求的前面? 基于以上这些问题,本文将依次阐述以下内容: 先从“人的本质”入手(第二章节),接着探讨“人的成长”的本质(第三章节),最后再探讨业务和技术的一般规律及应对策略(第四、第五章节)。 需要注意的是,以下内容受限于个人能力和经验有限,在描述规律的过程中,可能会存在维度的缺失;或者当前描述的规律所涉及的维度并不是某些读者认知中的重点,因为事物不同的维度在不同角色和级别的人的认知中重要程度不同。
259 1
研发人员如何才能在做业务的过程中自我增值?
|
机器学习/深度学习 人工智能 监控
作为超级自动化的重要先驱,流程挖掘正在成为组织运营标配
国产RPA厂商首次入选顶级行业报告,国内外流程挖掘玩家都有谁?流程挖掘有什么价值?一文看明白。
174 0
|
数据采集 传感器 机器学习/深度学习
自动化如何为企业提供有形价值
企业之所以热衷于采用自动化技术有多种原因。企业被自动化简单而重复的流程、提高效率和节省业务成本所吸引。一些工业巨头开始使用人工智能管理企业的传感器和应用程序,快速分析生成的大量数据,以创建可操作的见解。
159 0