阿里巴巴西湖品学大数据峰会观后感

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 会上没有提到太多高大上的算法和模型,更多的是在商业社会中如何把大数据应用起来。总的感觉这次会议的主题是“数据+商业”,也就是如何让数据在商业社会中产生价值。这个topic非常广泛,远远超过了一般互联网盈利模式(广告+游戏)的范畴。

会上没有提到太多高大上的算法和模型,更多的是在商业社会中如何把大数据应用起来。总的感觉这次会议的主题是“数据+商业”,也就是如何让数据在商业社会中产生价值。这个topic非常广泛,远远超过了一般互联网盈利模式(广告+游戏)的范畴。对于我们做大数据的朋友来说也是一样的,过去我们经常提到的搜索引擎、计算广告和推荐系统基本上最常见的大数据应用场景了。但是随着大数据与商业社会的结合,产生了需求新的玩法。

阿里巴巴数据委员会会长车品觉提到了美国在大数据领域的顶级会议strataconf,提到了现在最重要的是把大数据应用落地,也就是”Data engineering”的概念。我的理解工程化就是让大数据成为大家工作中必不可少的一个工具,不再是一个高大上的概念。他同时提到数据要稳定、数据挖掘出来的结果可解释(Data Scientist的要求之一就是storytelling)。在以前的商业社会中做决策要大家讨论来讨论去,更多的是靠在这个行业内的经验来说话,现在新的玩法更应该是用数据来说话,用数据来支撑决策。他也提到目前在大数据商业应用中的主要问题:人才不匹配、数据冗余、工具不统一、安全、数据质量等。他还提到了从IT到DT的转变。

阿里小微金融集团首席风险官胡晓明演讲的题目是《商业驱动下的大数据》,把大数据的应用领域拓展到互联网金融这个目前看来最热的领域。我特别赞同他提到的这样一句话“数据没有大小之分,数据只有是否被商业认知之分”,我的理解是再大的数据如果不能发挥出商业价值、不能支撑商业决策、不能帮助带来商业利益都是没有意义的。所以“数据+商业”的核心还是应该从商业的需求出发,通过数据的手段找到能够使得业务增长的突破点。

我把他提到的金融机构发放贷款的例子做了个抽象总结如下:

目的:发放贷款使银行等金融机构赚钱,控制风险率和不良贷款率。

传统金融的玩法:传统商业银行发放贷款要考虑的几个因素:抵押担保(这也是很多小微企业拿不到贷款的原因);贷款企业的利润率、还款能力(资金流水)、还款意愿(前面几期借的钱是不是还上了),而对这些因素的判断来自他们对原来负债的经营行为。

互联网玩法:互联网构建起的是虚拟社会,线下的行为无法获得。淘宝上的商家很难判断利润率,更无法得知他们借了多少钱,有没有还。但是小微企业信贷的目的还是一样的,就是要控制风险和不良贷款率,那么怎么办?看看商家在淘宝平台上的其他数据有没有能够帮助达到这个目的的。互联网小微企业信贷会去看商家的经营规律,看消费者对商家的评估,看商家的经营行为中的守信程度(类似行为金融学)。根据这个去分析商家的好坏,建立对他的评价。他提到阿里小微金融已经为70W家企业提供贷款,整体贷款累积量1800亿,而且从来没有见过贷款人的面。风险率和不良贷款率比商业银行还要低,而且是没有抵押和担保的。

我想这是一个非常典型的大数据支撑商业的案例,没有提到高深的计算广告、时髦的深度学习,靠的是对业务的理解,看哪些数据背后表达的意思是跟业务紧密联系的,哪些数据能够被商业充分认知。他也提到从IT到DT的转变,阿里巴巴的目的是让数据被社会所用、被销售所用、被制造业所用、被消费者信用所用,让阿里巴巴的数据成为中国商业的基础设施,也就是大数据在各行各业中都发挥价值。数据要想被广泛使用涉及到一个重要的环节:数据如何开放?数据开放除了我们经常提到的数据平台(像Hadoop或者其他数据系统)的建设,更重要的是数据的安全和用户的隐私。他提到了数据要脱敏,同时数据的商业定义、每个标签打的要足够清楚而且不涉及隐私。他还提到了用大数据保证账户、资金安全:开放就会带来安全和隐私方面的一些隐患, 怎么通过大数据来解决。分析一个人的行为,在手机上的操作行为,在PC上的操作行为,甚至研究他在输入帐户每一个字母的间隔距离、间隔时间,我们去看他在手机上输入密码的速度,如果是通过机器扫号,或者别人偷你的帐户,都是有异动性的。这个看起来是挺复杂的没有多大意义的事情,当它能够带来的商业价值足够大的时候就变得非常重要了。所以还是那句话“数据没有大小之分,数据只有是否被商业认知之分”

Acxiom的程杰博士主要的point是数据的连接才能产生价值。

他首先提到了大数据领域常见的关联关系,例如某地区纸尿裤销量上涨意味着什么?如果是婴儿纸尿裤意味着出生,如果是老人纸尿裤意味着老龄化。

一些大公司比如花旗银行,大的人寿保险公司,大的零售商等会有一个现象很有意思,他们看每个消费者是很窄的,他们看到的是用自己的产品品牌去看一个消费者,所以他们看到的消费者的信息是片面的。等八小时之后他们自己是消费者的时候,他们把视野扩大了很多。所以这就是一个问题,如果我们回到消费者本身,而不是局限于消费者这一部分数据的了解,我们的商业行为也会更有效。这个例子说明的主要问题就是不要把数据孤立地看待,要把多方位的数据连接起来。我跟一个同事讲过这样一个故事,说我的一个朋友每个月在某个游戏上面会花几百块钱,然后他说我那个朋友是个高帅富。我说你猜错了,他只是一个普通的打工者。因为他只是看到了用户的某一个方面,没有深入了解这个用户的其他方面就武断地下了结论,得到的结论就有可能是错的。数据很多,但是数据的价值是不一样的,尤其在数据的不同连结、不同整合的基础上,他们表现的价值完全不一样。哪些数据价值大?怎么连接价值大?这个决定因素还是你使用的商业场景。

他还提到Acxiom在美国管理一个消费者的数据库,有2.4亿个成人在这个数据库里面,美国总共人口是差不多4亿,2.4亿成人就是18岁以上都在这个数据库里面。这2.4亿相当于是1.4亿个家庭,每个家庭有1700条信息,再加上4000个购买倾向性模型打分。我的理解就是Acxiom这个公司是个数据整合和交换平台,所以他们在宣传数据连接也是符合其公司定位的。

最后他还举了个例子:数据没有连接、没有打通,相当于有车没路

Linkedin的商业分析部门总监Simon Zhang 首先分享了Linkedin的商业模式。这个思路很好,更是说明了那个问题:要想用好大数据,先得明白商业模式。Linkedin的商业模式是数据与业务双向驱动、不断迭代良性循环的一个特别好的例子。第一步是用户的增长以及用户的体验;第二步用户的增长和体验增加了很多的后台和前台的数据;第三步是从这些新的数据里面产生了更多的解决方案,产品,更好的客户体验。这些客户体验产品和解决方案,再一步推动了商业的增长,用户的体验,用户的增加,进一步产生了更新的数据。所有的销售人员,市场推广人员,产品经理,开发人员,以及客服人员,他们都有大规模的数据来辅助他们做更好的工作。他们的目标是在IT技术和Bussiness之间找到平衡点。

据我了解目前Linkedin从事数据相关的团队主要有两个:

1,Data Team,偏技术,大家可以通过data.linkedin.com了解他们做的一些主要的系统、项目。Linkedin有大约25中DB,100多种Data Source。业务方对这些系统和服务的要求:简单、迅速、规模化

2,商业分析部门,也就是Simon Zhang所带领的部门。这个部门的主要工作我想是偏业务的数据分析和挖掘。

那么对于支撑这些业务部门的商业分析部门的人都是干什么的?

1,商业分析师,占50%

2,提供BI工具(不是报表)

3,Data Infrastructure (不是Hadoop,是在hadoop之上提供的数据服务)

4,Text mining(可能跟Linkedin的主要产品是以文本的形式提供有关)

5,非常少的战略决策分析师,这部分人思考问题非常结构化,高屋建瓴。往往具备多年的企业管理经验

6,Machine Learning, Data Mining, Data Scientist

他提到对于人的挖掘和分析:一个人是有多面性,需要挖掘各个方面的属性。但是几乎所有的产品都存在数据稀疏性的问题?怎么解决?可以通过不同维度的数据产品和运营活动来勾引用户的信息、丰富和完善我们的用户属性,同时也增强了用户的互动性和粘性。

过去“业务方提需求然后RD满足需求”的迭代方式周期太长了,等着项目结束了数据早已失效了。现在他提倡的解决思路是矩阵化,我的理解也就是Data Scientist的职责,这个人要负责“数据需求的提出、指标或者日志的定义、数据的分析和挖掘、数据在业务中的应用、收到用户反馈之后的持续优化”。这样的一个职能就是相当于一个人从头跟到尾,这个人是非常熟悉某一业务的、而且这个人也必须懂基本的数据技术和工具,懂得如何用数据驱动产品和业务的发展。数据本身没有意义,有意义的是其中的分析。

现在研发、产品、市场推广、销售和运营等部门不需要找分析师,通过数据系统和工具就可以直接拿到需求报告,而这些团队的工作是分析核心数据,做决策建议。他举例说比奈是自己动手画画,而不是给别人提需求让别人按照他的思想画画的。后面他还提到了对分析师的要求“好的分析师能改变未来,一般的分析师能改变现在,差一点的分析师连历史都不知道”。

后面他还举了一些例子来说明如何让数据在业务中发挥价值。一个就是通过BI帮助用户增加活跃度,防止客户流失。这个思路和我们以前做的用户流失和召回的思路是非常一致的(说明我们的用户挖掘和研究还是有一定成果的),典型的思路就是不能为了召回而召回,而要根据我们产品的特点去分析用户和产品的各种维度的关系,找到流失的原因和召回的思路。

他还同时提到“A/B测试”在产品分析方面的实战,Linkedin有数千个在线A/B测试帮助决策。大家不用争来争去到底哪个方法更好,放到线上去做“A/B测试”就行了。

唯品会的VP分享了数据化决策如何更靠谱。他首先给大家分享了几个他们工作中经常遇到的问题:

1,用户的行为背后如果是理性的,那么可以分析和挖掘出一些规律。然后女性购物者(唯品会女性购物者比例非常高)在网上购物往往是非理性的、冲动的决定。那么,数据团队或者业务团队怎么可能用完全理性的逻辑的分析判断用户行为?

2,数据团队的KPI如何拆解的问题?

3,在做决策的过程当中往往去寻求一些依据,但倾向于去寻找一些支持我们观点的证据。实际上在商业环境下,管理者常常是有自己的一个判断。有了判断之后,他第一件事是说,数据团队你去帮我找数据证明这个观点,数据团队往往会倾向于绞尽脑汁从各种维度去找一个数据来证明老大的观点。

然后他提到了解决这些问题的一些方法,他提到如何在企业内构建数据文化:

1,业务是首要的,不要迷信数据。从客户中能够获得第一手信息可能比从数据中获得更简单、高效。数据不会告诉我们全部真相,但是客户可以(有点像砸场子的)

2,统一公司内部不同部门之间的统计口径,有共识的指标体系

3,数据团队要关注业务,关注业务的痛点,不要只关注数字本身。冰冷的数字没有意义,数据和业务结合才会产生价值。

4,数据既要安全隐私,也要共享打通

5,数据的时效性非常重要

6,数据的粒度和管理成本。不要上来就搞的很细,先给个大面上可用的数据用起来,然后看效果。这个是跟搞科研不太一样的,不用上来就搞很多理论证明啥的,先给个大面上过得去的数据用起来。小步快跑,快速迭代。

7,在一个企业里面,建立数据化决策的流程,远远重要过我们现在有一个多么强大的数据系统和数据分析团队。数据团队更重要的是去发现,证真和证伪的意义都非常大。管理者需要有数据支撑决策的意识,分析师需要深入业务。决策者要有一个谦虚的心态去学习,要能够尽可能的谨慎的发表有个人倾向的意见,鼓励下面的团队尤其是数据团队去构建更扎实的基础、更好的决策流程。这是一个管理者对数据化决策的进程推进能起到最大的作用,而不是他亲自上手去指挥去设定一些项目或者目标,然后让下面快速去执行。


原文发布时间为:2014-04-11


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
1月前
|
数据采集 SQL 搜索推荐
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
OneData是阿里巴巴内部实现数据整合与管理的方法体系与工具,旨在解决指标混乱、数据孤岛等问题。通过规范定义、模型设计与工具平台三层架构,实现数据标准化与高效开发,提升数据质量与应用效率。
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
|
2月前
|
分布式计算 监控 大数据
大数据之路:阿里巴巴大数据实践——离线数据开发
该平台提供一站式大数据开发与治理服务,涵盖数据存储计算、任务调度、质量监控及安全管控。基于MaxCompute实现海量数据处理,结合D2与DataWorks进行任务开发与运维,通过SQLSCAN与DQC保障代码质量与数据准确性。任务调度系统支持定时、周期、手动运行等多种模式,确保高效稳定的数据生产流程。
大数据之路:阿里巴巴大数据实践——离线数据开发
|
2月前
|
数据采集 存储 大数据
大数据之路:阿里巴巴大数据实践——日志采集与数据同步
本资料全面介绍大数据处理技术架构,涵盖数据采集、同步、计算与服务全流程。内容包括Web/App端日志采集方案、数据同步工具DataX与TimeTunnel、离线与实时数仓架构、OneData方法论及元数据管理等核心内容,适用于构建企业级数据平台体系。
|
1月前
|
存储 SQL 分布式计算
大数据之路:阿里巴巴大数据实践——元数据与计算管理
本内容系统讲解了大数据体系中的元数据管理与计算优化。元数据部分涵盖技术、业务与管理元数据的分类及平台工具,并介绍血缘捕获、智能推荐与冷热分级等技术创新。元数据应用于数据标签、门户管理与建模分析。计算管理方面,深入探讨资源调度失衡、数据倾斜、小文件及长尾任务等问题,提出HBO与CBO优化策略及任务治理方案,全面提升资源利用率与任务执行效率。
|
分布式计算 算法 搜索推荐
阿里巴巴内部:2022年全技术栈PPT分享(架构篇+算法篇+大数据)
我只截图不说话,PPT大全,氛围研发篇、算法篇、大数据、Java后端架构!除了大家熟悉的交易、支付场景外,支撑起阿里双十一交易1682亿元的“超级工程”其实包括以下但不限于客服、搜索、推荐、广告、库存、物流、云计算等。 Java核心技术栈:覆盖了JVM、锁、并发、Java反射、Spring原理、微服务、Zookeeper、数据库、数据结构等大量知识点。 大数据:Spark、Hadoop
|
1月前
|
存储 监控 大数据
大数据之路:阿里巴巴大数据实践——事实表设计
事实表是数据仓库核心,用于记录可度量的业务事件,支持高性能查询与低成本存储。主要包含事务事实表(记录原子事件)、周期快照表(捕获状态)和累积快照表(追踪流程)。设计需遵循粒度统一、事实可加性、一致性等原则,提升扩展性与分析效率。
|
存储 分布式计算 大数据
大数据之路:阿里巴巴大数据实践——大数据领域建模综述
数据建模解决数据冗余、资源浪费、一致性缺失及开发低效等核心问题,通过分层设计提升性能10~100倍,优化存储与计算成本,保障数据质量并提升开发效率。相比关系数据库,数据仓库采用维度建模与列式存储,支持高效分析。阿里巴巴采用Kimball模型与分层架构,实现OLAP场景下的高性能计算与实时离线一体化。
|
2月前
|
SQL 缓存 监控
大数据之路:阿里巴巴大数据实践——实时技术与数据服务
实时技术通过流式架构实现数据的实时采集、处理与存储,支持高并发、低延迟的数据服务。架构涵盖数据分层、多流关联,结合Flink、Kafka等技术实现高效流计算。数据服务提供统一接口,支持SQL查询、数据推送与定时任务,保障数据实时性与可靠性。
|
11月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
1242 1
|
机器学习/深度学习 分布式计算 DataWorks
MaxCompute是由阿里巴巴集团创建的
【7月更文挑战第1天】
261 58

热门文章

最新文章