张溪梦:庙算者多胜-大数据发展战略-阿里云开发者社区

开发者社区> 大数据文摘> 正文
登录阅读全文

张溪梦:庙算者多胜-大数据发展战略

简介:
0.jpg

感谢大家听我做汇报,我希望把我的演讲尽量变的更简短一些。我名字叫张溪梦,在美国大约做工作做了不到十年。主要目的就是做大数据分析,我以前是脑外科医生,做分析和做医生没有本质性区别,就是通过不同的症状来诊断事物本身的基本的比如说疾病。然后采用不同的方法治愈病人,让病人身体更健康。

Linkedln在世界范围内有3亿用户,中国有500万用户左右,90%的世界前100强公司都在用Linkedln提供的服务。

讲讲大数据就讲Linkedln的业务模型,商务模型非常简单,主要是三个环节链在一起形成一个很健康管理:

1)用户增长与体验,用户使用

2)催生大量的数据

3)通过这些海量数据,进一步提炼新的产品和服务,为了下一轮用户增长和体验做各种准备。

其中涉及到另外一个问题,很多同仁在问我说,你们怎么赚钱?Linkedln的业务基本上来源于四个主要产业,第一个就是人力与猎头,这部分大约产生53%的收益。第二部分是广告和市场推广,我们叫市场解决方案,这块产生20%的收益。第三部分我们叫做高级订阅服务,比如说找工作,想做市场推广的人,然后猎头的人,他们没有必要买企业级的解决方案。第四是销售解决方案。下一步我们准备把这块业务做大,争取超过猎头和人事。

讲讲我们的团队,我们团队大约75人左右,主要支持市场、营销、产品、研发、客服、风控还有最后的运维。运维催生广告运维、销售运维、商业运维,分析支持都在我们团队里边。有几个基本功能,第一是基础设施,第二是商业情报,在我的团队里面,我对BI定义跟传统BI定义不太一样。第三块就是数据科学,还有统计模型,机器挖掘。这三个部门基本是水平的部门,然后剩下的东西,我们有一块非常大的商业分析,这个部门占到我们团队50%左右。他们和每个业务产品线紧密相关来支撑业务端。最后一个部门是软件开发。为什么我们分析团队里面要有软件开发团队,我们真正核心竞争力就是取决于这个团队,把各种分析和数据挖掘全部软件化、规模化、产品化,然后生态系统化。

再讲讲分析大数据,刚才各位同仁讲的非常好,他们涵盖讲的所有内容,不用讲太多。我只需要讲一句话,就是数据本身的意义也许没有大家想象的那么大,但是分析本身的意义非常大。上面一句话就是人以铜为镜,可以正衣冠,以古为镜,可以见兴替,以人为镜,可以知得失。这句话以前是李世民讲的一句话,虽然讲的很简单,就是需要用历史来预测未来,预测完未来之后并没有讲该怎么做。最重要一点做数据分析就是要尽量的改变未来,让未来变得更好,这是我们数据分析的一个核心竞争力。未来变得越好,产生价值越大,这是我们学到基本的道理。

咱们再讲大数据,什么叫大?这个冰川很大,上面东西很大,直接能把泰坦尼克给灭了,下面还有更大的是数据量很大,真正不是冰川,而是冰淇淋,大数据核心是小数据,真正有能力人就是把大的冰川做成小冰淇淋,然后给孩子。

我们讲讲Linkedln现在在硅谷这边有四个步骤做大数据分析。

第一步要打好非常良好的基础,听上去好象很简单,很无聊,但是这一步是最关键的一步。

第二步是要规模化进行分析,大规模进行分析。

第三步是分析本身产品化

第四是产品的生态化。

第一阶段,主要因为这个金字塔很重要,任何一个公司想做好分析,我个人认为大家要仔细看看这个金字塔的结构,第一步做分析本身要了解产品,理解市场,明白运维,知道我们的客户需要什么。

第二步就是在产生数据之前,一定要认真做好数据标签这个工作。因为做数据,做分析的人他是要分析未来的应用,就把正确的产品要加进去。

第三步就是对数据部署和实施的比较深刻的理解,这就包括如何应用。下一步包括了专题分析、商业智能与报告还有深度分析,这些步骤大家都已经看了,不想讲太细,这是传统的商业分析师需要做的工作。

再下一步Linkedln里面有核心的概念,做的仅仅有趣是不够的,必须要有可执行性。这个可执行性的目的就是为了要帮助企业内部各个员工做决策,做决策的目的是要产生商业价值。这个商业价值不仅是为了挣钱,同时还为了这些用户产生价值,而不只是为了公司产生钱的价值。

再讲讲第二步就是金字塔的菱形化的问题,以前做的分析需要两个星期到两个月来回答一个问题,但这是一个最核心的大数据的问题就是慢,没有效率。第一年我在Linkedln工作的时候,作为数学科学家,没日没夜干,我们完成了500多个大小项目,今天为止当我们做了一系列的内部软件化以后,今天我们的系统,每天能够回答1200-1500人分析的问题,每一个人能同时问10-12个问题,你可以想象这个系统基本上比我一年之内的工作的效率还高两到三倍。也就是说规模化是非常非常重要。

第三阶段就是数据分析的产品化。Linkedln几年以前产生一个产品推介,包括我跟大家分享在社交或者是销售垂直领域,我们做了销售解决方案,这些产品都是数据分析的产品,把他拿出来之后提供给所有客户,让大家使用,这是我们Linkedln第三阶段的战略,就是数据分析的产品化。

第四步就是数据产品的生态化。一个数据产品本身能产生的价值假设一百,第二个数据产品产生的价值往往不是两百,往往可能是280或者是300或者是400,因为他们数据本身之间关系和业务本身关联会产生非常大的迭代,迭代过程中就会产生很多附加值。同时做这个新产品的时候,因为没有必要再从头开始,很可能就是举一反三,这是数据产品矩阵化的重要性。

再举个例子,首先就举个销售例子,这是我们做的,好象在座专业人士知道这个东西。销售人员想卖货,在美国他需要问五个问题,第一个问题他需要向哪个公司销售,有那么多公司,不可能给每个公司都打电话。第二是谁是决策人,第三是如何接洽,第四2500个销售员工让谁接洽这个客户第五个问题这个销售人员去了讲什么故事。以往回答这五个问题,说这些话需要一两个月时间把整个流程搞定,因为这里边包括打电话、沟通,包括联系关系,问问客户基本的需求。今天我们把所有五个步骤做成一个按纽,以前一个月到两个月完成的工作,到今天为止一分钟之内就可以完成。因为所有的公司在Linkedln上面都给你分析出来。第二就是可以找到正确的人去接洽,第三我们分析销售人员的网络,对这个决策者有更大的影响力。第五就是指派不是一个销售人员而是团队帮助协助他工作。第五就是把很清晰的故事讲给客户听,自动生成PPT。这个当时我认为是在2011年我们产生了新的解决方案。当时至少增长了1.75倍,我个人认为当时环境还不太稳定,我相信他对运维还有商业效能增加绝对不是一倍两倍的问题,是若干倍的问题。现在我们做的是钮已经去掉了,把信息推给内部销售员工。

举个例子,谷歌假设一个HR离职了,加入百度,我们产生这样的信息给销售人员。第一个这个客户很可能会离开,因为我们的关系已经离开了,第二个会发给下一个销售人员说,他加入百度,我们会把百度当成新的客户,这些东西都是实时的。

技术角度东西就是把大的金字塔一步一步最后转成小的数据的过程,一步一步转为小、简单、快速、有规模这是基本的概念。还有就是内部如何支持产品经理的,内部我们有80个产品经理,有不到一千个开发人员。他们开发大量产品,我这些新的产品好不好,他对自己的产品的KPI的贡献,哪个更好哪个更差,有统计学的意义。产品看似很好,是不是对营收或者是用户体验有好的影响,这很深刻的问题。

最后一个问题,在这里的话他如何优化这个页面,优化哪个部分。我们当时又做了一个新的核心。以前做一个这样的分析,需要一个月到三个月时间。因为要数据成熟,数据采集质量,反复分析在统计学上的意义。今天做大规模的自动的产品分析。我们有2000个在线的测试,我们可以为每一个测试追踪500个以上的纬度或者是500以上的KPI。第三大约我们能做200万以上的检验,第四我们帮助这些PM来优化他的产品和流量,指出产品哪个部分是增长或者是减低的原因。基本已经全部自动化,不需要分析师参与了。

Linkedln如何做市场推广,我们用户使用行为,用户简历,用户的社交关系,用户独到内容。我们问一个问题,谁在找工作,3亿用户里不可能全部都在找工作,也许15-20%人在找工作。第一我们用使用数据把随机分布的这个变成三角型的结构。在尖上是我们的核心目标客户,底下是几率很低的用户。第二步我们用他的简历来分析一下他会不会找工作,一个人刚换工作两个月,他找工作的几率可能只有10%,但是另外一个人在你公司待了四年他差不多要离开了。第三步就是社交网络的数据,迈克认识约翰,这个组里面,老大撤了,剩下这帮兄弟们团队里,他们找工作的几率我相信远远大于另外一个组织,很稳定的组织。所以说利用社交网络数据再一次把金字塔变的更小、更陡峭、更标准化。

Linkedln内部没有用很传统的方法去做,以前我们用传统的方法做,没日没夜做,太多的需求。现在我们造一个机器人,这个系统本身来说就是他的工作不断的建造新的预测模型,自动在背后建立新的预测模型。每个星期用大量的数据,用不同的数据分析的方法,各种方法来建模型,建立模型之后,它用自动模型来比对现在在线的模型,当他发现有效后,就会自动到线上去。如果把统计分析或者是数据模型做好的话我们有百分之百的信心。这是做的数据好的人和做的随机预测的人的区别。

这里因为数据本身是不断变革,当我们人力做的时候,他会不断的腐烂,这是以前我在管理中心学到的,树本身是会腐败的。搁一千年他不会说还是那么青翠,一定会腐败。反复做新模型是必要,人力无法满足这么多需求。用机器模型做,人要保证在业务上的增长。

在分析角度来说这朵花漂亮吗?漂亮。用数字表达的话这个花到底有多漂亮?他是60%漂亮?还是80%漂亮或者是10%漂亮。很难讲,我们每天改的东西,不会说谁上来就说3456789,大家都是讲文字,没有人讲数字。这里出来一个非结构化,文本数据我们如何从里面提炼可结构化、可衡量标准。比如说客户服务记录,你打电话愤怒了,我的帐户为什么被关。用户讨论群组大家讲的东西,你这个产品真好,类似文本文字。第三就是Apps评价,再下一个就是客户满意度调研反馈。社交平台的讨论评价等等。这些东西都是原本无序无法衡量的东西,如何做到把非结构化数据衡量客户满意度。

我们在内部建立一个平台,客户的声音,这个客户声音包括客户打电话来客户的声音。我们从那里抽取他讲话的语音,同时来理解客户是不是对这个东西满意,理解完了之后我们要持续追踪。这个满意度是不是在变化?满意度的原因是什么?首页打了之后自动就会变化,大量客户对产品的基本的反馈。他核心的原因,为什么大家喜欢红色和绿色,这个原因都是从语音提炼出来的。各个组织的人都可以用这个系统帮助他们回答这个问题,这样客服不用花那么多时间了。

技术是实现今天大数据规模化的一个基石。美国以前讲自由,咱们不谈这个了,我在美国上学、工作,他把信息推给很多人,美国社会比如说像橄榄球形状,他就是把这个底部慢慢缩小,把中间变大。当大家都有信息了,相对生活可能就更加美好,生活可能会变得更加简单,大家有更多时间和家庭和朋友在一起体会人生的美妙。


原文发布时间为:2014-06-01

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享: