傅一平:运营商的大数据变现实践

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

3月29日,由东湖大数据发起、数据观作为合作媒体参与的大数据百人会·线上沙龙第9期活动圆满结束,浙江移动大数据中心傅一平博士就《运营商大数据变现实践》主题与大家分享了数据利用的心得与经验,带来了两个多小时的精彩直播演讲。运营商拥有庞大且具有绝对话语权的数据资源、数据储备,关于对数据利用的心得与经验,傅一平先生围绕浙江移动的平台能力、数据管理、数据能力、标签能力、产品服务这5大内容深入浅出地做出描述。十足的干货、通俗易懂的表达方式,专业的视角和独到的解读吸引了3326人次在线观摩学习。以下附文字干货及完整版PPT,本次沙龙录音内容以第一人称整理。

以下为文字干货

1、运营商的平台能力

2004年我进入浙江移动,3年前开始从事大数据相关的工作,推动了浙江移动大数据变现工作的开展,浙江移动在大数据变现过程中碰到了很多问题,我们在实践和探索中也总结出了一些经验,今天与大家分享一下。

数据变现我不能直接去谈商务模式,因为商务模式依赖于我们平台、数据和标签能力。运营商的平台能力分为五横一纵,从数据采集、数据处理、数据分析、数据访问到数据应用,还有管理平台,这是一个标准架构。互联网公司的大数据平台架构可以与其作一定的映射,当前,浙江移动从这五个方面也初具雏形。

浙江移动经过两期系统的建设,采用了非常多样的技术组件,底层用的是华为的BDI,中间的处理层用的是hadoop,有商用的,也有开源的版本,大家可以看到里面有3个应用集群,中间我们使用的是MPP,MPP用来做我们的报表,主要是融合、复杂以及交叉的分析,当然我们也采用了ASTER的数据挖掘库,它提供了一些现成挖掘的API,计算速度比较快,流处理的话我们使用的是IBM STREAM,海量数据处理方面很不错。往上一层我们主要是做读写分离的,有Oracle、HBASE、KV数据库,为应用层提供支撑。

运营商如果想对外变现,它必须具备像阿里云一样方便驻户进驻的能力,它的平台能力应该是所见即可得的,浙江移动大数据平台可以在一周内实现合作伙伴的入驻并实现全方位的开放,当前外部合作伙伴已经超过30个,当然这仅仅是起步的阶段,“我方搭台、对方唱戏”的这种模式对平台来讲是必不可少的,很多公司如果没有多驻户的开通能力,变现是不大可行的。

2、运营商的数据管理

数据管理每个公司需要,浙江移动这些年做起来艰巨,我这里提炼了对数据管理非常核心的几点,也是在实际中碰到的:①二级互动,你的数据必须与源系统打通,源系统变动时,大数据平台所有相关的数据字典都应该变动,这能解决两张皮的问题。②因为大数据平台组件很多,你的数据管理平台必须让所有的技术组件对你开放,就比如说我们采用的华为BDI的产品,我就必须让他开放所有BDI的元数据接口,这样整个公司的数据管理体系才是一体的,否则你就断了条胳膊,你做的数据分析都无法贯通,这是大家在引入技术组件特别要注意的。③数据建模,强调数据标准化和可视化,你所有的建模都应该是基于规范的,你所有表的命名都应该有自己的规则,这样整个公司所有大家看到的数据是一致的,所有的合作伙伴都能共享标准化的数据。当然数据管理也是一种追求,你一个小公司搞一个元数据产品其实没有必要,假如公司做大了,你做数据管理成本会非常高,因此必须要通过系统化、透明化的方式来管理,不做的代价是数据知识没有积累和传承。

数据管理虽然做了很多规范,但所有的规范都应该纳入系统中,这样才能保证你所有的系统数据管理规范都能在系统中落地,不然靠人去推动,基本上你的数据管理系统是会失败的。数据管理用后向模式去做不是性价比高的方式,你必须做成前向,在开发的过程中就应该把数据管理工作嵌入进去,数据管理跟每个开发、需求、测试人员息息相关,这是我们多年数据管理中深刻的体会。

数据管理平台很难通用化,无论是通讯行业、金融行业,由于本身的垂直行业特点,你的数据管理平台必须符合你垂直行业特点,想单靠一套数据管理平台来做成每个行业是很难成功的,这是我观点。而且数据管理平台非常强调运营,它需要这个平台不停地迭代,相对而言它对定制化的要求很高,同时,我们的数据管理平台在大数据时代要适配所有的技术组件,要能屏蔽技术细节,对上提供透明化,可视化的访问和开发能力。

浙江移动的数据是非常丰富的,它提供1600种数据类型、300个融合模型.10万个客户标签以及上百个API,运营商只有把基础设施建好了才能为我们的客户提供更快更好的数据服务。

3、运营商的数据能力

运营商做数据变现,它的核心差异化的竞争优势就是数据的差异化能力,离开了差异化的能力,你说运营商去做变现和互联网公司竞争也不大现实,因为我们在人才、薪酬、机制、流程各个方面处于全面的落后,还是需要利用我们差异化的能力去在市场上进行探索和竞争,这也是迫不得已。

浙江移动拥有6000万的客户,每个月手机上网的数据是1.5万亿条,通话记录每个月是100亿次,位置轨迹每个月是1500亿条,宽带记录每个月是10万亿条,现在的集群规模是1400+,集群规模与互联网公司比有一定差距,我们也在努力。

运营商最核心的数据有八个方面通信、支出、社交、上网、身份、位置、时序、终端,当然还有外部数据,以前运营商是不太重视的,比如大众点评网数据、天猫品牌、京东商城、淘宝数据等,在对外变现的时候,你会发现爬取这类数据实际上对运营商非常重要。

我们现在通过通话数据可以把所有的社交关系认出来,父母、亲人、朋友所有的社交人脉路径都能找出来而且非常准;另外运营商的通讯机制保障了你每次通话、上网所有的终端行为都会上传运营商网络,数据质量也很好,终端市场报告由运营商来出示非常有说服力,因为所有的数据都是活的也是及时的;还有黄页数据,任何用户比如打一个电话是黄页数据的话,你就可以知道这个用户的需求,对于精准营销非常重要;当然我们运营商还有和教育的数据,比如我们想知道成绩好孩子的家长有什么样的特性,运营商可以做这样的分析报告,我们通过校园通这类行业应用产品大概能知道所有的学校、家长、教师、学生的信息,基于这些信息可以给出分析结果,未来前景巨大。

运营商的数据有四个特点:完整性、连续性、多维性、整合性。完整性是指比如京东的数据、淘宝的数据实际上运营商都有,也许没有那么详细,但可以拥有任何一家的互联网公司的数据;连续性是指我们每天生活在时空中,要么在线下要么在线上,运营商所有的数据都有,比如线下你所有的位置数据运营商有,线上你所有上网数据也有,基于线上线上再加用户属性,运营商可以完整连续的刻画;多维性是指运营商拥有时间、空间和用户多种属性数据,相对可以实施降维打击,通过时空交叉验证可以把模型做的非常准;整合性的意思是运营商拥有号码、IMEI、IDFA、COOKIE几乎所有的用户ID,所有ID信息整合在一起可以实现全数据的关联,这也是运营商的巨大优势。

至于大家非常关心的HTTPS,我不太在意,HTTPS现在呈扩大的趋势跟流量劫持有一定关系,主要还是因为互联网为了保证它自身利益,从数据的角度来讲,即使HTTP最后仅有20%可开采,对运营商也足够了来构建自己的用户画像了,况且现在很多数据还没有开采,应对HTTPS的重要程度远远低于运营商对自身数据采集解析的要求,没必要杞人忧天;另外APP协议成千上万,HTTP整个流量占比也不超过30%吧,再者运营商有巨大的资源,完全可以利用资源去换取内容知情权,比如腾讯大小王卡,给你免费定向流量,用资源换取内容知情权,再通过全内容为你提供增值服务,这个套路很多公司都在做,我们运营商要做在当下。

如果搞过搜索、爬虫、自然语言看来这个天眼用户偏好检索系统就知道它想干什么,实际上百度做的就是通过输入关键词它能找到所有的信息,运营商能做的是我输入一个关键词它能找到所有相关的用户,因为百度是没有用户的,而运营商拥有所有的用户,比如我输入足球关键词,我可以把五千万用户对足球的偏好进行排序,大家可以想象未来运营商变现的空间有多大。

运营商虽然拥有数据,但我不能说就等于抱着金矿或原油,运营商的数据开采的代价非常大,运营商现在的数据以通讯数据为主,必须要“去电信化”才能在生态中生存,否则你数据直接去卖也卖不了几个钱,还有运营商卖原始数据实际上等同“杀鸡取卵”,安全上不可取也不可持续,运营商要变现必须从建模中发现数据的价值,这也是当下变现的软肋,因为我们基础建模能力还很弱。

4、运营商的标签

运营商正在从传统通信画像向真正的客户画像转变,在事件标签中,我们可以把家人、亲戚、工作伙伴及行业通话信息串起来,我们有所有的线下事件、线上事件、专题事件,比如前段时间的云栖大会把所有事件记录下来以便对专门的用户进行专项分析,别看云栖大会这两年很热闹,我们分析过两年的会议数据,用户连续参加两年云栖大会的比例极低。

用户社会画像看起来与运营商的数据没多大关系,但恰恰是基于运营商的数据可以做出来,包括职业、人生阶段甚至家庭等等,都能判断出来。而位置标签无论是常驻位置、工作位置、事件出行、移动轨迹,不管是连续还是静态的都是可以抓取以作用户分析,当然有人会提这涉及到用户的隐私,我们所有的信息处理时是去隐私化的,主要是用来做特征分析,大家不用担心信息安全的问题,互联网公司其实一样,他拿着用户所有的交易信息来做特征分析,但绝不会把清单型数据透露给外面,这是我们秉承的原则。上网行为中,无论是APP的使用、网页访问、使用时间序列很有价值,以此可以判断用户的偏好,为用户更好的服务,这个互联网公司做的比较多,运营商正处在起步阶段。

5、运营商的产品体系

现在我们的产品体系很丰富,有客流、选址、引客、APP、反欺诈和验真,我们也有广告平台“喜从天降”、终端产品“有机密”等,同时提供大量标准化的产品,这类产品要创造效益,还有很长的路要走。

比如选址雷达,你可以根据标签选择偏好用户所在的位置,以方便商户选址;另一款叫引客雷达是你可以上传一批目标客户的号码,我通过Lookalike的方式帮你找到潜在用户在哪里;至于金融验真产品,大家不用担心用户隐私的问题,因为都是通过用户授权的,身份验证主要是通过手机、身份证和姓名进行三证合一,当然还可以做刷单行为的判断,比如滴滴刷单,你可以把司机手机号码和客户的号码交给运营商,运营商通过两个号码之间位置切换的关系来判断是不是异常。

运营商合作的几种形式:① 数据服务:比如验证,运营商提供标签,你输入用户号码,我们提供标签;这是第一种服务模式我们叫做数据云化,当然无论是模型还是标签都是一样的。这个更多的运营在验证场景,主要通过用户授权。②模型锤炼:由于现在大数据处于起步阶段,许多企业处于观望心态。浙江移动提供了模型锤炼的服务,我开放你数据服务,当然这些是去隐私的,你可以在我们平台上进行模型淬炼,如果你觉得达到要求了,我们再正式商用、收费;③产品孵化:运营商(包括浙江移动)我们的产品研发能力是有限的,不可能在各个方面都做端对端的产品,我们希望有更多的伙伴和我们合作,分成都是可以的,这一块我们也在做许多尝试。④渠道广告:比如我刚才提到的“喜从天降”,运营商有许多渠道,比如微信公众号等等,可以将运营商在数据方面的能力与各产业合作伙伴的需求结合在一起,短信等传统渠道由于政策方面的原因,还有待观望。

信息服务费指的是按次查询信息需要收取的费用,比如验证,一个号码与身份证的匹配关系,比方说每次收取一次一块钱或者两块钱,这都是通过用户授权以后,我们可以和银行合作收取的信息服务费。信息使用费是指你租用我们的数据之后,我们按照数据里面用户的量,比如每一千用户收取多少费用。设备租赁费和阿里云类似的方式。

我们客流产品是如何收费的?它要收取功能费和增值功能费,这个产品涉及到位置,我们可以按照位置的扇区可以单独收费。这是对于相对成熟产品的收费方式。

运营商是非常负责任的国企,有自己的数据安全原则:“凡是能够直接或者间接地识别自然人的任何信息,包括身份证、手机号码、IMEI、COOKIE等,都不能对外提供”,这一点许多互联网公司是没有遵循的,他们的串号、COOKIE都是可以互相交换的,但是对运营商来讲这一点很难,因为COOKIE也是代表了用户的属性,这也是存在隐私风险的,运营商做大数据难也是难在这里,国企对于稍有模糊的地带都是不敢踩的,因此我们是非常艰难的。“不涉及个人清单信息的数据分析服务和产品服务,比如行业分析报告”,这些是可以做的,因为这些是统计类的信息。“基于用户授权的各类数据服务”这些我们也是都可以做的,不论是查询标签,还是个人身份信息。

只有确保这些前提下,运营商才能做各类变现服务,挑战难度是相当大的,这也是在考验运营商的创新能力。

我们对外合作的形式包括① 标准化产品模式:这一类产品业务比较诚实,产品标准化程度高,我们向第三方购买也有可能。②合作运营模式:运营商只有数据,没有任何产品、建模能力。这时我们希望与合作伙伴合作然后大家分成。③外包解决模式:这是一种比较传统的方式,通过招标给运营商提供定制服务,然后运营商自己面对最终客户。④ 应用孵化模式:运营商开放部分脱敏数据,帮助合作伙伴进行数据产品孵化。

浙江移动为了做大数据运营变现专门成立了大数据中心、云计算中心。由这两个中心保障大数据专业化的进行服务。没有专业的人做专业的事,做大数据变现是不可能的。

那么运营商缺什么呢?①数据建模能力:运营商经营分析起家,以前的数据挖掘基本是数据外包的形式做的,但是进入大数据时代以后,对建模的能力要求越来越高,运营商非常稀缺这一类资源。②平台技术:运营商现在也在建立大数据平台,现在平台已经建立起来,但是售后服务支撑能力是非常薄弱的,因为技术组件太多了,我们在变现中发现了大量的问题,需要我们在技术方面进一步突破。③连接能力:运营商对各个行业是不熟悉的,希望有能撮合最终客户和运营商的企业,这对我们很重要。④运营能力:这里有一部分文化因素,因为许多从业人员是从运营商的体系中转过来的,在策划、运营方面缺乏经验,我们需要擅长做运营的企业与我们合作,其实我们什么都缺。

以下为个人观点

大数据变现对运营商的挑战巨大,首先是速度。大家都知道做大数据十有八九是会失败的,你做了这么多产品、采集了这么多数据,有多少能用,有多少能真正成功,有多少客户愿意来买单很难说。十个里面能成功一两个已经很好了,这个时候你的速度是很重要的,如果你开发一个应用要两个月甚至半年,那基本上没法跟上节奏。

另一个是渠道,运营商如果只有数据没有渠道也很难成功,不能脱离业务去做大数据。比如说我们现在有大数据交易平台,但是现在在大数据交易平台在个人隐私没有定论的前提下是很难做的。我们在做大数据变现的时候传统渠道不能用,必须要创造新的渠道,这样才能让大数据承载在上面,大数据才能成为渠道的放大器。

第三点是数据为王,运营商做任何产品是离不开数据的,如果做的产品与差异化的数据没有结合起来,十之八九就会失败。相对于互联网公司,你没有任何竞争力,唯一的核心竞争力就是数据。

最后是运营,运营只有持续的迭代才有可能成功,KPI也是一种信仰,运营商原来的机制、流程比较冗长,它的迭代速度还是比较慢的。

另外,运营商对外也是反辅主业的需要,因为运营商进入流量经营时代后,内容运营越加迫切,传统的标签体系根本无法支撑,我们在对外变现中,发现外部客户对于标签的要求是非常高的,这驱动了我们去完善自己的内容标签体系,同时,运营商通过大数据,也可以培养和挽留住一批人才,你必须给一些人一些出口,可能运营商对外短期内无法规模变现,但它也承担着更多的使命,你不去实践,永远不懂大数据到底是什么。

大家都在找大数据的商业模式,我觉得现在商业模式已经很多了,实际上真正赚钱的大数据变现模式只有两种,一种是金融风控,一种是广告。再找到第三种已经很难了。我们现在已经尝试了一些,无论是做报告还是洞察,实际上最大规模的变现就是金融和广告。

运营商更需要的是工匠精神,需要精益求精,在某一点上进行单点突破,而不要求泛,每一方面都做一点但每一点都没办法做透。因为无论你的数据模型能力,还是运营能力、产品能力,都存在非常大的欠缺,你不可能有精力做那么多,我们希望能创造一个生态,与各界合作共创大数据的未来,服务好我们的客户,这也是我的期望。

Q&A

Q:请问客流分析产品的市场需求有多大?

A:客流分析的产品市场相当大,但它受限于定位的精度。但是如果我们能基于精准位置定位,比如说如果我们取MR的数据来做,能够做到50米到100米的精准定位,这个是非常广阔的市场,通过1-2年的时间,这个产品肯定能做出来,这个是非常有前景的,因为他可以定位到某幢楼,我对此也是非常有信心。

Q:MR和DPS是如何连接起来?

A:这个和运营商的数据有关系,MR相当于测量报告,我们运营商上网数据需要SE—MME有一个信令数据,这个信令数据里面就有我们的经纬度数据,它里面的ID里面有一个标识,这个标识可以和MR里的标识结合起来,这个时候你就可以得到一个关联。

Q:目前浙江移动在大数据广告方面有开展业务吗?

A:广告这一块,我们之前有做过,但是由于安全的原因这一块儿暂停了,运营商的数据有它的特殊性,比如手机阅读这一块儿,我们移动有个咪咕阅读,我们每个月可以帮他新增5万的手机阅读用户。通过DPI数据是很方便找到他的竞争对手用户。



本文出处:畅享网
本文来自云栖社区合作伙伴畅享网,了解相关信息可以关注vsharing.com网站。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
3月前
|
SQL 分布式计算 运维
如何对付一个耗时6h+的ODPS任务:慢节点优化实践
本文描述了大数据处理任务(特别是涉及大量JOIN操作的任务)中遇到的性能瓶颈问题及其优化过程。
|
2月前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【10月更文挑战第4天】在大数据时代,算法效率至关重要。本文从理论入手,介绍时间复杂度和空间复杂度两个核心概念,并通过冒泡排序和快速排序的Python实现详细分析其复杂度。冒泡排序的时间复杂度为O(n^2),空间复杂度为O(1);快速排序平均时间复杂度为O(n log n),空间复杂度为O(log n)。文章还介绍了算法选择、分而治之及空间换时间等优化策略,帮助你在大数据挑战中游刃有余。
91 4
|
26天前
|
存储 消息中间件 分布式计算
Cisco WebEx 数据平台:统一 Trino、Pinot、Iceberg 及 Kyuubi,探索 Apache Doris 在 Cisco 的改造实践
Cisco WebEx 早期数据平台采用了多系统架构(包括 Trino、Pinot、Iceberg 、 Kyuubi 等),面临架构复杂、数据冗余存储、运维困难、资源利用率低、数据时效性差等问题。因此,引入 Apache Doris 替换了 Trino、Pinot 、 Iceberg 及 Kyuubi 技术栈,依赖于 Doris 的实时数据湖能力及高性能 OLAP 分析能力,统一数据湖仓及查询分析引擎,显著提升了查询性能及系统稳定性,同时实现资源成本降低 30%。
Cisco WebEx 数据平台:统一 Trino、Pinot、Iceberg 及 Kyuubi,探索 Apache Doris 在 Cisco 的改造实践
|
6月前
|
数据采集 数据可视化 大数据
Python在大数据处理中的应用实践
Python在大数据处理中扮演重要角色,借助`requests`和`BeautifulSoup`抓取数据,`pandas`进行清洗预处理,面对大规模数据时,`Dask`提供分布式处理能力,而`matplotlib`和`seaborn`则助力数据可视化。通过这些工具,数据工程师和科学家能高效地管理、分析和展示海量数据。
290 4
|
1月前
|
边缘计算 人工智能 搜索推荐
大数据与零售业:精准营销的实践
【10月更文挑战第31天】在信息化社会,大数据技术正成为推动零售业革新的重要驱动力。本文探讨了大数据在零售业中的应用,包括客户细分、个性化推荐、动态定价、营销自动化、预测性分析、忠诚度管理和社交网络洞察等方面,通过实际案例展示了大数据如何帮助商家洞悉消费者行为,优化决策,实现精准营销。同时,文章也讨论了大数据面临的挑战和未来展望。
|
2月前
|
Oracle 大数据 数据挖掘
企业内训|大数据产品运营实战培训-某电信运营商大数据产品研发中心
本课程是TsingtaoAI专为某电信运营商的大数据产品研发中心的产品支撑组设计,旨在深入探讨大数据在电信运营商领域的应用与运营策略。通过密集的培训,从数据的本质与价值出发,系统解析大数据工具和技术的最新进展,深入剖析行业内外的实践案例。课程涵盖如何理解和评估数据、如何有效运用大数据技术、以及如何在不同业务场景中实现数据的价值转化。
61 0
|
5月前
|
数据采集 运维 Cloud Native
Flink+Paimon在阿里云大数据云原生运维数仓的实践
构建实时云原生运维数仓以提升大数据集群的运维能力,采用 Flink+Paimon 方案,解决资源审计、拓扑及趋势分析需求。
18531 54
Flink+Paimon在阿里云大数据云原生运维数仓的实践
|
2月前
|
SQL 消息中间件 分布式计算
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(一)
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(一)
101 0
|
2月前
|
SQL 大数据
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(二)
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(二)
71 0
|
2月前
|
SQL 消息中间件 分布式计算
大数据-130 - Flink CEP 详解 - CEP开发流程 与 案例实践:恶意登录检测实现
大数据-130 - Flink CEP 详解 - CEP开发流程 与 案例实践:恶意登录检测实现
66 0