我知道你是“谁”——大数据拷问隐私-阿里云开发者社区

开发者社区> 大数据文摘> 正文

我知道你是“谁”——大数据拷问隐私

简介:
0.jpg【大数据100分】我知道你是“谁”——大数据拷问隐私

主讲嘉宾:王绪刚

主持人:中关村大数据产业联盟 副秘书长 陈新河

承办:中关村大数据产业联盟

嘉宾介绍:

王绪刚时趣科技首席科学家,负责公司数据战略,数据研发以及大客户软件部门。是国内早期的大数据研究与实践者。曾提出了交互式机器学习算法框架,利用机器学习来解决稀疏性行为数据的预测问题。并主导开发了当当网个性化推荐引擎,中国移动社区推荐与搜索平台,智联招聘推荐引擎与暴风影音视频智能推荐系统等一系列大数据项目。

以下为分享实景全文:

王绪刚首先,我要承认我是一个标题党,虽然本次分享的题目是”大数据拷问隐私“,其实我想分享的是如何利用社会化大数据,实现精准营销。

那么,接下来我会从大数据驱动营销的原理,具体的建模和技术,典型的应用案例几个方面进行介绍

首先我来介绍一下时趣socialtouch

时趣 social touch 是一家数据驱动的社会化营销公司。

产品+服务,big data+big idea;技术+创意左脑+右脑是我们的特征。

我们提供的服务和产品包括:基于数据的社会化整合营销;社会化数据报告;社会化CRM和精准社会化广告。

主要客户是宝洁等跨国企业,航空旅游,快销,餐饮,传统零售以及互联网电商,3C电子等大中型企业;同时还有超过4万家中小型企业。公司成立与2010年,目前已经获得了君联资本,GGVSirra知名投资机构的三轮融资。

0

Social Touch的主要帮助客户实现社会化商业的成功,因此我们的主要阵地是社会化平台。那么在社会化商业时代,消费者——不仅仅是几个模糊的词来描述的群体,而是海量的个体。面对巨大消费者数据,我们必须进行管理,才能实现更加个性化的服务,并实现企业Social CRM的终极目标——创造以用户为中心的商业。

如何描述消费者——对消费者进行画像是一个首要的问题。所谓物以类聚人以群分,一个人的行为习惯和购买倾向,都与其社会化属性有关。而对于一个人的社会属性,可以自然的通过信任,权威和兴趣等多个维度从社交平台中挖掘出来。

0

上图是社交关系中最常见的因素,我们基于以上因素实现了对一个消费者的四个维度的画像

0

上图是对一个用户的画像,其中有第三方数据,也有客户自有数据。

包括她的基本信息,比如性别、年龄、地域、星座等人文统计学的信息,以及毕业学校、教育信息、职位、收入水平等,或者是她的社会化的兴趣、生活兴趣、社会兴趣、媒体倾向等。

由于每一个人都有自己的自媒体属性,所以我们要对每一个人都有一个社会化的描述,包括他的社会化影响力和社交活跃度。

当消费者与品牌产生了关联之后,我们还会对消费者的品牌互动形象、品牌的喜好程度、以及感兴趣的品牌和曾经消费过的品牌进行多纬度的补充。

管理受众就是管理来自于购买者、粉丝群体、传播的互动群体、参与点击浏览的群体。由于他们自身的兴趣、信赖程度和权威的影响构建的一个虚拟社区,我们需要不断地吸收、加工,然后再次利用这样一个虚拟社群从而产生更多的商业价值。

0

接下来,我们的任务是现在实时的,秒级的对任意一群人的任意维度的行为和兴趣以及其他特征的预测。


比如媒体投放建议:我的粉丝中与我互动超过2次以上的人他们喜欢的视频,音乐和APP

内容建议:北京的对宝宝有兴趣的影响力超过3的人群共同讨论的话题

伴随营销:浏览过女士高领羊毛衫的用户最终可能购买的产品

个性化营销:女性,曾经去过巴黎和埃及用户最近可能去哪里旅游

social touch 开发了一个内存型的,分布式的实时图计算引擎——CrowdGraph,来完成以上的工作,他的工作原理与FacebookGraphSearch非常类似。事实证明,我们的引擎可以在秒级内处理十万个节点百万条边的复杂图游走和排序计算。从而满足企业客户实时潜在消费者匹配和用户洞察的需求。

接下来我会分享几个案例:

1.不知道大家是否吃过褚橙?味道虽然不如宣传的那么好,但是吃的是一份精神。social touch帮助褚橙完成了社会化广告的精准投放。

0

根据不同的受众,制定了不同的信息展示策略,并进行了A/B测试和优化,最终实现了30:1的广告效果

2.大家有做过春秋航空么?

我们分析春秋航空的消费者发现其有非常有意思的特征:

0

IT人员搭乘的还比较多。针对其目标人群在新浪微博粉丝通进行投放,可以实现14:1ROI

0

社交媒体数据+职业信息挖掘,可以实现14:1ROI

0

以上是春秋航空消费群体按照不同维度的兴趣分析,对于指导其进行日常内容发布和进行交叉销售会很有价值。

再举一个例子,对于用户的洞察:

70后男性共同关注的企业认证用户TOP10

0

80后男性倾向转发TOP10

0

以上的数据是进行客户实时媒体采购使用,虽然人工也可以完成类似的工作,但是在大规模实时媒体投放的过程中,能够自动的判断一群人的媒介倾向,会极大的提高媒介的消耗和广告投放的效率

最后一个例子,有点类似纸牌屋的诞生,处于对客户的保密,我暂时不说品牌的名字,该品牌希望能够根据其消费者来选择一个品牌形象,进行冠名,从而制造更加贴近消费者的产品。因此对其消费群体进行了明星的洞察:

11.jpg

当找到与其消费者口味最契合的候选明星后,该品牌将生产由其冠名的产品。

最后我想说的是,社交大数据的实践和探索才刚刚开始,social touch有幸做了一个先行者,其实这里面的数据挖掘和预测的模型远远不止我们看到的这些。如果把各个维度的数据以用户为中心整合在一起,将创造出一个强大的预测系统,不仅仅会对商业产生营销,可能会对医疗,教育,职业等各个维度产生深远的影响。


王绪刚

大家可以提问了

交流互动

金耀星

谢谢王总,请问,你们做RTB之类的广告模式吗?

王绪刚

我们暂时没有介入RTB

卿刚:

这是成熟产品?还只是一个模型?

王绪刚:

是成熟的产品

邵宗友

对自建数据有什么要求吗?必须是结构化的吗?

王绪刚:

在一个大的社交平台,和一个自由的营销闭环中,还可以形成自有的数据平台。不一定是结构化的,非结构化数据肯定还需要进行结构化处理,才能统一计算

张岩

向王总提个问题,在我们对零售领域的研究发现,消费者社交行为与购买行为间存在很大差异。以社交分析投放是可以的,但以社交指导销售不一定行的通。王总如何看这个问题?

白硕:

我问两个问题:1、如果自有平台数据和第三方数据涉及同一个人名,怎么区分这是同一个人还是同名的两个人?(当然基于群体的应用不需要区别) 2、如果自建平台粘性不够导致自有数据在数量和质量上都不占优,主要靠第三方平台数据,这个模式可持续吗?

王绪刚

回答白老师。1、一般不会通过人名来识别,主要还是通过社交id等能唯一确认的信息;2、对于数据的依赖实际是一个伪命题,客户的自有数据也很多,但是不够丰富。社交数据很丰富,但是不够商业,只有二者结合才更有价值。

张涵诚:

品牌营销效果化后,低估了社交媒体营销的价值。但任何一个微营销都有个临界点,没有达到,营销效果大大折扣。营销管理是一套组合拳。微营销也不例外。

王绪刚

是的,不能单纯依赖社交媒体,赞同。所以我也非常鼓励客户自建数据并在消费行为和社交行为中不断累积数据

邵宗友

你说你们是基于内存数据库,那你的非结构化处理怎么做

王绪刚

一般非结构化数据主要是指图像,文本等数据,文本我们会通过领域字典来进行分词和主题词抽取进行结构化,图像有点难。主要还是依赖短连接来识别,并不做内容结构化

张涵诚:

哈哈,大部分目前定义的非结构化数据,其实还是结构化的,只是没有存,非结构的音频,视频,图像的多。

王毛路:

非结构化数据可以通过分词,语义分析。倾向性判断等,进行结构化处理。这是常规做法

白硕:

我不认为他们作了倾向性的处理和识别。这个很有讨论价值,也许可以做更多的探讨,目前在结构化的时候没有做倾向性判断,但是在预测的过程中,会做,比如情绪正负面等。

王毛路:

先分词,语义分析,倾向性判断,然后聚类是下一步。

邵宗友

如果简单分词和语义,会失去大量信息。另外非结构化数据处理速度和容量是个挑战。

白硕:

这涉及到倾向性就好玩了,比如一个人坐了某公司的飞机,出言抱怨的却是机场,你能精准分析出这个负面情绪不是针对航空公司的吗?

王毛路:

可以分析出是正面和负面的。然后在提取关键词。机场、天气、服务等。把针对每类的表达帖子搜集一些,进行聚类,学习。我说的是技术上对非结构化的处理方法。熟悉业务后可以建立词表,作为判别某种类型帖子的词库。下一步可以自动判断帖子类型,广告贴,抱怨贴,记录贴。把不同的帖子进行过滤。还可以机器进行归纳,形成多文档摘要。

邵宗友

准确说您说的是文本非结构化数据的处理方法。带结构的词表,就是本体,长在本体上的倾向性,才更精准。本体长什么样,决定技术精准程度。

董健:

情感分析是一定要针对主体的,这样就可以实现倾向性的分析更有价值。就不至于机场和航空公司不分了,当然这也只能处理理想情况。

吴君:

如果只是客户营销,不需要行业expert,比如机票的核心发动机业务模块是政策,作为客户营销的团队,没必要知道政策投放如何运转机票的核心竞争力,以及如何用最好性价比吸引消费者,那是机票代理平台和航空公司的事。

核心业务可以是黑盒,除非你想亲自玩业务,才需要打开黑盒玩白盒。我的意思不是完全不懂业务,只是懂表皮就行了

卿刚:

同意!我指的专业人员意指了解航空营销流程的人。而不是外人拼几个数据处理和挖掘就可以指导用户并希望卖到钱

吴君:

对,达成共识,对于政策的玩法,我在机票两年,也就算有些熟悉而已,做营销到客户流程层面既可!

王绪刚

专业的问题,在营销阶段确实对业务的理解可以少一些,不过进入到marketing驱动sale阶段,就需要行业专家介入,我们的做法是我们会跟客户的专家一起工作,在通用模型框架基础上进行配置。

我真心觉得今天的收获蛮大,接下来会与客户有深入的数据合作。具体问题可以在群里请教大家了,呵呵


吴君:

我尝试过设计做机器应答产品,只要熟悉业务,不需要情感分析那么高级,对业务情况细分既可,这就是业务替代技术的不足

卿刚:

touch 开源做的还是商用软件开发的;数据可视化,能说下么

王绪刚

系统有部分采用了hadoop,其他是自行开发。业务弥补技术不足,产品设计弥补技术不足是一条正确的思路。可视化部分我们也有专门的团队,这部分利用了开源的部分系统。

12.jpg

上图是我个人的影响力画像

张涵诚:

看到大家分享了好多大数据的方案了,更多的是抓数据,分析,推理,利用“小数据”,分析细节,但没有看到没有数据,但是利用理论去演绎数据的,我觉得的演绎是大数据之路。懂人性,比懂数据重要

董健:

@某人通过提示性数据过滤来获得更加准确的结构化数据而不是数据分析?我能想到你们做的事情。引导式数据获取确实更有价值,类似以前神州泰岳的朋友说的养数据,但是那种需要对数据来源能干预的前提,和他们做的基于第三方平台数据是两条路。一种是强大自己,一种是借助强大的肩膀。

徐琪:

无疑你今天举的春秋航空案例,其中对数据取样是个关键步骤,样本设计非常复杂,因为机票预定的背后有五花八门的原因。

王绪刚

徐老师,没错!我们需要做的就是找到大数据中的相关因素

徐琪:

取样数据的结构性建立都会层次化和交叉化,而呈网状结构,所以数据分析难度不小,除非对分析精准要求不高。

吴君:

徐老师,如果不用精确到百分之几的提高的话,其实用户购买机票的原因很简单,对一部分用户,低价,第二部分用户,价格过得去,服务好第三部分用户,中间找平衡。

王绪刚

您说的很对。所以我们的处理引擎是图状数据结构

阮彤:

白老师说本体长什么样,决定技术精度。从我们的角度,其实就是后台有个语义知识库,结构化工作会更精准。我们在做这方面的工作。提高很大。

吴君:

徐老师,做技术要向您学习,精益求精,做商务是否需要精准,得看发展速度,如果100%增长,就没人care精准,简单粗暴才是王道了


陈新河:

联盟副秘书长;《软件定义世界,数据驱动未来》@王绪刚再次感谢王总的精彩分享!

本周“大数据100分”精彩分享请查询历史信息或敬请期待!

中关村大数据产业联盟“大数据100分”本周精彩节目预告(部分内容公开)。

20140519(周一)

分享主题:《基于大数据平台的企业管理变革》

主题汇报人:孙会峰 现任赛迪经略企业管理顾问有限公司总裁、赛迪顾问股份有限公司副总裁,工业和信息化部运行监测协调局特聘专家、中国计算机行业协会云计算专业委员会秘书长、中关村青年企业家联合会委员。

20140520(周二)

分享主题:《国家铁塔公司构想--国家高速公路光纤资源利用策略》

主题汇报人:解悅 2009-2014任职交通运输部通信信息中心北斗工程办公室,负责交通行业北斗高精度定位产业规划及高精度定位应用示范,及《高速公路光纤资源利用策略》研究。曾经任职施华洛世奇集团北京施华法斯交通技术有限公司中国区市场经理。博康科技集团高速公路事业部副总经理。 主要的工作领域在交通通信,交通安全及交通监控。参与全国高速公路联网机电工程。2003年负责首个1000公里高速公路数字视频联网工程。


原文发布时间为:2014-05-23

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
大数据文摘
使用钉钉扫一扫加入圈子
+ 订阅

官方博客
官网链接