如何把大数据做“厚”？c-阿里云开发者社区

在大数据时代，营销者面对的课题是如何在网络上识别一群有共同属性的目标人群，同时还要描述出特定人群中某个人的特征和行为。这个巨大的挑战源于不知道谁在电脑的那一端，在不知道名姓、联系方式的情况下，通过行为识别所构建的数据模型来判断一个人的性别、兴趣、年龄、爱好和需求，以此实现精准营销。那么数据是如何在行为识别中发挥作用的呢？

有一个有趣的例子可以说明大数据在实际应用中之“混沌”。在阿里巴巴的数据后台，尽管大部分用户在注册时几乎都填写了自己的“性别”，但在实际操作分类和定向营销中，阿里巴巴设定了18个“性别”标签。这样的分类是基于用户在不同场景中的不同表现做出的。比如：虽然你是一位女性，但你也可能在给你的男朋友或者父亲买东西。或者通常女性更喜欢看服装饰品，可你更喜欢常被设定在男性消费品类别下的数码产品或者游戏消费。

所以，你在注册信息中填写的“性别”是一种固定信息，也就是传统的“小”数据，这些数据是结构化的数据。这个数据虽然很重要，但却是静态数据，不能完整地描述你的搜索和购物行为。要把数据激活，就需要把静态数据变成动态数据，这需要借助场景来验证。阿里巴巴副总裁车品觉说：“同样的人在搜索商品时可能会表现出不一样的行为特点，而这些不一样的行为就是场景，结合场景应用数据就是‘活’数据。”

在人文学科看来，大数据其实是一个“薄”数据的总集合。“薄”数据是对我们日常的行为描述。例如，我们每天旅游的线路、我们在互联网上的搜索痕迹、我们的睡眠时长、我们与朋友的交流、我们钟爱的音乐，等等……这些数据都在你的浏览器上留有痕迹，在你的手机定位系统中留有踪迹，在你手腕的智能腕带上留有行迹。

当大数据技术不断发展完善之后，人们发现那些留在网上的数字足迹，也就是常说的cookie可以勾勒出一定的行为特征和个人喜好，而给这些特征和喜好分类的就是“数据标签”。于是一些公司通过收集数据来找到对公司产品和服务有特定兴趣的人群。寻找消费者和提供个性化体验需要对人们随机的网上行为加以分类，给这些行为一个标签。一个人的标签越多，对他的行为描述也会越精细。

毫无疑问，人们日常的行为至关重要，但这并不意味着大数据的全部。为了更深刻地理解人们的日常行为，我们必须要得到学者眼中的“厚”数据，即运用日常的生活“经验”去理解人类行为。“厚”数据不单单关注事件与行为本身，还要去关注事件发生的背景与原因。

大数据不必精确，首先要接受它的“混杂性”

在传统的小数据时代，企业要做出决策，需要在数据的规模化搜集与整理上下很大功夫。首先要选取准确的样本源，其次随机抽取，再尽可能详细地记录抽取样本的一切细节，进而做出判断。然而，样本的抽取本身存在着大量的缺陷和隐患。首先采样的随机性非常困难，而且分析过程中的偏见也无法避免，结果会相去甚远。

在大数据时代，我们首先要打破的就是对“精确性”的执着。现在，用户姓甚名谁已经不再重要，重要的是发现他们的行为轨迹。比如，过去我们对数据分类的关注点会放在：家庭地址、基本人口、年龄、婚姻状况、子女、居住地、工作单位这些信息上。这些都是“静态数据”。

而大数据搜集的是消费者的“动态数据”。首先是购买产品的信息、何时购买、在哪些地点购买。其次是寻购数据，指用户有潜在需求但还没有购买的产品。这些可以通过大量动态标签的识别，在用户上网浏览网页的过程中捕捉到，这些信息都将对企业产生价值。第三是体验数据。客户购买之后的评价会影响品牌的忠诚度。体验数据涉及语义分析。比如想了解用户对公司品牌正面还是负面反馈，可以通过太糟糕、太贵这一类负面词语中的“太”、“糟糕”、　“贵”这些关键词来获得。

有了这个前提，对大数据的洞察和应用才可以说有了商业实现的可能。

“执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱，剩下95%的非结构化数据都无法被利用。只有接受不精确性，我们才能打开一扇从未涉足世界的窗户。”——维克托·迈尔-舍恩伯格，《大数据时代》

大数据分析行为，而不是人;探讨“是什么”，而不是“为什么”

品友互动CEO黄晓南认为以大数据为基础的RTB广告或者说DSP广告平台可以代表大数据真正落地最现实的一种商业模式，因为它已经把大数据切实应用在了广告的匹配层面，可以把每一次广告曝光的价值完全细致化。

RTB(Real Time Bidding)广告是一种实时竞价系统。在传统的互联网广告生态链中，一般只有三方，分别是广告主、广告公司、互联网媒体。而在RTB广告交易模式中，生态链变成了广告主、DSP交易平台、广告交易平台、互联网媒体四个主体。广告主将自己的广告需求放到DSP平台上，互联网媒体将自己的广告流量资源放到广告交易平台，DSP通过与

广告交易平台的技术对接完成竞价购买。当用户访问一个网站时，广告位的具体信息则会经过DMP的分析匹配后发送给DSP平台，DSP将对此进行竞价，价高者得到广告的展现机会，并被目标用户看到——从开始竞价到完成投放，这一系列的过程仅需100毫秒，全部依托机器完成。

这些的前提是人群建模，而人群建模的基础来源于对人群认知的准确性。品友互动现在每月掌握了8亿多个活跃的cookie，在每个cookie背后总结出了5千多个标签去与它们对照映射。这些cookie和描述都是实时不停滚动的，在它们之间交叉了万亿量级的信息和数据，用来与适合的广告匹配，才能让大数据放射出强大作用。

品友互动把人群标签分为两类：一类是人口属性分类，第二是兴趣关注分类。人口属性类里，虽然有性别、年龄、收入这些判断，但这些判断不基于任何个人信息，全部基于对用户点击的行为模式分析。最关键的是，这些并不是在用人工操作，而是尽量转移给机器去学习和反馈。

“对用户的兴趣爱好分析，可以与他的许多行为模式相关起来。比如他对某个品类的访问频次、访问深度、浏览来源;是仅仅搜索汽车，还是寻找汽车比价。搜集到这些信息后，基本就会对他的兴趣点和消费动向有比较准确的把控，判断他背后的商业价值。另外，也要基于对他关注点的商业品类特性做出判断。比如一位用户想购买手机，最近可能会经常点击手机广告。但这个兴趣会随着他购买行为完成后迅速衰减。与此类似的还有食品、快消等门类……而对有些商品，用户的关注时间就会比较持久，比如汽车和旅游产品。这些判断都需要依靠对营销和商业的深度理解来建模。用户的许多信息都可以反映出他的兴趣偏好，比如他使用哪款浏览器。同时投放时还要考虑到广告时段，比如投麦当劳的广告，我们只选择中午11点到14点，下午17点到21点。”

标签连接，才能产生数据价值

数据也需要经历一个积累和学习的过程。仅凭几次上网行为的推断，标签还是孤立的。系统无法知晓用户的婚姻、家庭状况、性别;无法识别用户是否购买过保险，但通过追踪用户大量的行为轨迹，大数据就可以将隐藏在背后的信息发掘出来。

安客诚客户分析咨询全球副总裁程杰博士说，技术人员首先要发现标签和标签之间的逻辑相关和横向连接，这是指标签与企业想要寻找的目标人群之间的关系。

比如，在美国，购买凌志(Lexus)车的人通常会对寇驰(Coach)感兴趣。开哈雷摩托的人会关注福特皮卡，“哈雷”“福特皮卡”这些品牌作为数字标签生成之后，后台会根据大量用户历往搜索的内容和购买记录分析，从而获得其购买的相关性。因此，品牌名也是个重要的标签，某一类人的标签的共性会体现在品牌的关联上，而这一关联性在奢侈品牌中尤为明显，购买LV的人会有明显的特征去关注某一品类的衣服、鞋、或饰品。有了这种数据洞察，系统才会更加精准地推荐与用户经济实力和生活方式相匹配的产品广告。

当一个来自于某种背景的人的需求特性可以由几千个标签来描述时，不同人的标签之间也会发生关联。一个购买过“保时捷”的人拥有的标签里会有“高净值客户”这一项，高端楼盘的营销人员就会借助于第三方数据服务机构在网络上寻找拥有这一标签的人群来投放广告。一旦此人在网络上通过cookie追踪到，相应的楼盘广告也会出现。

如果能同时结合线下搜集到的相应的个人信息，就可以更加准确地做出预判。例如，同样在网上寻找购车信息，但是如果我们知道了他的个人信息，他是单身，还是有家庭的，将会有助于我们更好的建议，有家庭的可能会更倾向于SUV等类型车……

在实际应用中，除了了解用户的年龄、性别、职业，技术人员还要发现他们关注哪些杂志，喜欢怎样的电影，又会阅读怎样的博客，从中找到逻辑和因果关系，既要关心核心数据，也能善于发现衍生数据，才能采取有针对性的推广。

其中，核心数据可以来自多种渠道，有一些是基本的人口统计资料，比如家庭基本情况，家庭经常购买的东西，家庭兴趣等，这些数据可以在人们要求服务、购买运动会的门票、慈善捐赠或是购买新设备时获得。

衍生数据或者说模型数据在很多方面都会与基本数据不同。像安客诚这样的公司可以基于基本数据，通过分析处理做出关于人的各种假设或者预测。衍生数据或者说模型主要是用于确定某个人采取某种行动或购买一个产品的可能性以及可能发生的时间。例如去商店购买某类商品的可能性，或在拥有了一辆汽车4年以后，购买新车的可能性。

衍生数据和模型数据在市场营销活动中及时为消费者提供他们感兴趣的营销信息。A女士在网上为她自己买了双网球鞋，为蹒跚学步的女儿买了双鞋。她的信息被这个鞋商共享给了合作伙伴。被共享的核心数据为：A女士对网球鞋有兴趣，她的家庭有孩子，她是通过网络购买的，她通过网络看广告，住在东北。通过她的购买行为衍生的模型数据内容为：A女士有可能购买健身设备、健身房会员卡、健身服，她很可能在网络上购物。

模型数据是基于已知的基本数据属性预测某种行为或者属性的可能性。营销人员可以运用这些特性去识别运动鞋的受众，包括那些其他具有类似行为的可能对于运动鞋也有兴趣的买家。

黄晓南对此也有类似的感受：“过去，广告主主要只关心三个问题：访问流量、广告位置、客户关系。而基于大数据的RTB广告投放的出现，可以说改变了这样的状况。比如过去汽车广告可能主要会投在‘汽车之家’这样的专业定向网站上，但实际一个对汽车感兴趣的人，他可能其他80%的时间在读小说、看新闻、找八卦、看美女。只有大量搜集数据，把他的这些行为模式完整建立起来，你就可以让数据跟着他的行为走，在他读小说时，让他看到自己喜欢的汽车广告。”

大数据的概念是行业中的一个巨大转折，转折的最大意义在于初始概念的不同。从无序数据中提炼出信息，是大数据和小数据之间最大的区别。

小数据以表格形式存在，是二维的。虽然信息比较准确，但它是单一的。大家常说大数据精准，其实最精准的是小数据。比如根据邮箱直投、根据地址直投、手机发送短信，但它目标虽然精准，却侵犯了个人的隐私，另外信息不能多元。而大数据虽然看似无序，却可以推演出许多立体和丰富的层面，提炼出新的信息。

“即时性”是大数据带来的最大红利

可以说大数据最重要的意义之一是可以解决营销的“实时性”问题。特别是在如今手机、PC、平板多屏运作的时代下，快速处理用户的点击信息，分析用户属性，放出购买信息，这种实时的能力在商业中越来越重要。也是大数据在实际应用中亟待突破的瓶颈。

美国劳工统计局过去每个月都要公布消费物价指数(CPI)，用来测试市场的通货膨胀率。联邦政府为了得到这些数据，会雇用很多人向全美90个城市的商店、办公室打电话、传真、甚至登门拜访。反馈回的价格信息多达8万种，包括土豆的价格、出租车票价等。政府每年采集这些数据大约要花费2亿5千万美元。这些数据精确而有序，但是因为采集的结果要滞后几周，在2008年突然爆发的经济危机中，这些精确的调查并没能帮助政府及时对通货膨胀做出反应。

在大数据时代，只需要计算机不断捕捉新产生的现象，把现象之间做出关联即可。比如如果A和B经常一起发生，只需要注意到B发生了，就可以预测A也发生了。大数据让世界不再需要建立在假设的基础上，机器的计算能力让人们从人工选择关联物和一小部分相似数据的偏见中解脱出来。

品友互动曾经为惠氏公司服务，推送他们最新上市的保健品。“客户提出自己的目标群体是注重养生的白领女性。但我们在广告投放中把点击广告和参加活动的人做了一个反向的聚类分析，发现其中最多的是大学生，其次是IT人士，再其次是关注养生的人，之后才是白领。这些方法当然过去的线下市场调研公司也会做，但它的调整时间比较漫长。但使用大数据和RTB，我们可以实时调整自己的推送策略，马上更改物料和发送范围，优化定向条件，收到了很好的效果。”

在以大数据为基础的RTB平台上，技术人员可以及时调整人群分类属性、地域属性。品友互动覆盖了660多个城市，可以到达县级市。当推送一款游戏时，在一线城市推送效果不好，一小时后可以马上调整为推送二线城市，这些都可以用机器算法即时实现。

要实现这样的复杂运算，依靠人工是不可能的，这需要高级算法和机器学习来支持。在推送一款产品时，品友互动会基于不同逻辑先设定20到100多个策略，其中有的基于区域市场，有的针对特定人群。上线测试后，根据结果不断优化，最后把策略衰减为7个左右。算法工程师就好像在大海中寻找珍珠的“海女”一样，预测什么样的算法可以最精准地到达目标用户身边，让机器不断去反馈、去学习、变得越来越聪明。与算法工程师配对的优化师，会帮助他们不断对比和优化策略，挖掘各种商业信息。比如蓝色的广告物料会产生什么效果，促销信息放在右下角会怎样。在大数据的背景下，技术人员已经需要既懂技术，也懂商业。

本文作者：钱丽娜

来源：51CTO

如何把大数据做“厚”？c

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

如何把大数据做“厚”？c

热门文章

最新文章

相关电子书