大数据小说 | 如何用一小时看透一个初识的姑娘

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:


“科学算命”


“同学,你的背包拉链没拉好。这个社会越来越险恶,像你这么可爱的女孩子一定要当心。”

小姑娘左手端着一杯焦糖玛奇朵,右手拿着iPhone,闻言瞟了我一眼,顺手摸了摸背包,露出了T恤背后的艾薇儿。当她的手指触到贴着射手座符号的MacBook Air时,我趁机向她抛出一个善意而知性的微笑:“有兴趣看看最近的运势吗?”

她顺着我的手势望去,只见“科学算命”四个挺拔刚遒的大字映入眼帘,眉毛刷地一下挑起,眼神顿时亮了三个流明。  

有戏!我在心中大喊,然后默默地拿出手机,打开我的算命App,在“基本资料”一栏里输入“性别:女;职业:学生;家庭收入:中等偏上;爱好:星相学、苹果产品、流行摇滚/流行朋克”。App瞬间返回了一些朴素贝叶斯模型计算出来的信息,我扫了一眼,虽然粗略但与我的直觉判断一致。很好。

小姑娘兴奋地拉开凳子一屁股坐了上去:“大叔,你这个‘科学算命’,有啥厉害的地方啊?”

“这个嘛,”我低头迅速扫了一眼我的手机,“就凭你我说的这几句话,我倒是能大概看出一些表层的东西。比方说,你的iTune里一定有一两首Christina Perri的歌,但绝对不会特别多,比方说《平凡的世界》《致青春》《挪威的森林》这三本书你起码看过两本,比方说你对Justin Bieber谈不上喜欢甚至很可能相当讨厌。此外,你应该喜欢吃德芙巧克力,但不太喜欢吃纯黑的。”

小姑娘瞪大眼睛:“你都是怎么知道的!”

我故作潇洒地笑笑,并不急于回答她的问题,而是反问道:“你大概不知道艾萨克-阿西莫夫吧?”

“不知道……”小姑娘摇了摇头,又点了点头,结结巴巴道,“好像听说过……但是不太熟……”

我知道你不知道,我在心里对自己说。事实上,我知道你不知道的概率是76.3%加减9.2%,9.2%是置信水平为95%时的置信区间大小。也就是说,一个听艾薇儿用Mac Air喝星巴克的中国女大学生没听过阿西莫夫的概率在九成五的情形下至少为67.1%也就是三分之二,而至多为85.5%。所以我说“大概不知道”是相当准确的。最起码我的数据是这样告诉我的。

我又接着道:“阿西莫夫是个科幻作家,在他的代表作《基地》系列里,他虚构了一个叫做心理史学的学科,通过对大量人类随机行为的数学描述,来预测人类社会的发展走向。在这个过程中,个体行为的随机涨落会被统计规律所淹没,正如同统计热力学中描述粒子无规则的热运动那样,虽然单个粒子的行为是无法预测的,但作为一个整体,却是有规可循的。心理史学虽然是虚构的,但大致贴近‘科学算命’的意思。”

小姑娘的表情看起来像是刚被黑衣人用激光笔闪过。

“Anyway,大数据时代的来临,使得我们有可能真正实现人类这一永恒梦想。在计算技术的储备以及数据的原始积累均已初步完成的今天,我们提出一个宏伟的目标:以科学的手段,通过大量采集人类活动的数据,建立精密的数学模型,来预测个人的行为模式以及发展趋势;通俗一点来说,就是——大数据算命。”


知己知彼


我见时机成熟,便展开计划关键性的一步。我把手机放在桌上,和颜悦色地说道:“在我们开始之前,我想对你有个大致的了解。这里有个手机App,你可以登录一下,填写一些个人信息,这样方便快捷,省得我一项一项问。你平时上社交网站挺多的吧?微信,微博,豆瓣都行,方便的话一块儿填了吧,信息全一些。”

“好呀。”小姑娘一口答应。显然,她对接下来将要发生的一切懵懂无知。

如同92%的用户一样,她在《用户协议及须知》一页只花了不到两秒的时间,在“同意”一栏中匆匆打上了勾便进入了App。当她手指触到“进入”的那一刹那,潘多拉魔盒已经悄然打开。只是从中汹涌而出的,并不是可怕的魔鬼,而是GB级的个人信息。

“嗯……这样就好了吧?”小姑娘把手机递给我,“对了,还不知道大叔怎么称呼呢。”

“哦,我叫陈艾丰。艾草的艾,丰富的丰。”我接过手机,职业性地微笑道。模型计算的进度条很快就走完了。

我扶了扶眼镜,镜片上是柯南即将揭晓凶手身份时标志性的白光。在刚才瞎扯淡时,位于大洋彼端服务器内的CPU阵列已经完成了海量的查找与计算,并将结果通过太平洋底的光缆返回到了客户端。这一切都是在短短一分半钟之内发生的。

我的手指像艺术家般拨弄着App,一串串数字在我的眼中便如同蒙太奇般对我诉说着她的兴趣爱好,她的喜怒哀乐,她的一切的一切。

“余苗?好名字。”我习惯性地夸奖了下。“谢谢!”小姑娘冲我笑了笑。我看着小姑娘,正色道:“那么余苗,从你的星座本命盘上,还是能够看出你为人的一些特点。”

我手指轻弹,打开了她“用户特征”下的“浏览及搜索”一栏,略一思索,说道:“你的性格开放,对于新鲜事物有着强烈的好奇心与求知欲。”

换句话说,你点击“猜你也喜欢……”之类的推荐链接的概率是79.6%,平均连续点击次数为47次,比你所在用户组别的平均值分别高出8.3个及6.5个标准差。

“有好奇心是件好事,这让你更加迅速地了解很多东西。但若好奇心过于强大,则不免流于表面,浅尝辄止。这样的人,往往徒有一腔热情,最终却一事无成。”你在每个页面停留的平均时间为13秒,也就是说不会读超过两个自然段的信息。

小姑娘脸一红,张开嘴来,却说不出话。看来是说到了点上。

“同时,我认为你不是个意志坚定的人,容易受他人影响及左右,多数情况下会犹豫不定。”你搜索iPhone和Galaxy Note的频率几乎旗鼓相当,并且经常会在关注其中一个之后,突然转而搜索另外一款。两个关键词的搜索频率因此呈现交替领先的形势。同时扩展数据库显示,你曾两次下订单购买Galaxy Note,却最终取消,转而购买了iPhone。同样的情形也发生在Mac Air和Lenovo Yoga 13身上。

小姑娘有些坐立不安,小嘴撅了起来。看得出她似乎并不喜欢我指出她性格上的缺陷,却又因为我句句属实而无可奈何。

“这些都将成为你实现人生目标最要命的障碍。希望你好好考虑一下。”我摆出一副人生导师的态度。


为情所困


“下面我们来看看你的感情”。我迅速翻了翻余苗的“好友互动”一栏,一个名为“欧阳墨”的用户毫无争议地雄踞她浏览、留言、看照片等各大榜单的榜首。看来一准是他没错了。我又查看了她与这个欧阳墨之间的互动统计数据,算上查看、评论及转发,九十天内她浏览他的页面次数为1121次,平均每天十多次。而他浏览她的页面次数……为五次。

单相思。

“按照射手座的运势,去年全年都属于低潮期,尤其是下半年,应该有一次较大的挫折。”

小姑娘轻轻“嗯”了一声,“我喜欢的男生有了女朋友。”

我点了点头,假装问了问两人的名字。

“男生叫欧阳墨,水墨的墨。女生叫贾璐。玉字旁一个道路的路。对了大叔,你怎么老看手机呀?”小姑娘看我在桌子下查个没完,有些疑惑地问道。

“发短信呗。作为一名命理咨询师,我业务可是很繁忙的。”我若无其事地解释道。当然其实我是在查看各类数据。太棒了,服务器已经完成了对两人数据的抓取,开始根据二人之间的互动计算一些特征统计量。例如,页面访问频率,上传照片查看概率,平均浏览时间长度等等。

在接下来的一分半钟里,我做了如下事情。

首先,我取出了储存于服务器端几十万对情侣的资料,对于每一对情侣,计算出他们之间的互动信息统计数据。然后把这些数据放到一个高维空间里面,每一个维度都是一个统计量。几十万对情侣最终的结果——分手还是在一起——被标记在了代表他们的数据点上。之后——最关键的一步——我用了支持向量机(Support Vector Machine,SVM)这个方法,将那几十万个数据点用高维空间里的一个超平面分割开来。这个超平面,等于是宣判书:超平面的一面,意味着有情人终成眷属,而另一端,则预示劳燕分飞的结局。接着,我将欧阳墨和贾璐两人的数据同样放到这个空间里面,区别在于,事先我并不知道他们的结局如何。

当欧阳墨和贾璐的数据被放置在那星星点点浩如烟海的数据点中时,我在心里笑了。那个数据点明明白白清清楚楚地落在了分手的那一侧,并且离那决定命运的超平面相当地远。也就是说,按照支持向量机的结果,欧阳墨和贾璐的恋爱关系,已经病入膏肓,无力回天了! 

如果要用通俗的语言解释方才发生的一切,可以打个比方。我手边有一堆刚晒干的香喷喷的新鲜花生,又有一堆已经被虫子蛀坏了的烂花生。我拿来一个碗,撒了一把新鲜花生在里面,又撒了一把烂花生在里面。然后,我往碗里倒了一杯水。鲜花生因为密度比水大,沉在了碗底,而烂花生因为被虫子蛀空了,从而飘在了水面上。于是我们知道,但凡沉在碗底的都是好的,但凡漂起来的都是坏的。这时候,我拿来了一颗不知是好是坏的花生,pia叽一声扔到了碗里——发现它漂在了水面上。因而我们断定,这是一颗烂花生。

服务器中成千上万对情侣,就是那一颗颗的花生,那一杯水,便是那区分好坏的超平面,而欧阳墨和贾璐二人的关系,则是那颗被揪了出来的烂花生。

不过,为了谨慎起见,我还是多做了几步计算,考虑了数据的噪音,对几个变量做了控制,尝试加入和剔除了一些维度,又换了几个稍微不同的Kernel function。除了有少许变化,基本上结论是一致的。而这如此大规模的计算得以在短短一分半钟内完成,完全得益于我所使用的服务器上企业级的并行计算架构。

“我有个好消息和一个坏消息。”

“好消息是,据我测算,你的意中人和他女朋友的姻缘,似乎正笼罩在一片阴云之中;坏消息是,你和欧阳墨之间的默契程度太低,即便他和贾璐分手,你和他在一起的概率也不大。”

小姑娘脸上刚刚出现的笑容戛然而止。“为什么?!”

事实上是因为我把余苗和欧阳墨的用户资料做了一个比对,把二人的数据映射为两个高维空间中的向量,然后计算向量之间的夹角。夹角越小代表向量越相似,越大则越相异。而余苗和欧阳墨两人向量的夹角是……173度。

这两人根本就是南辕北辙好吗!

我摇了摇头,面色凝重地说道:“你跟欧阳墨之间,有着无法逾越的鸿沟。你看,你想谈哲学,他跟你谈科技。你想谈科技,他跟你谈投资。你想谈投资,他跟你谈人脉。你想谈人脉,他说,这是个哲学问题。你们先天气场不合,合盘上刑冲太多,这是无法改变的事实。”

“小姑娘的心情像正弦曲线一样,又跌到了谷底。我不忍心她心情大起大落太难受,也为了增大我这笔交易收益的期望,安慰她道:“不过,后天补救的方法,也不是说没有。首先,你要努力尝试增加你们之间的契合度,加强二人相互的感应。例如,他对科学技术自然格外关注。那么相应的,你就要多了解这方面的知识。其次,你可以多发挥自己的特长,让他也感受到你的强大,巧妙地引入他感兴趣的话题,来一个请君入瓮。比如,作为国际关系专业的学生,不妨谈一谈气候决定论和技术决定论,讨论小冰期的到来对于罗马帝国衰亡的加速作用,分析一下航海技术对今日世界格局的深刻影响。”

小姑娘一下子茅塞顿开,“这个我可以的!”

“孺子可教!”我称赞道, 建立你自己的气场,让他进入你的领域,相信他行星的运行轨迹,一定会受到你引力场的扰动的。”

“嗯!”小姑娘粉拳一握,做出个坚定的表情。


事业和远方

“好了,感情方面我就说到这。希望你自己好好把握。现在让我花一点时间来谈一谈你的事业。想好毕业去哪个公司了吗?”

她摇摇头……

我伸出一根指头晃了晃,“我看,你还是应该锁定一两家公司,有针对性地进行准备。其实找工作呢,很多时候靠的也是缘分。比如可能面试官刚好很喜欢你,或者你有一项技能是他们特别想要的。这样吧,既然说到缘分,我索性为你占上一挂。”

小姑娘一听算卦,眼睛又亮了。

我在App中输入了关键词“金融公司”,启动了针对用户余苗的社交网络搜索功能。四五秒后,手机上出现了我期望的结果。我在手机上写下几个字,给她看了看。“你若是同这个公司接触接触,说不定会有所转机。”

“摩根斯坦利?”小姑娘诧异地念道,“为什么是这家公司?”

之所以是摩根斯坦利而不是花旗、不是高盛、是因为我刚才把余苗的LinkedIn档案翻了个底朝天,从中发现了摩根斯坦利的一名现任主管——她妈的大学同学的小姨子。根据小世界现象,世界上任何两人之间,最多只需通过五个人就能认识。考虑到仅有中国人的情况下,这个数字恐怕还要更小。余苗的父母看样子都受过高等教育,一个在金融行业的联系人都找不到,那才是怪事。明白这一点,要替她指一条明路便不是什么难事。我刚才只是用App对她的社交网络做了个广度优先搜索,同时在联系人档案里搜索“金融”关键字,问题便引刃而解了。

“缘分这种东西,说不清、道不明,可遇而不可求。”我摇头晃脑道,“不过,我模模糊糊感受到一些方向,你不妨参考一下。例如,你可以去寻找那些在你生活中不太经常出现,但却能在关键时刻推你一把的人。例如,有没有毕业的学长学姐最近去了那里工作?或者有没有什么父母的朋友在你希望去的企业任职?缘分也是一种资源……”

“最后,向往自由的你,近期应该非常渴望去一个遥远的地方。”“是的!”小姑娘笑了笑,一副已经很习惯我知道她在想些什么的样子。

“我看,你最适合去大洋的彼岸,一个温润潮湿的所在,一座翡翠之城。” 余苗在过去的六十天里搜索频率最高的词汇是“机票”,67次;“美国签证”,35次;“西雅图”,29次;“旧金山”,23次,“星巴克总部”,19次;“太空针塔”,17次;“金门大桥”,13次。 

“对,我正计划去西雅图。我最想去星巴克的总部看看!”“航空博物馆也不错,正好可以补充些理工科知识。”我和她相视一笑。

“好了,我该说的都说完了。时候也不早了,抱歉耽误了你一个小时,希望我说的对你有所助益。”我站起身来,礼貌地伸出一只手。  

就这样,我用一小时看透了一个刚刚认识的姑娘。我知道,我跟她一定还会再见面。

原文发布时间为:2017-02-14

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
SQL 机器学习/深度学习 分布式计算
峰哥帮读者精准押题,211程序媛字节、阿里大数据面经分享
峰哥帮读者精准押题,211程序媛字节、阿里大数据面经分享
峰哥帮读者精准押题,211程序媛字节、阿里大数据面经分享
|
5月前
|
机器学习/深度学习 人工智能 大数据
“会数据同学”首站!走进雅戈尔,看45岁的跨国时尚品牌如何用数据做会员增长
“会数据同学”首站!走进雅戈尔,看45岁的跨国时尚品牌如何用数据做会员增长
|
存储 机器学习/深度学习 缓存
【送书活动】大模型赛道如何实现华丽的弯道超车
【送书活动】大模型赛道如何实现华丽的弯道超车
|
大数据 数据库
程序人生 - 祝贺登榜《大数据领域内容榜》NO.20
程序人生 - 祝贺登榜《大数据领域内容榜》NO.20
100 0
程序人生 - 祝贺登榜《大数据领域内容榜》NO.20
|
新零售 人工智能 达摩院
阿里二季度财报很漂亮,但更值得关注的是内在逻辑
阿里二季度财报很漂亮,但更值得关注的是内在逻辑
633 0
阿里二季度财报很漂亮,但更值得关注的是内在逻辑
|
人工智能 算法
今年阿里日马老师说: 爱情是不能计算的,婚姻是无法计算的价值
今年阿里日,马云为102对新人证婚时说什么了?
2868 0
AI课程将在今秋走入高中,准高一新生准备好了吗?
就教学体系而言,学习AI不再是本科生和研究生的专属。
323 0
|
大数据 开发者
2018MaxCompute开发者圣诞趴 — 承认吧,你向往的不是红包,而是最前沿的大数据技术
Jingle bells,大数据开发者的圣诞时间到~ 这封圣诞邀请,我想发给所有MaxCompute开发者和大数据爱好者们, 搞个Party,你可别说你要改bug, 发几波红包,你可别说你眼里只有code, 送几轮礼物,你可别说你正忙着ETL...
1838 0
|
分布式计算 大数据 MaxCompute
比起表白这件事,玩大数据会更容易吗?
有人认为爱是性,是婚姻,是清晨六点的吻,是一堆孩子,也许真是这样的,莱斯特小姐。但你知道我怎么想吗,我觉得爱是想触碰又收回手。 ——塞林格 《破碎故事之心》
7137 0