数据分析-用户关系-开篇

简介:

    最近突然对网站的用户关系感起了兴趣。当然了,万事万物都是有原因的,只是有的是直接原因,有的是间接原因;有的原因很明显,有的原因不明显;有的原因很容易说清楚,有的原因说不明白。总之一句话,肯定是原因的。

    引发这个系列话题的原因是,在我收到的人人或者是校内发送的的推荐关注邮件中,或者是各大微博、SNS社区中的推荐关注与推荐话题中,发现大多和我没有关系,推荐的准确率不是很高,甚至可以说的比较低,更有甚者,还有一些毫无相关的人和内容推荐过来,我就不明白了,既然没有就算了吧,为什么非要有呢?

    但是转念一想,原因可能有以下几点:

  • 有和没有其实也是需要有个标准的,对于这种标准,又是大家各说各的理,没有定论,所以结果可想而知了。
  • 不好意思没有东西,显得网站没有水平。
  • 网站确实没有尽心尽力,计算出来的东西就没有那么精准了。

    关于精准其实也是有争议的,精准的标准是什么?大家的理解又不一样了。还有就是成本和产出比如何控制,想要精准也行,可是网站当前可能没有那么多成本去做这件事,或者说做这件事的产出相对成本来说有点低,所以失去了做的意义。

    当然了,有一些精准也确实在当前的条件下是不可能实现的。

    这件事引发了这个系列,也引发了我对于数据分析的兴趣,准确的说是数据分析中的用户关系分析,也就是在大量信息中发现用户的相关性。

    以前没有做过数据分析的工作,技术的积累也不够,但是感兴趣之后,就开始关注这方面的信息,技术,和文章,做了一些简单的思考,得出了一些简单的结论。从今天开始会和大家分享一下我的理解,肯定有不当的地方,或者是比较粗浅的地方,希望大家指出,或者给一些好的资源,也让我进步进步。

    用户关系分析的好,有很多的应用场景。SNS、微博可以做社会化推荐,电商可以做商品推荐,任何网站都可以利用用户关系来增加用户的黏度,增加用户的忠诚度,做大做强自己的网站,提供更好、更合理的使用体验,以便于更好的为用户服务。

    今天先说一些简单的用户相关性理论和如何确定用户相关性?

    用户相关性,就是用户关系的强弱,也可以量化为数值的形式。如果说0是无相关,10是相关性最高的话,1-3属于若相关,4-7属于中等相关,8-10属于强相关。

    那么如何得出两个用户之间的相关性呢?最简单的莫过于利用用户的基本信息,身高,体重,年龄,爱好等等结构化的数据对两个用户之间的相关性进行计算,得出结果。

    举例来说,用户A的年龄是20,用户B的年龄是20,在年龄这个维度上面他们的相关性就是10,当然了,这个10在最终的相关性结果中占多大的比例,还需要为年龄维度设计一个加权值,在综合各维度的时候使用,不是简单的加和平均。同样是年龄,除了直接比较意外,还有一些是需要通过计算其他信息的,例如用户B没有年龄,但是有小学毕业时间,根据这个时间也可以推算年龄,然后进入年龄维度的比较。

    首先会设计很多的维度,每一种维度的权重以及加权值,然后通过采集用户的信息,进行分析计算。

    在实际的应用中,结构化数据毕竟是有限的,很多信息用户会由于某些原因,不想填写,大量信息的空白,给结构化数据的分析带来困难,强制填与不填之间,网站也很会纠结一番。

    就需要大量利用非结构化数据进行分析计算,包括用户的留言,话题,回复,喜好,收藏,购买历史,在这些大量数据的基础之上使用各种分析手段,使这些数据反映出结构化的结果。

    常用的就包括map/reduce这种进来很流行的东西,在分析的过程中还可能会用到语义学的知识,甚至是心理学。

    尤其是社会心理学,我认为会起到很重要的作用,而且我认为大多数的SNS和微博在社会心理学方面的研究和应用做的都不太够,深度不够才导致推荐的结果差之千里。不过,想要应用的好,也需要下一番功力的,需要专业的知识,还需要将这些专业的知识转化为技术。

    今天就聊到这里吧,在以后的日子里,我会继续好奇这方面的信息,继续和大家分享我的认识,希望大家踊跃拍砖!!!




本文转自 virusswb 51CTO博客,原文链接:http://blog.51cto.com/virusswb/781267,如需转载请自行联系原作者

目录
相关文章
|
机器学习/深度学习 自然语言处理 监控
数据分析案例-对某宝用户评论做情感分析
数据分析案例-对某宝用户评论做情感分析
545 0
数据分析案例-对某宝用户评论做情感分析
|
机器学习/深度学习 数据可视化 数据挖掘
数据分析案例-基于随机森林对影响信用卡审批结果和用户信用等级的特征分析
数据分析案例-基于随机森林对影响信用卡审批结果和用户信用等级的特征分析
203 0
数据分析案例-基于随机森林对影响信用卡审批结果和用户信用等级的特征分析
|
机器学习/深度学习 分布式计算 安全
python数据分析-开篇什么是数据分析
在《增长黑客》提到的增长团队中重要成员是数据分析师;数据分析师从数据角度抽丝剥茧,不断验证,A/B测试,找到问题,提出增长建议。数据分析师就像侦探一样,找线索,求真相, 是艰难但富有挑战的工作。
119 0
python数据分析-开篇什么是数据分析
|
安全 数据挖掘
带你读《SAS数据分析开发之道 软件质量的维度》第三章通信交流3.4用户生成的返回码(二)
带你读《SAS数据分析开发之道 软件质量的维度》第三章通信交流3.4用户生成的返回码
|
SQL 安全 数据挖掘
带你读《SAS数据分析开发之道 软件质量的维度》第三章通信交流3.4用户生成的返回码(一)
带你读《SAS数据分析开发之道 软件质量的维度》第三章通信交流3.4用户生成的返回码
|
算法 数据挖掘 数据库
四大触点,教你从“用户视角”构建数据分析体系
做增长、做产品其实和谈恋爱的道理是一样的,想要把这件事情做好,需要建立一个好的用户基础,站在用户(女朋友)的角度看待问题、发现需求、建立场景、提出解决方案,这种需求大到可以是产品的改版,小到可以是一个模块的点击迭代。
|
数据可视化 数据挖掘 大数据
人人都能做分析?QuickBI数据分析用户论坛告诉你
12月27日,阿里数据即将开启年度论坛——QuickBI用户论坛,全面介绍数据中台模式下的BI产品未来趋势!
5407 0
人人都能做分析?QuickBI数据分析用户论坛告诉你