【编者按】好的技术实战分享从来不因为时间的流失而褪色。2011年开始运营的阿里技术沙龙共积累35期,近100位深度实战培训资源(PPT+视频)让很多朋友大呼过瘾。接棒阿里技术沙龙,云栖社区特别挑选最具人气的12场深度实战分享组成【近战】的第一个系列。其中包含新浪微博、淘宝搜索、美团、美丽说、淘宝推荐、小米、支付宝、阿里云、淘宝无线在内,涵盖建模、个性化推荐、排序学习、系统优化、数据监控、流量优化、架构探索等多方面一线经验总结。
以下为【近战】第一篇,基于微博用户关系与行为的用户建模分析。
用户建模是广告、推荐、搜索算法最基础也是最核心的技术问题之一,本报告将介绍新浪微博大数据挖掘团队如何综合利用社交关系和用户行为来建立用户模型。以下分享下精彩内容。
微博及大数据
微博作为中国最大的社交媒体平台,微博沉淀了海量的用户,内容,关系,和行为数据。
其中用户:注册人数10亿,月活人数1.98亿,日活人数:8900万。关系:关注关系近千亿,分组关系50亿+。内容:日增博文1亿+,日增原创4000万。行为:转发6000万, 评论3000万,赞1亿,收藏:1000万, 查看200亿。
图1
如图1,微博大数据要做什么?要帮助用户发现感兴趣的内容,加快有价值内容的传播效率。目标如何实现?要挖掘有能力生产垂直领域优质内容的用户,挖掘用户内容消费的兴趣偏好。工作如何串联?用户能⼒力标签,用户兴趣标签,微博内容标签。
大数据标签体系
图2
图2所示为大数据标签体系的基本框架图。
用户能力标签——
用户能力标签的产品形态
图3
如图3微博找人直接推荐各行各业的能力用户
图4
如图4微博头条输出各领域原始语料的专家库
图5
图5为用户能力标签库的整体框架
用户能力标签库的策略算法如下:
(1)基于决策树的分组名分类算法:将分组名分为兴趣分组名和熟人关系分组名。兴趣分组名用于用户的能⼒力兴趣计算,熟人关系分组名用于用户的自然属性挖掘。
(2)基于用户关注关系数据计算用户在关系方面的能力:利用兴趣分组名称构建出标签的相关词库,进而通过归一化公式计算出基础权重。
(3)基于用户发布内容数据计算用户在内容⽅方面的能⼒力:用户在某个领域发布博⽂文数量、纯度、互动量越⾼高,在这个领域内容⽣生产能⼒力越大。
(4)通过PageRank计算用户在垂直⾏行业的影响力:通过PageRank计算具有⼀一定内容⽣生产能⼒力和关系能力的用户群中每个用户的影响力。
(5)通过线性加权将用户的关系、内容和⾏行业影响力计算为在这个垂直领域的综合能力:用户能力标签归⼀一化到0~100的区间,达到横纵向可比较。