【近战】基于微博用户关系与行为的用户建模分析

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

【编者按】好的技术实战分享从来不因为时间的流失而褪色。2011年开始运营的阿里技术沙龙共积累35期,近100位深度实战培训资源(PPT+视频)让很多朋友大呼过瘾。接棒阿里技术沙龙,云栖社区特别挑选最具人气的12场深度实战分享组成【近战】的第一个系列。其中包含新浪微博、淘宝搜索、美团、美丽说、淘宝推荐、小米、支付宝、阿里云、淘宝无线在内,涵盖建模、个性化推荐、排序学习、系统优化、数据监控、流量优化、架构探索等多方面一线经验总结。


以下为【近战】第一篇,基于微博用户关系与行为的用户建模分析。


用户建模是广告、推荐、搜索算法最基础也是最核心的技术问题之一,本报告将介绍新浪微博大数据挖掘团队如何综合利用社交关系和用户行为来建立用户模型。以下分享下精彩内容。

 

微博及大数据

  微博作为中国最大的社交媒体平台,微博沉淀了海量的用户,内容,关系,和行为数据。

  其中用户:注册人数10亿,月活人数1.98亿,日活人数:8900万。关系:关注关系近千亿,分组关系50亿+。内容:日增博1亿+,日增原创4000万。行为:转发6000万,评论3000万,赞1亿,收藏:1000万,查看200亿。

                                               1

  如图1,微博大数据要做什么?要帮助用户发现感兴趣的内容,加快有价值内容的传播效率。目标如何实现?要挖掘有能力生产垂直领域优质内容的用户,挖掘用户内容消费的兴趣偏好。工作如何串联?用户能力标签,用户兴趣标签,微博内容标签。

大数据标签体系

  

                                           2

2所示为大数据标签体系的基本框架图。

用户能力标签——

用户能力标签的产品形态

                    

                                                           3

如图3微博找人直接推荐各行各业的能力用户

                           

                                                               4

如图4微博头条输出各领域原始语料的专家库

               5


5为用户能力标签库的整体框架


用户能力标签库的策略算法如下:

1)基于决策树的分组名分类算法:将分组名分为兴趣分组名和熟人关系分组名。兴趣分组名用于用户的能⼒力兴趣计算,熟人关系分组名用于用户的自然属性挖掘。

2)基于用户关注关系数据计算用户在关系方面的能力:利用兴趣分组名称构建出标签的相关词库,进而通过归一化公式计算出基础权重。

  3)基于用户发布内容数据计算用户在内容方面的能力:用户在某个领域发布博文数量、纯度、互动量越高,在这个领域内容生产能力越大

  4)通过PageRank计算用户在垂直行业的影响力:通过PageRank计算具有一定内容生产能力和关系能力的用户群中每个用户的影响力。

  (5)通过线性加权将用户的关系、内容和行业影响力计算为在这个垂直领域的综合能力:用户能力标签归一化到0~100的区间,达到横纵向可比较。

                                           6

主要问题如图6,标签的自动聚合和筛选时的噪音问题,微博短文本分类及语义主体识别问题。

                                                7

7为标签自动聚合流程。

用户能力标签的效果很好,挖掘出120万能力用户,覆盖月活粉丝1.6亿;微博用户中娱乐、互联网、财经行业名人最多 微博用户中动漫、美食、旅行行业精英最多;微博聚集了近万名互联网技术牛人。


用户兴趣标签

用户兴趣标签的产品形态

                                            8

8是基于兴趣推荐用户感兴趣的文章。

                                              9

图9是基于兴趣Push用户一段时间内关注人发的但是没看过的微博。

                                           10

10为用户兴趣标签库的整体框架。

用户兴趣标签的策略算法

(1)          圈定各垂直领域的能力用户集合:根据用户能力标签分数分布以及各分数段的意义,圈定垂直领域的能力用户集合。

(2)          根据用户对能力用户的关注关系计算用户在关系方面的兴趣:关系兴趣权重的计算规则:根据w1w2最终确定关系兴趣的权重。

(3)          根据用户对内容产生的行为计算用户在内容消费方面的兴趣:微博行为包括:原创,转发,评论,赞,收藏,查看微博等十几种行为,不同的行为对应不同的分值,最终通过归一化公式计算用户消费内容的兴趣权重。

(4)          通过线性加权计算用户的综合兴趣调权:通过不断的迭代测试,用户在内容消费方面的权重更高一些。

用户兴趣标签的主要问题:

  用户的兴趣相对于能而言是时间敏感的, 如何在用户的兴趣权重上体现出时间敏感性是一个关键问题。如图11所示,

 

                                    11

所有用户都对实时,旅游,明星感兴趣吗?活跃用户体现出的兴趣极为广泛

用户行为权重的时间衰减:基于时间维度的行为热度衰减: 在博文消费方面,用户通过转发、评论、赞等行为来表达自己对领域博文的兴趣,其表达的兴趣热度及重要性随着时间是逐步衰减的,我们

通过牛顿冷却定律来量化衰减的程度。如图12所示,

                                            12

用户兴趣标签的效果是:挖掘出1.6亿用户的精准兴趣,覆盖微博月活75%。微博用户中对娱乐、时事、互联网感兴趣的人最多。微博聚集了110万对互联网技术感兴趣的人。

用户标签的规划

  规划用户身份,规划用户即时兴趣,规划用户质量等级。图13 为微博大数据用户体系。

                                                13


来源阿里技术沙龙 

分享:朱红垒,新浪微博大数据挖掘团队技术负责人

PDF可下载

同论坛其他议题分享地址

【近战】系列文章,跟踪tag标签即可得到。 

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
搜索推荐 机器学习/深度学习 算法
如何增加用户的参与感?交互式推荐来了!
一方面,互动能让用户感受到更多的参与感,并能一定程度上干预推荐结果,而不只是被动接受推荐结果;另一方面,系统通过与用户的互动能更加了解用户的偏好,从而提升推荐效果。那么,我们是如何让用户和推荐系统互动起来的呢?且看下文。
4499 0
|
人工智能 自然语言处理 算法
2024年6月上半月30篇大语言模型的论文推荐
大语言模型(LLMs)在近年来取得了快速发展。本文总结了2024年6月上半月发布的一些最重要的LLM论文,可以让你及时了解最新进展。
457 3
2024年6月上半月30篇大语言模型的论文推荐
|
9月前
|
存储 Oracle 关系型数据库
【数据库-DB2】深入了解DB2 reorg
本文介绍了DB2数据库中reorg操作的重要性,旨在通过重组表数据来消除数据碎片、压缩信息并提高数据访问速度。reorg操作能够根据索引关键字重新排序数据,减少查询I/O次数,提升查询性能。文章详细讲解了reorg的操作步骤、适用场景及注意事项,强调了在执行reorg前后更新统计信息的必要性。
407 2
|
机器学习/深度学习 数据采集 人工智能
构建一个基于AI的推荐系统的技术探索
【5月更文挑战第23天】本文探讨了构建基于AI的推荐系统的关键技术,包括数据收集、预处理、特征工程、推荐算法(如协同过滤、内容过滤、深度学习)及结果评估。通过理解用户行为和偏好,推荐系统能提供个性化建议。实现步骤涉及确定业务需求、设计数据方案、预处理、算法选择、评估优化及系统部署。随着技术进步,未来推荐系统将更加智能。
|
Java 关系型数据库 MySQL
Flink CDC编译问题之官方样例代码报错如何解决
Flink CDC编译指的是将Flink CDC源代码转换成可执行程序的过程,可能会涉及到依赖管理和环境配置等问题;本合集将介绍Flink CDC编译的步骤、常见错误及其解决办法,以确保顺利完成编译过程。
|
机器学习/深度学习 运维 监控
什么是用户实体行为分析(UEBA)
数字新时代正在加速全面到来,网络环境变得更加多元、人员变得更复杂、接入方式多种多样,网络边界逐渐模糊甚至消失,同时伴随着企业数据的激增。数字化转型促进组织的业务发展的同时,也带来了重大的网络安全挑战。安全是人和人攻防对抗的游戏,一切的意图都需要通过行为表达,这是安全运营中最重要也最有价值的一块拼图,同时也是传统方式最欠缺的。针对传统方式的不足,安全行业逐步加强基于大数据驱动,机器学习、概率分析、模式识别等的以“行为”为核心的检测分析。 用户实体行为分析(UEBA)应运而生。
2366 1
|
Linux 网络安全 开发工具
CentOS7上使用GitLab搭建私有git代码仓库(超详细)(上)
CentOS7上使用GitLab搭建私有git代码仓库(超详细)(上)
599 0
|
机器学习/深度学习 数据采集 自然语言处理
用户意图预测
用户意图预测
313 0
|
Java 应用服务中间件 Maven
Jar 包依赖冲突排查思路和解决方法
Jar 包依赖冲突排查思路和解决方法
1321 0
|
存储 数据采集 SQL
基于智慧广电“安全大脑”的 广播电视网络安全防护体系建设研究与应用
本文介绍了基于智慧广电“安全大脑”的广播电视网络安全防护体系建设研究与应用情况;智慧广电“安全大脑”基于大数据技术,实现了对多源异构各类安全数据的综合分析,并结合来自多方的安全威胁情报及安全算法模型,实现了对安全事件的事前预测预警、事中协同防控、事后评估改进。
1323 0
基于智慧广电“安全大脑”的 广播电视网络安全防护体系建设研究与应用