【近战】基于微博用户关系与行为的用户建模分析

简介:

【编者按】好的技术实战分享从来不因为时间的流失而褪色。2011年开始运营的阿里技术沙龙共积累35期,近100位深度实战培训资源(PPT+视频)让很多朋友大呼过瘾。接棒阿里技术沙龙,云栖社区特别挑选最具人气的12场深度实战分享组成【近战】的第一个系列。其中包含新浪微博、淘宝搜索、美团、美丽说、淘宝推荐、小米、支付宝、阿里云、淘宝无线在内,涵盖建模、个性化推荐、排序学习、系统优化、数据监控、流量优化、架构探索等多方面一线经验总结。


以下为【近战】第一篇,基于微博用户关系与行为的用户建模分析。


用户建模是广告、推荐、搜索算法最基础也是最核心的技术问题之一,本报告将介绍新浪微博大数据挖掘团队如何综合利用社交关系和用户行为来建立用户模型。以下分享下精彩内容。

 

微博及大数据

  微博作为中国最大的社交媒体平台,微博沉淀了海量的用户,内容,关系,和行为数据。

  其中用户:注册人数10亿,月活人数1.98亿,日活人数:8900万。关系:关注关系近千亿,分组关系50亿+。内容:日增博1亿+,日增原创4000万。行为:转发6000万,评论3000万,赞1亿,收藏:1000万,查看200亿。

                                               1

  如图1,微博大数据要做什么?要帮助用户发现感兴趣的内容,加快有价值内容的传播效率。目标如何实现?要挖掘有能力生产垂直领域优质内容的用户,挖掘用户内容消费的兴趣偏好。工作如何串联?用户能力标签,用户兴趣标签,微博内容标签。

大数据标签体系

  

                                           2

2所示为大数据标签体系的基本框架图。

用户能力标签——

用户能力标签的产品形态

                    

                                                           3

如图3微博找人直接推荐各行各业的能力用户

                           

                                                               4

如图4微博头条输出各领域原始语料的专家库

               5


5为用户能力标签库的整体框架


用户能力标签库的策略算法如下:

1)基于决策树的分组名分类算法:将分组名分为兴趣分组名和熟人关系分组名。兴趣分组名用于用户的能⼒力兴趣计算,熟人关系分组名用于用户的自然属性挖掘。

2)基于用户关注关系数据计算用户在关系方面的能力:利用兴趣分组名称构建出标签的相关词库,进而通过归一化公式计算出基础权重。

  3)基于用户发布内容数据计算用户在内容方面的能力:用户在某个领域发布博文数量、纯度、互动量越高,在这个领域内容生产能力越大

  4)通过PageRank计算用户在垂直行业的影响力:通过PageRank计算具有一定内容生产能力和关系能力的用户群中每个用户的影响力。

  (5)通过线性加权将用户的关系、内容和行业影响力计算为在这个垂直领域的综合能力:用户能力标签归一化到0~100的区间,达到横纵向可比较。

                                           6

主要问题如图6,标签的自动聚合和筛选时的噪音问题,微博短文本分类及语义主体识别问题。

                                                7

7为标签自动聚合流程。

用户能力标签的效果很好,挖掘出120万能力用户,覆盖月活粉丝1.6亿;微博用户中娱乐、互联网、财经行业名人最多 微博用户中动漫、美食、旅行行业精英最多;微博聚集了近万名互联网技术牛人。


用户兴趣标签

用户兴趣标签的产品形态

                                            8

8是基于兴趣推荐用户感兴趣的文章。

                                              9

图9是基于兴趣Push用户一段时间内关注人发的但是没看过的微博。

                                           10

10为用户兴趣标签库的整体框架。

用户兴趣标签的策略算法

(1)          圈定各垂直领域的能力用户集合:根据用户能力标签分数分布以及各分数段的意义,圈定垂直领域的能力用户集合。

(2)          根据用户对能力用户的关注关系计算用户在关系方面的兴趣:关系兴趣权重的计算规则:根据w1w2最终确定关系兴趣的权重。

(3)          根据用户对内容产生的行为计算用户在内容消费方面的兴趣:微博行为包括:原创,转发,评论,赞,收藏,查看微博等十几种行为,不同的行为对应不同的分值,最终通过归一化公式计算用户消费内容的兴趣权重。

(4)          通过线性加权计算用户的综合兴趣调权:通过不断的迭代测试,用户在内容消费方面的权重更高一些。

用户兴趣标签的主要问题:

  用户的兴趣相对于能而言是时间敏感的, 如何在用户的兴趣权重上体现出时间敏感性是一个关键问题。如图11所示,

 

                                    11

所有用户都对实时,旅游,明星感兴趣吗?活跃用户体现出的兴趣极为广泛

用户行为权重的时间衰减:基于时间维度的行为热度衰减: 在博文消费方面,用户通过转发、评论、赞等行为来表达自己对领域博文的兴趣,其表达的兴趣热度及重要性随着时间是逐步衰减的,我们

通过牛顿冷却定律来量化衰减的程度。如图12所示,

                                            12

用户兴趣标签的效果是:挖掘出1.6亿用户的精准兴趣,覆盖微博月活75%。微博用户中对娱乐、时事、互联网感兴趣的人最多。微博聚集了110万对互联网技术感兴趣的人。

用户标签的规划

  规划用户身份,规划用户即时兴趣,规划用户质量等级。图13 为微博大数据用户体系。

                                                13


来源阿里技术沙龙 

分享:朱红垒,新浪微博大数据挖掘团队技术负责人

PDF可下载

同论坛其他议题分享地址

【近战】系列文章,跟踪tag标签即可得到。 

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
9月前
|
搜索推荐 算法 数据挖掘
用小红书电商 API 实现小红书店铺商品用户画像精准构建
在社交电商时代,小红书凭借海量用户与商品数据,助力店铺构建精准用户画像,实现个性化推荐与高效运营。本文详解如何通过小红书电商 API 获取用户行为、交易与属性数据,结合算法模型完成数据清洗、特征提取与用户聚类,提升转化率与用户粘性。内容涵盖 API 调用示例、特征工程、模型构建及实施建议,帮助开发者系统化落地用户画像方案,驱动业务增长。
552 0
|
6月前
|
设计模式 缓存 安全
无锁编程与原子操作:构建极致性能的高并发队列
本文深入探讨无锁编程与原子操作在高并发队列中的应用,通过CAS、环形缓冲、版本化引用等技术,实现高性能、低延迟的线程安全队列,显著提升系统吞吐量,适用于日志、网络通信等高并发场景。
358 10
|
数据采集 人工智能 监控
探讨 AI 驱动自适应数据采集技术
在当今互联网环境下,网页结构动态变化日益复杂,传统数据采集技术面临巨大挑战。本文探讨了基于AI算法的自适应数据采集方法,结合爬虫代理、Cookie与User-Agent设置等关键技术,应对动态页面变更。通过Python示例代码,展示如何稳定抓取目标网站数据,并分析该技术的优势、挑战及实际应用注意事项,为未来数据采集提供了新思路。
529 44
|
5月前
|
Kubernetes IDE 应用服务中间件
2.部署篇(开发部署)
本文介绍如何将SpringCloud应用部署到Kubernetes云端,基于EDAS实现快速上云。涵盖集群导入、应用初始化及通过IDE插件高效部署,助力开发者提升发布效率。
|
5月前
|
存储 消息中间件 开发框架
应用架构图
技术架构是将业务需求转化为技术实现的关键过程,涵盖分层设计、技术选型与系统集成。本文详解单体与分布式架构,包括展现层、业务层、数据层及基础层的职责,以及应用间调用关系、外部系统交互与边界划分,为构建清晰的技术体系提供指导。
 应用架构图
|
人工智能 自然语言处理 数据可视化
实践教程|如何创建一个WhatsApp AI Chatbot
无需代码!使用阿里云百炼 + Chat App 消息服务,10 分钟创建 WhatsApp AI 聊天机器人,支持企业知识库问答
870 0
|
人工智能 自然语言处理 语音技术
通用模型和垂直模型的比较
通用模型和垂直模型的比较
1984 1
|
10月前
|
供应链 安全 API
淘宝API一键同步库存,销量翻倍轻松实现!
在电商竞争激烈的当下,库存管理是提升销量的关键。淘宝开放平台提供API接口,支持一键同步库存,实现线上线下数据实时更新,避免缺货或超卖。本文详解操作步骤,并附Python示例代码,助你轻松掌握自动化库存管理,提升转化率,实现销量翻倍。
587 0
|
前端开发 小程序 JavaScript
支付宝通知新体验-OPPO 泛在卡片多模交互
支付宝通知新体验-OPPO 泛在卡片多模交互
617 2
|
大数据 关系型数据库 数据库
python 批量处理大数据写入数据库
python 批量处理大数据写入数据库
978 0

热门文章

最新文章