基于hadoop的短视频用户画像研究
摘 要
在这个互联网迅速发展的时代,网络和信息技术都跟上了时代的潮流,在互联网中的用户数据也出现了爆炸性的增长。用户的各种日常行为都通过互联网被记录下来,对于所有的互联网企业来说,想要从激烈的竞争中脱颖而出,就需要企业以用户为中心,通过这些庞大的用户行为数据了解用户的真实意图。用户画像是对用户数据化、信息化和标签化的描述,企业可以通过用户画像抽象出用户的商业全貌,从而对每个用户群体进行精细化、个性化的营销。但同时,很多企业都有多个业务系统,而且各个业务系统之间由于信息不全,无法构建统一清晰的用户画像。
基于以上背景,论文设计一个整合多种业务数据源,建立企业体系化用户标签的高灵活性、高扩展性的用户画像系统。系统覆盖了多种平台渠道和多业务系统的用户源数据采集,实现基于多源数据融合的用户画像的构建。同时,根据Lambda架构的设计思路,系统框架整合了离线计算和实时计算,兼顾了海量数据处理能力和时效性,保障了实时和离线数据的最终一致性。系统前端使用Vue.js框架和ECharts开源图表库技术进行用户画像的可视化展示,后端采用SpringBoot轻量级开源框架,并在Hadoop分布式基础框架上,搭建数据仓库,实现分布式的数据存储、计算和查询。最后,论文还提出了以用户为中心的数据模型—用户事件模型,通过事件和用户两个方面可以详细记录用户,抽象用户行为。并且系统可以使用多维度的分析方法对用户行为进行分析,满足企业各个部门的分析需求。
关键词:用户画像;分布式计算;用户行为分析
Research on Short Video User Portrait Based on Hadoop
ABSTRACT
In this era of rapid Internet development, network and information technology are advancing with the trend of the times, the user data in the Internet also has an explosive growth. All kinds of daily behaviors of users are recorded on the Internet. To stand out from the fierce competition, enterprises need to focus on users and understand users' real intention through these huge data. User portrait is the description of user's data, informationization and tagging. Enterprises can abstract the user's business panorama through user portrait, so as to carry out refined and personalized marketing for each user group. But at the same time, many enterprises have multiple business systems, and the information between the various business systems is incomplete, unable to build a unified and clear user portrait.
Based on the above background, this paper designs a user portrait system with high flexibility and expansibility by integrating multiple business data sources. The system covers user source data acquisition of multi-platform channels and multi-service systems, and realizes the construction of user image based on multi-source data fusion. At the same time, according to the design idea of Lambda architecture, the system framework integrates offline computing and real-time computing, and ensures the consistency of real-time and offline data. js framework and ECharts open source diagram library technology for visual presentation of user images, and the back end uses Spring Boot lightweight open source framework. Finally, a user-centered data model-user event model is proposed, which can record the user's behavior and abstract the user's behavior in detail. And the system can use multi-dimensional analysis of user behavior analysis, to meet the needs of various departments of the enterprise analysis.
Keywords:User Portrait; Distributed Computing; User Behavior Analysis
目 录
摘 要
ABSTRACT
1 绪论
1.1 研究背景
1.2 研究意义
1.3 研究的主要内容
1.4 国内外研究概况
2 相关技术分析
2.1 用户画像概述
2.2 分布式计算平台
2.3 K-means聚类算法
3 系统需求分析
3.1 系统功能性需求分析
3.1.1 系统功能分析
3.1.2 用户角色分析
3.2 系统非功能性需求分析
3.2.1 性能需求
3.2.2 可靠性需求
3.2.3 可扩展性需求
3.2.4 安全性需求
4 系统设计
4.1 系统总体架构设计
4.1.1 数据来源与采集层
4.1.2 数据存储层
4.1.3 数据计算层
4.1.4 标签存储层
4.1.5 应用服务层
4.1.6 前端展示层
4.2 系统功能模块设计
4.2.1 标签管理模块设计
4.2.2 用户群画像模块设计
4.2.3 数据看板模块设计
4.2.4 元数据管理模块设计
4.2.5 用户行为分析模块设计
4.2.6 个人中心模块设计
5 系统功能实现
5.1 标签管理模块实现
5.2 用户群画像模块实现
5.3 数据看板模块实现
5.4 元数据管理模块实现
5.5 用户行为分析模块实现
5.6 个人中心模块实现
6 系统测试
6.1 功能测试
6.2 性能测试
6.3 准确性测试
7 结论
致谢
参考文献
1 绪论
1.1 研究背景
当今世界各国之间的关系日益密切,因特网更是影响全球经济发展的一个关键因素。《中国互联网络发展状态统计报告》是中国互联网信息中心公布的一份关于中国因特网发展状况的数据,截止到2018年六月,中国因特网用户已突破8.5亿,因特网渗透率为61.2%。同时,中国拥有8.47百万移动手机的网民,也就是99.1%的网民数量。大数据已经成为了一个重要的因素,它已经渗透到了各个行业和领域。随着网络的飞速发展,一个公司要想在这样一个激烈的市场中获得成功,按照罗伯特·劳特朋所提出的客户、客户、客户、通信等4 C原理,公司在进行市场推广时,应当以客户为中心。在大数据时代,企业相较于以前在互联网上更容易获取用户数据,而如何从这些日益增长、复杂多样且具有时效性的用户数据中提炼出对自身有效的用户信息,从数据层面分析用户的真实想法,是如今每个企业都存在的问题和挑战。
1.2 研究意义
为了解决上述问题,在大量的用户资讯中,透过建立用户的图谱,来进行用户的需求分析。用户画像指的是公司通过大数据技术,以用户的基本属性、行为习惯以及兴趣爱好等信息为基础,对其进行了一个标记,从而得出一个完整的用户的形象。用户画像的核心是给用户贴标签,就像三维空间中一个点需要通过三个维度的数据进行表示一样,每个标签都代表用户的一个维度,用户画像通过多个标签从多个维度来描述用户。通过对用户进行信息标签化,不仅可以使企业根据精确地了解用户,而且可以更加方便利用各种算法对用户数据进行整理和分析。
1.3 研究的主要内容
本文实现了一个统一管理企业用户行为数据的用户画像系统。系统对这些用户行为数据进行采集计算分析生成统一的用户标签。
1.4 国内外研究概况
以话题为基础对用户进行描述。话题(Topic)模式被广泛应用于中文和英语的文本分析,这使得我们可以根据用户的使用习惯来建立话题模式。Billsus等人[1]利用朴素贝叶斯算法对用户的主体进行了分类,并将其作为用户画像。该方法充分发挥了贝叶斯(Bayesian)在小样本条件下的优势,提高了图像的图像质量。然后,唐杰和其他几个人也都是如此。
在抽取用户简介信息、消除名字歧意和发现用户兴趣等过程中,利用基于 LDA的概率主题模型[2]赋予了学术网络档案语义。
根据用户的生活方式,绘制用户的特征图。Fawcett等人[3]在对用户行为文件进行研究时,利用获得了检测用户呼叫记录的反诈骗应用中的诈骗指标,来对用户的行为进行了一个抽象的模型化的画像。而 Tuzhikin等人运用了各种数据挖掘的手段,比如关联规则,从用户的购物行为记录中,发掘出更深层的用户行为档案信息,从而对用户画像的粒度进行了改进。以兴趣爱好为基础对用户进行描述。兴趣与偏好已成为分析用户行为的关键要素,而如何根据用户的喜好与喜好对用户进行抽象化与模型化,则是用户画像化的一个发展趋势。
Pazzani等[4]提出了一种以内容为基础的推荐系统,而该系统的核心是根据用户所关注的物品及消费纪录,来获得个体化的兴趣特征。Carmagnola等人[5]采用了对用户标签进行分类的方式,运用 WordNet和词语形态学等方法,对用户兴趣文件进行了抽象的模型化。
目前,在网络行业中,除了对用户画像进行了深入的研究之外,网络行业中的许多公司也已经开始对其进行深入的分析,并构建相应的客户肖像体系。比如,百度已经建成了世界上最大的中文用户数据分析平台,而美团则针对快速发展的高频、场景驱动的餐饮O2O,针对不同的生活阶段,分别建立了基于场景的用户画像体系[6]。国外的 Twitter、 Facebook和 Youtube等社会视频网络公司,它们通过对用户的行为数据进行分析,构建出具有个性化的用户画像,进而可以提供精确化的推荐和推送服务。