基于hdoop的短视频用户画像研究_kaic

简介: 基于hdoop的短视频用户画像研究_kaic

基于hadoop的短视频用户画像研究

摘  要

在这个互联网迅速发展的时代,网络和信息技术都跟上了时代的潮流,在互联网中的用户数据也出现了爆炸性的增长。用户的各种日常行为都通过互联网被记录下来,对于所有的互联网企业来说,想要从激烈的竞争中脱颖而出,就需要企业以用户为中心,通过这些庞大的用户行为数据了解用户的真实意图。用户画像是对用户数据化、信息化和标签化的描述,企业可以通过用户画像抽象出用户的商业全貌,从而对每个用户群体进行精细化、个性化的营销。但同时,很多企业都有多个业务系统,而且各个业务系统之间由于信息不全,无法构建统一清晰的用户画像。

基于以上背景,论文设计一个整合多种业务数据源,建立企业体系化用户标签的高灵活性、高扩展性的用户画像系统。系统覆盖了多种平台渠道和多业务系统的用户源数据采集,实现基于多源数据融合的用户画像的构建。同时,根据Lambda架构的设计思路,系统框架整合了离线计算和实时计算,兼顾了海量数据处理能力和时效性,保障了实时和离线数据的最终一致性。系统前端使用Vue.js框架和ECharts开源图表库技术进行用户画像的可视化展示,后端采用SpringBoot轻量级开源框架,并在Hadoop分布式基础框架上,搭建数据仓库,实现分布式的数据存储、计算和查询。最后,论文还提出了以用户为中心的数据模型—用户事件模型,通过事件和用户两个方面可以详细记录用户,抽象用户行为。并且系统可以使用多维度的分析方法对用户行为进行分析,满足企业各个部门的分析需求。

关键词:用户画像;分布式计算;用户行为分析

Research on Short Video User Portrait Based on Hadoop

ABSTRACT

In this era of rapid Internet development, network and information technology are advancing with the trend of the times, the user data in the Internet also has an explosive growth. All kinds of daily behaviors of users are recorded on the Internet. To stand out from the fierce competition, enterprises need to focus on users and understand users' real intention through these huge data. User portrait is the description of user's data, informationization and tagging. Enterprises can abstract the user's business panorama through user portrait, so as to carry out refined and personalized marketing for each user group. But at the same time, many enterprises have multiple business systems, and the information between the various business systems is incomplete, unable to build a unified and clear user portrait.

Based on the above background, this paper designs a user portrait system with high flexibility and expansibility by integrating multiple business data sources. The system covers user source data acquisition of multi-platform channels and multi-service systems, and realizes the construction of user image based on multi-source data fusion. At the same time, according to the design idea of Lambda architecture, the system framework integrates offline computing and real-time computing, and ensures the consistency of real-time and offline data. js framework and ECharts open source diagram library technology for visual presentation of user images, and the back end uses Spring Boot lightweight open source framework. Finally, a user-centered data model-user event model is proposed, which can record the user's behavior and abstract the user's behavior in detail. And the system can use multi-dimensional analysis of user behavior analysis, to meet the needs of various departments of the enterprise analysis.

Keywords:User Portrait; Distributed Computing; User Behavior Analysis

目  录

摘  要

ABSTRACT

1 绪论

1.1 研究背景

1.2 研究意义

1.3 研究的主要内容

1.4 国内外研究概况

2 相关技术分析

2.1 用户画像概述

2.2 分布式计算平台

2.3 K-means聚类算法

3 系统需求分析

3.1 系统功能性需求分析

3.1.1 系统功能分析

3.1.2 用户角色分析

3.2 系统非功能性需求分析

3.2.1 性能需求

3.2.2 可靠性需求

3.2.3 可扩展性需求

3.2.4 安全性需求

4 系统设计

4.1 系统总体架构设计

4.1.1 数据来源与采集层

4.1.2 数据存储层

4.1.3 数据计算层

4.1.4 标签存储层

4.1.5 应用服务层

4.1.6 前端展示层

4.2 系统功能模块设计

4.2.1 标签管理模块设计

4.2.2 用户群画像模块设计

4.2.3 数据看板模块设计

4.2.4 元数据管理模块设计

4.2.5 用户行为分析模块设计

4.2.6 个人中心模块设计

5 系统功能实现

5.1 标签管理模块实现

5.2 用户群画像模块实现

5.3 数据看板模块实现

5.4 元数据管理模块实现

5.5 用户行为分析模块实现

5.6 个人中心模块实现

6 系统测试

6.1 功能测试

6.2 性能测试

6.3 准确性测试

7 结论

致谢

参考文献

1 绪论

1.1 研究背景

当今世界各国之间的关系日益密切,因特网更是影响全球经济发展的一个关键因素。《中国互联网络发展状态统计报告》是中国互联网信息中心公布的一份关于中国因特网发展状况的数据,截止到2018年六月,中国因特网用户已突破8.5亿,因特网渗透率为61.2%。同时,中国拥有8.47百万移动手机的网民,也就是99.1%的网民数量。大数据已经成为了一个重要的因素,它已经渗透到了各个行业和领域。随着网络的飞速发展,一个公司要想在这样一个激烈的市场中获得成功,按照罗伯特·劳特朋所提出的客户、客户、客户、通信等4 C原理,公司在进行市场推广时,应当以客户为中心。在大数据时代,企业相较于以前在互联网上更容易获取用户数据,而如何从这些日益增长、复杂多样且具有时效性的用户数据中提炼出对自身有效的用户信息,从数据层面分析用户的真实想法,是如今每个企业都存在的问题和挑战。

1.2 研究意义

为了解决上述问题,在大量的用户资讯中,透过建立用户的图谱,来进行用户的需求分析。用户画像指的是公司通过大数据技术,以用户的基本属性、行为习惯以及兴趣爱好等信息为基础,对其进行了一个标记,从而得出一个完整的用户的形象。用户画像的核心是给用户贴标签,就像三维空间中一个点需要通过三个维度的数据进行表示一样,每个标签都代表用户的一个维度,用户画像通过多个标签从多个维度来描述用户。通过对用户进行信息标签化,不仅可以使企业根据精确地了解用户,而且可以更加方便利用各种算法对用户数据进行整理和分析。

1.3 研究的主要内容

本文实现了一个统一管理企业用户行为数据的用户画像系统。系统对这些用户行为数据进行采集计算分析生成统一的用户标签。

 

1.4 国内外研究概况

以话题为基础对用户进行描述。话题(Topic)模式被广泛应用于中文和英语的文本分析,这使得我们可以根据用户的使用习惯来建立话题模式。Billsus等人[1]利用朴素贝叶斯算法对用户的主体进行了分类,并将其作为用户画像。该方法充分发挥了贝叶斯(Bayesian)在小样本条件下的优势,提高了图像的图像质量。然后,唐杰和其他几个人也都是如此。

在抽取用户简介信息、消除名字歧意和发现用户兴趣等过程中,利用基于 LDA的概率主题模型[2]赋予了学术网络档案语义。

根据用户的生活方式,绘制用户的特征图。Fawcett等人[3]在对用户行为文件进行研究时,利用获得了检测用户呼叫记录的反诈骗应用中的诈骗指标,来对用户的行为进行了一个抽象的模型化的画像。而 Tuzhikin等人运用了各种数据挖掘的手段,比如关联规则,从用户的购物行为记录中,发掘出更深层的用户行为档案信息,从而对用户画像的粒度进行了改进。以兴趣爱好为基础对用户进行描述。兴趣与偏好已成为分析用户行为的关键要素,而如何根据用户的喜好与喜好对用户进行抽象化与模型化,则是用户画像化的一个发展趋势。

Pazzani等[4]提出了一种以内容为基础的推荐系统,而该系统的核心是根据用户所关注的物品及消费纪录,来获得个体化的兴趣特征。Carmagnola等人[5]采用了对用户标签进行分类的方式,运用 WordNet和词语形态学等方法,对用户兴趣文件进行了抽象的模型化。

目前,在网络行业中,除了对用户画像进行了深入的研究之外,网络行业中的许多公司也已经开始对其进行深入的分析,并构建相应的客户肖像体系。比如,百度已经建成了世界上最大的中文用户数据分析平台,而美团则针对快速发展的高频、场景驱动的餐饮O2O,针对不同的生活阶段,分别建立了基于场景的用户画像体系[6]。国外的 Twitter、 Facebook和 Youtube等社会视频网络公司,它们通过对用户的行为数据进行分析,构建出具有个性化的用户画像,进而可以提供精确化的推荐和推送服务。

 


相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
11月前
|
人工智能 图形学
PhysGen3D:清华等高校联合推出,单图秒变交互式3D场景
PhysGen3D是清华等高校联合开发的创新框架,通过单张图像重建3D场景并模拟物理行为,实现从静态图像到动态交互的突破性转换。
343 15
PhysGen3D:清华等高校联合推出,单图秒变交互式3D场景
|
人工智能 文字识别 API
moonshot-v1-vision-preview:月之暗面Kimi推出多模态视觉理解模型,支持图像识别、OCR文字识别、数据提取
moonshot-v1-vision-preview 是月之暗面推出的多模态图片理解模型,具备强大的图像识别、OCR文字识别和数据提取能力,支持API调用,适用于多种应用场景。
1854 6
moonshot-v1-vision-preview:月之暗面Kimi推出多模态视觉理解模型,支持图像识别、OCR文字识别、数据提取
|
存储 关系型数据库 数据库
RHCA认证学习分享
RHCA认证学习分享
362 5
|
前端开发 Android开发 开发者
前端框架趋势:React Native在跨平台开发中的优势与挑战
【10月更文挑战第26天】近年来,React Native凭借其跨平台开发能力在移动应用开发领域迅速崛起。本文将探讨React Native的优势与挑战,并通过示例代码展示其应用实践。React Native允许开发者使用同一套代码库同时构建iOS和Android应用,提高开发效率,降低维护成本。它具备接近原生应用的性能和用户体验,但也面临平台差异、原生功能支持和第三方库兼容性等挑战。
404 0
|
监控 数据库 Docker
Zabbix监控神通数据库教程
**摘要:** 本文介绍了如何使用Docker安装和配置神舟通用数据库,并利用Zabbix进行监控。首先,通过Docker安装数据库镜像,启动容器并映射端口。接着,使用默认凭证连接数据库并验证安装。然后,将数据库的Python模块和库文件复制到主机,并安装Python3.5及相应模块,创建外部检查脚本以实现Zabbix的监控功能。示例展示了查询数据库版本的监控指标配置。最后,提到了监控结果的界面展示,并邀请读者探索更多Zabbix监控技巧。
504 0
Zabbix监控神通数据库教程
|
人工智能 搜索推荐 算法
探索增强现实(AR)在零售业的潜力:重塑购物体验的未来
【8月更文挑战第7天】增强现实技术正在逐步改变零售业的面貌,为消费者带来全新的购物体验。从虚拟试衣间到产品信息展示,从营销创新到线上线下融合,AR技术在零售业的应用潜力巨大。随着技术的不断进步和应用场景的不断拓展,我们有理由相信,未来的零售业将更加智能、便捷和个性化。作为行业从业者,应积极拥抱AR技术,不断创新和优化自身的业务模式和服务方式,以适应市场的变化和消费者的需求。
|
机器学习/深度学习 人工智能 Cloud Native
助力 AI 技术共享,蚂蚁开源又一核心技术“因果学习系统 OpenASCE”
技术开源是蚂蚁集团的重要技术战略,我们希望通过开源建立起开放、包容的技术生态,让更多人共享技术红利。
助力 AI 技术共享,蚂蚁开源又一核心技术“因果学习系统 OpenASCE”
|
JavaScript 前端开发 API
【独家揭秘】如何从零开始,用Vue.js打造你的专属电商平台?
【8月更文挑战第30天】本教程将指导你使用Vue.js及其生态,包括Element UI,从零开始构建一个具备首页、商品列表、详情页、购物车及登录注册功能的基础电商平台前端。通过实践,你不仅将学会构建完整的Web应用,还将掌握Vue.js的高级特性和多种实用插件的使用方法,逐步提升应用的功能并优化用户体验。
486 0
|
数据可视化 数据挖掘 C++
数据分析综合案例讲解,一文搞懂Numpy,pandas,matplotlib,seaborn技巧方法
数据分析综合案例讲解,一文搞懂Numpy,pandas,matplotlib,seaborn技巧方法
565 2