基于hdoop的短视频用户画像研究_kaic

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 基于hdoop的短视频用户画像研究_kaic

基于hadoop的短视频用户画像研究

摘  要

在这个互联网迅速发展的时代,网络和信息技术都跟上了时代的潮流,在互联网中的用户数据也出现了爆炸性的增长。用户的各种日常行为都通过互联网被记录下来,对于所有的互联网企业来说,想要从激烈的竞争中脱颖而出,就需要企业以用户为中心,通过这些庞大的用户行为数据了解用户的真实意图。用户画像是对用户数据化、信息化和标签化的描述,企业可以通过用户画像抽象出用户的商业全貌,从而对每个用户群体进行精细化、个性化的营销。但同时,很多企业都有多个业务系统,而且各个业务系统之间由于信息不全,无法构建统一清晰的用户画像。

基于以上背景,论文设计一个整合多种业务数据源,建立企业体系化用户标签的高灵活性、高扩展性的用户画像系统。系统覆盖了多种平台渠道和多业务系统的用户源数据采集,实现基于多源数据融合的用户画像的构建。同时,根据Lambda架构的设计思路,系统框架整合了离线计算和实时计算,兼顾了海量数据处理能力和时效性,保障了实时和离线数据的最终一致性。系统前端使用Vue.js框架和ECharts开源图表库技术进行用户画像的可视化展示,后端采用SpringBoot轻量级开源框架,并在Hadoop分布式基础框架上,搭建数据仓库,实现分布式的数据存储、计算和查询。最后,论文还提出了以用户为中心的数据模型—用户事件模型,通过事件和用户两个方面可以详细记录用户,抽象用户行为。并且系统可以使用多维度的分析方法对用户行为进行分析,满足企业各个部门的分析需求。

关键词:用户画像;分布式计算;用户行为分析

Research on Short Video User Portrait Based on Hadoop

ABSTRACT

In this era of rapid Internet development, network and information technology are advancing with the trend of the times, the user data in the Internet also has an explosive growth. All kinds of daily behaviors of users are recorded on the Internet. To stand out from the fierce competition, enterprises need to focus on users and understand users' real intention through these huge data. User portrait is the description of user's data, informationization and tagging. Enterprises can abstract the user's business panorama through user portrait, so as to carry out refined and personalized marketing for each user group. But at the same time, many enterprises have multiple business systems, and the information between the various business systems is incomplete, unable to build a unified and clear user portrait.

Based on the above background, this paper designs a user portrait system with high flexibility and expansibility by integrating multiple business data sources. The system covers user source data acquisition of multi-platform channels and multi-service systems, and realizes the construction of user image based on multi-source data fusion. At the same time, according to the design idea of Lambda architecture, the system framework integrates offline computing and real-time computing, and ensures the consistency of real-time and offline data. js framework and ECharts open source diagram library technology for visual presentation of user images, and the back end uses Spring Boot lightweight open source framework. Finally, a user-centered data model-user event model is proposed, which can record the user's behavior and abstract the user's behavior in detail. And the system can use multi-dimensional analysis of user behavior analysis, to meet the needs of various departments of the enterprise analysis.

Keywords:User Portrait; Distributed Computing; User Behavior Analysis

目  录

摘  要

ABSTRACT

1 绪论

1.1 研究背景

1.2 研究意义

1.3 研究的主要内容

1.4 国内外研究概况

2 相关技术分析

2.1 用户画像概述

2.2 分布式计算平台

2.3 K-means聚类算法

3 系统需求分析

3.1 系统功能性需求分析

3.1.1 系统功能分析

3.1.2 用户角色分析

3.2 系统非功能性需求分析

3.2.1 性能需求

3.2.2 可靠性需求

3.2.3 可扩展性需求

3.2.4 安全性需求

4 系统设计

4.1 系统总体架构设计

4.1.1 数据来源与采集层

4.1.2 数据存储层

4.1.3 数据计算层

4.1.4 标签存储层

4.1.5 应用服务层

4.1.6 前端展示层

4.2 系统功能模块设计

4.2.1 标签管理模块设计

4.2.2 用户群画像模块设计

4.2.3 数据看板模块设计

4.2.4 元数据管理模块设计

4.2.5 用户行为分析模块设计

4.2.6 个人中心模块设计

5 系统功能实现

5.1 标签管理模块实现

5.2 用户群画像模块实现

5.3 数据看板模块实现

5.4 元数据管理模块实现

5.5 用户行为分析模块实现

5.6 个人中心模块实现

6 系统测试

6.1 功能测试

6.2 性能测试

6.3 准确性测试

7 结论

致谢

参考文献

1 绪论

1.1 研究背景

当今世界各国之间的关系日益密切,因特网更是影响全球经济发展的一个关键因素。《中国互联网络发展状态统计报告》是中国互联网信息中心公布的一份关于中国因特网发展状况的数据,截止到2018年六月,中国因特网用户已突破8.5亿,因特网渗透率为61.2%。同时,中国拥有8.47百万移动手机的网民,也就是99.1%的网民数量。大数据已经成为了一个重要的因素,它已经渗透到了各个行业和领域。随着网络的飞速发展,一个公司要想在这样一个激烈的市场中获得成功,按照罗伯特·劳特朋所提出的客户、客户、客户、通信等4 C原理,公司在进行市场推广时,应当以客户为中心。在大数据时代,企业相较于以前在互联网上更容易获取用户数据,而如何从这些日益增长、复杂多样且具有时效性的用户数据中提炼出对自身有效的用户信息,从数据层面分析用户的真实想法,是如今每个企业都存在的问题和挑战。

1.2 研究意义

为了解决上述问题,在大量的用户资讯中,透过建立用户的图谱,来进行用户的需求分析。用户画像指的是公司通过大数据技术,以用户的基本属性、行为习惯以及兴趣爱好等信息为基础,对其进行了一个标记,从而得出一个完整的用户的形象。用户画像的核心是给用户贴标签,就像三维空间中一个点需要通过三个维度的数据进行表示一样,每个标签都代表用户的一个维度,用户画像通过多个标签从多个维度来描述用户。通过对用户进行信息标签化,不仅可以使企业根据精确地了解用户,而且可以更加方便利用各种算法对用户数据进行整理和分析。

1.3 研究的主要内容

本文实现了一个统一管理企业用户行为数据的用户画像系统。系统对这些用户行为数据进行采集计算分析生成统一的用户标签。

 

1.4 国内外研究概况

以话题为基础对用户进行描述。话题(Topic)模式被广泛应用于中文和英语的文本分析,这使得我们可以根据用户的使用习惯来建立话题模式。Billsus等人[1]利用朴素贝叶斯算法对用户的主体进行了分类,并将其作为用户画像。该方法充分发挥了贝叶斯(Bayesian)在小样本条件下的优势,提高了图像的图像质量。然后,唐杰和其他几个人也都是如此。

在抽取用户简介信息、消除名字歧意和发现用户兴趣等过程中,利用基于 LDA的概率主题模型[2]赋予了学术网络档案语义。

根据用户的生活方式,绘制用户的特征图。Fawcett等人[3]在对用户行为文件进行研究时,利用获得了检测用户呼叫记录的反诈骗应用中的诈骗指标,来对用户的行为进行了一个抽象的模型化的画像。而 Tuzhikin等人运用了各种数据挖掘的手段,比如关联规则,从用户的购物行为记录中,发掘出更深层的用户行为档案信息,从而对用户画像的粒度进行了改进。以兴趣爱好为基础对用户进行描述。兴趣与偏好已成为分析用户行为的关键要素,而如何根据用户的喜好与喜好对用户进行抽象化与模型化,则是用户画像化的一个发展趋势。

Pazzani等[4]提出了一种以内容为基础的推荐系统,而该系统的核心是根据用户所关注的物品及消费纪录,来获得个体化的兴趣特征。Carmagnola等人[5]采用了对用户标签进行分类的方式,运用 WordNet和词语形态学等方法,对用户兴趣文件进行了抽象的模型化。

目前,在网络行业中,除了对用户画像进行了深入的研究之外,网络行业中的许多公司也已经开始对其进行深入的分析,并构建相应的客户肖像体系。比如,百度已经建成了世界上最大的中文用户数据分析平台,而美团则针对快速发展的高频、场景驱动的餐饮O2O,针对不同的生活阶段,分别建立了基于场景的用户画像体系[6]。国外的 Twitter、 Facebook和 Youtube等社会视频网络公司,它们通过对用户的行为数据进行分析,构建出具有个性化的用户画像,进而可以提供精确化的推荐和推送服务。

 


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
机器学习/深度学习 监控 搜索推荐
电商平台如何精准抓住你的心?揭秘大数据背后的神秘推荐系统!
【10月更文挑战第12天】在信息爆炸时代,数据驱动决策成为企业优化决策的关键方法。本文以某大型电商平台的商品推荐系统为例,介绍其通过收集用户行为数据,经过预处理、特征工程、模型选择与训练、评估优化及部署监控等步骤,实现个性化商品推荐,提升用户体验和销售额的过程。
82 1
|
4月前
|
机器学习/深度学习 数据采集 搜索推荐
打造个性化新闻推荐系统
【8月更文挑战第31天】在这个信息爆炸的时代,个性化新闻推荐系统成为了连接用户与海量资讯的桥梁。本文将引导你通过Python编程语言和机器学习技术,搭建一个简单的新闻推荐模型。我们将从数据预处理开始,逐步深入到模型的训练与评估,最终实现一个能够根据用户兴趣推荐新闻的系统。无论你是编程新手还是有一定基础的学习者,这篇文章都将为你打开一扇通往智能推荐世界的大门。
|
4月前
|
机器学习/深度学习 人工智能 搜索推荐
|
5月前
|
机器学习/深度学习 搜索推荐 算法
智能推荐系统:个性化体验的背后
【7月更文第18天】在互联网的汪洋大海中,智能推荐系统就像一位贴心的向导,总能在浩瀚的信息中找到你最感兴趣的那一部分。它在电商平台上让你轻松发现心仪商品,在视频平台上为你连播下一集你欲罢不能的剧集。这背后的秘密,就是那些神奇的智能推荐算法。今天,咱们就来扒一扒电商、视频平台中的智能推荐系统,看看它是如何为你我打造出个性化的数字体验的。
284 0
|
机器学习/深度学习 缓存 搜索推荐
搜索推荐场景的技术
搜索推荐场景的技术
98 0
|
搜索推荐 数据挖掘 图计算
社交网络分析和aigc
社交网络分析和aigc
190 0
|
机器学习/深度学习 搜索推荐 算法
推荐系统[八]算法实践总结V0:腾讯音乐全民K歌推荐系统架构及粗排设计
推荐系统[八]算法实践总结V0:腾讯音乐全民K歌推荐系统架构及粗排设计
推荐系统[八]算法实践总结V0:腾讯音乐全民K歌推荐系统架构及粗排设计
|
机器学习/深度学习 SQL 分布式计算
当推荐遇到社交:美图的推荐算法设计优化实践
本文是美图高级算法专家汤斌的一篇文章,重点介绍了社交网络背景下推荐算法面临的挑战,以及应对的方法。
314 0
当推荐遇到社交:美图的推荐算法设计优化实践
|
设计模式 数据采集 人工智能
达摩院视觉AI助力商家制作海量双十一宣传海报
从达摩院宣布成立起,这个阿里的“神秘机构”就备受外界关注。造福人类,世界第一,高端,神秘……这些标签也让我们对达摩院的技术专家产生了好奇。今天就给大家揭秘下大牛们在用的抠图能力!~
达摩院视觉AI助力商家制作海量双十一宣传海报
|
机器学习/深度学习 人工智能 编解码