【2023钉钉杯复赛】A题智能手机用户监测数据分析 Python代码分析-阿里云开发者社区

【2023钉钉杯复赛】A题智能手机用户监测数据分析 Python代码分析

2024-08-07 94

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文介绍了2023钉钉杯复赛A题的智能手机用户监测数据分析，包括数据预处理、特征提取、推荐模型建立与评价的Python代码实现，旨在通过用户使用记录预测APP使用情况并建立推荐系统。

【2023钉钉杯复赛】A题智能手机用户监测数据分析 Python代码分析

在这里插入图片描述

1 题目

一、问题背景

近年来，随着智能手机的产生，发展到爆炸式的普及增长，不仅推动了中国智能手机市场的发展和扩大，还快速的促进手机软件的开发。近年中国智能手机市场品牌竞争进一步加剧，中国超越美国成为全球第一大智能手机市场。手机软件日新月异，让人们更舒适的使用手机，为人们的生活带来很多乐趣，也产生了新的群体“低头一族”。手机软件进入人们的生活，游戏、购物、社交、资讯、理财等等APP吸引着、方便着现代社会的人们，让手机成为人们出门的必备物品。

该数据来自某公司某年连续30天的4万多智能手机用户的监测数据，已经做了脱敏和数据变换处理。每天的数据为1个txt文件，共10列，记录了每个用户（以uid为唯一标识）每天使用各款APP（以appid为唯一标识）的起始时间，使用时长，上下流量等。具体说明见表1。此外，有一个辅助表格app_class.csv，共两列。第一列是appid,给出4000多个常用APP所属类别（app_class）,比如：社交类、影视类、教育类等，用英文字母a-t表示，共20个常用得所属类别，其余APP不常用，所属类别未知。

表 1

变量编号	变量名	释义
1	uid	用户的id
2	appid	APP的id（与app_class文件中的第一列对应）
3	app_type	APP类型：系统自带、用户安装
4	start_day	使用起始天，取值1-30（注：第一天数据的头两行的使用起始天取值为0，说明是在这一天的前一天开始使用的）
5	start_time	使用起始时间
6	end_day	使用结束天
7	end_time	使用结束时间
8	duration	使用时长（秒）
9	up_flow	上行流量
10	down_flow	下行流量

二、解决问题

APP使用情况预测分析:要研究的问题是通过用户的APP使用记录预测用户未来是否使用APP所属类型（app_class），以及对应的具体类型(appid)（多重分类问题）

（一）对用户使用APP的情况进行预测，根据用户第1~15天的常用所属20 类APP的使用情况，建立一个模型来预测用户在16~30天会使用哪些类的APP，给出预测结果和真实结果相比的准确率。（注：测试集不能参与到训练和验证中，否则作违规处理）

（二）对用户使用APP的使用时长进行预测，根据用户第115天的常用所属20类APP的使用情况，建立一个模型来预测用户在1630天对于每一类APP的有效日均使用时长。评价指标选用NMSE. （注：测试集不能参与到训练和验证中，否则作违规处理）

由于APP数量众多，总量多达几万，绝大多数市场占用率极低，因此仅使用app_class.csv文件中给出的4000多个常用的并且用户数超过10个APP进行推荐。通过每个用户30天的手机app使用情况，建立一个推荐系统模型，对每一个用户推荐app，并且给出推荐系统模型的详细描述，推荐系统使用的模型参数量，以及对推荐系统的预测结果进行评价。

2 思路分析

2.1 问题一

在初赛的基础上，重新训练模型，重新预测一遍就行。

2.2 问题二

这是一个推荐系统开发的问题。

数据预处理：对数据进行清洗和预处理，包括去除重复值、缺失值填充、异常值处理、特征工程等。
特征提取：从数据中提取有用的特征，包括用户的历史使用记录、app所属类别、app类型等。
模型选择：基于内容的推荐、协同过滤推荐、深度学习推荐等推荐模型。
模型训练：将预处理后的数据输入到所选的机器学习模型中进行训练，得到模型参数。
模型评估：对训练好的模型进行评估，如准确率、召回率、F1值等。
模型优化：根据评估结果进行模型参数的调整和优化，模型改进、模型融合等方法。

我们可以考虑使用协同过滤推荐模型，模型参数包括用户偏好矩阵和物品偏好矩阵，参数量取决于用户和物品的数量。对于推荐系统的预测结果进行评价，可以使用交叉验证或者留出法等方法进行评估。

3 Python实现

3.1 数据预处理

import pandas as pd
import os
from tqdm import tqdm
import warnings
warnings.filterwarnings("ignore")
tqdm.pandas()

# 合并数据1-30天的数据
folder_path = '初赛数据集/'
dfs = []
for filename in os.listdir(folder_path):
    if filename.endswith('.txt'):
        csv_path = os.path.join(folder_path, filename)
        tempdf = pd.read_csv(csv_path)
        dfs.append(tempdf)

folder_path = '复赛数据集/'
for filename in os.listdir(folder_path):
    if filename.endswith('.txt'):
        csv_path = os.path.join(folder_path, filename)
        tempdf = pd.read_csv(csv_path)
        dfs.append(tempdf)
df = pd.concat(dfs,axis=0)
df.shape

import pandas as pd
import matplotlib.pyplot as plt

# 数据清洗
df.loc[df['start_day'] == 0, 'start_day'] = 1  # 将使用起始天为0的行，修改为1
df['start_time'] = pd.to_datetime(df['start_time'])  # 转换为datetime类型
df['end_time'] = pd.to_datetime(df['end_time'])  # 转换为datetime类型
df['usage_time'] = (df['end_time'] - df['start_time']) / pd.Timedelta(minutes=1)  # 使用时长（分钟）
df['up_flow_mb'] = df['up_flow'] / 1024 / 1024  # 上行流量（MB）
df['down_flow_mb'] = df['down_flow'] / 1024 / 1024  # 下行流量（MB）
df = df[df['duration'] != 0]  # 剔除使用时长为0的行
df = df[df['up_flow'] != 0]  # 剔除上行流量为0的行
df = df[df['down_flow'] != 0]  # 剔除下行流量为0的行
df

# 剔除使用时长和流量明显异常的行
# 剔除使用时长小于10秒的行
df = df[df['usage_time'] >= 10]
fig, axs = plt.subplots(1, 3, figsize=(10, 5))
axs[0].hist(df['usage_time'])
axs[0].set_title('Usage Time')
axs[0].set_xlabel('Time (minutes)')
axs[1].hist(df['up_flow_mb'])
axs[1].set_title('Up Flow')
axs[1].set_xlabel('Up Flow (MB)')
axs[2].hist(df['down_flow_mb'])
axs[2].set_title('Down Flow')
axs[2].set_xlabel('Down Flow (MB)')
plt.show()

# APP分类信息（可根据app_id和app_class文件进行关联）
cate_df_1 = pd.read_csv('初赛数据集/app_class.csv',header=None)
cate_df_2 = pd.read_csv('复赛数据集/app_class.csv',header=None)
cate_df = pd.concat([cate_df_1,cate_df_2],axis=0)
cate_df.columns = ['appid','letter']
# 定义字母编码映射字典
char_map = {chr(i + 96): i for i in range(1, 27)}
# 将'letter'列中的字母进行编码
cate_df['letter'] = cate_df['letter'].map(char_map)
cate_dict = dict(zip(cate_df['appid'],cate_df['letter']))
df['category'] = df['appid'].map(cate_dict)
df.to_excel('data/复赛数据集1-30day.xlsx',index=False)

3.2 推荐模型建立与评价

加我扣扣

【2023钉钉杯复赛】A题智能手机用户监测数据分析 Python代码分析

【2023钉钉杯复赛】A题智能手机用户监测数据分析 Python代码分析

1 题目

2 思路分析

2.1 问题一

2.2 问题二

3 Python实现

3.1 数据预处理

3.2 推荐模型建立与评价

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【2023钉钉杯复赛】A题 智能手机用户监测数据分析 Python代码分析

【2023钉钉杯复赛】A题 智能手机用户监测数据分析 Python代码分析

1 题目

2 思路分析

2.1 问题一

2.2 问题二

3 Python实现

3.1 数据预处理

3.2 推荐模型建立与评价

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

【2023钉钉杯复赛】A题智能手机用户监测数据分析 Python代码分析

【2023钉钉杯复赛】A题智能手机用户监测数据分析 Python代码分析