代码:https://github.com/jinhang/TianYiBeiBigDataMatch
一、赛题 根据前7周用户访问十个视频网站数据及其他上网行为数据,预测用户第8周访问十个视频网站的访问量——选手提交每个userid第八周每天分别访问十个视频网站的次数。
二、赛题数据格式说明 第二赛段赛题数据(PaaS平台目录名:game-data)包括两个部分: 1. 十个视频网站数据,PaaS平台目录名:video-visit-data; 2. 其他上网行为数据,PaaS平台目录名:user-behavior-data。 请注意: Ø 以上数据均以0.5小时为粒度统计,即:每0.5小时对用户访问量进行一次汇总; Ø 本次赛题共抽取了299933个用户的数据; Ø 赛题数据总大小为25.38G,其中十个视频网站数据大小为0.38G,其他上网行为数据大小为25G。
2.1 十个视频网站数据格式说明 C:UsersDellDesktop�.jpg 样例如下图所示: C:UsersDellDesktop�.jpg 2.2 其他上网行为标签数据格式说明 C:UsersDellDesktop�.jpg 样例如下图所示: C:UsersDellDesktop�.jpg
三、结果数据格式说明 选手需要将预测结果存入txt文本文件中,并采用如下格式: C:UsersDellDesktop�.jpg 说明: 1、user_id与预测结果之间用tab分隔符分割; 2、d1_v1表示第八周第一天视频网站1的访问量,访问量必须为非负整数。 3、预测结果按照日期排列由近到远,同一个日期内按照赛题给出的视频网站顺序排列,预测数据之间用逗号分割。 4、上传格式必须为txt格式,不能添加header。 样例如下图所示: C:UsersDellDesktop�.jpg 评分标准 大赛采用准确率和召回率作为排行榜的评分依据,排行榜评分由二者运算后的F1值得出,详细评分说明如下。 (1) 准确率:用于评估预测的准确度。
采用余弦相似度判断每个用户在第八周每天对十个视频网站的访问量的准确度,并除以选手预测的用户数量。 C:UsersDellDesktop�.jpg
注: N为选手预测的有访问记录的用户数量。 Similarity为每个被预测用户对10个网站7天的访问量预估的余弦相似度。若被预测的用户并未在第八周出现,则默认真实值为该用户对所有视频网站的访问量为0。 UserCount为选手预测的用户数量(包括被列出但对所有视频网站访问量为0的记录) 有访问记录,即至少存在对某一视频网站某天的访问量不为0的记录。 (2) 召回率:用于评估预测覆盖的用户数量。
C:UsersDellDesktop8.jpg 注: (a)rUserCount:为真实有访问记录的用户数量 (b)hitUserCount:预测的有访问记录的用户列表与真实有访问记录的用户列表的交集的用户个数。 (c)有访问记录,即至少存在对某一视频网站某天的访问量不为0的记录。 (3) F1值:排名所用分数。
C:UsersDellDesktop9.jpg 大赛最终将以F1值由高到低进行排名。