开发者社区> 问答> 正文

关于数据的几个疑问

一、FAQ中说到:

Q:要预测的艺人当天的播放数据是基于user表中已有用户的播放,还是预测网站中所有用户的播放?
A:需要预测网站中所有用户的播放。注:初赛中是针对用户做了一次随机抽样,后续的真实结果也做了处理。所以原则上,只需要根据已有的用户规模做合理预测即可。
我的疑问: “后续的真实结果也做了处理 ” 是指把进行测试的数据也进行了和样本同样规模的行为数据采样吗,重点问是同样规模的吗,而且采样的来源是从整个平台所有用户对所有歌曲的所有的行为数据?
二、给出的样本数据中,有没有可能有些用户是在3月1号到8月30号中间的某个区间注册的?



展开
收起
志正 2016-05-04 12:42:52 4561 0
2 条回答
写回答
取消 提交回答
  • Re关于数据的几个疑问
    我感觉楼主可能理解错了,当然,这是我感觉的,所以我说说我看了数据的感觉
    其一,这次的数据应该是基于歌手来截选的数据,至于用户是谁,似乎没有太大的影响,哦,不对,应该说用户的行为也是一个特征吧。额,跑题了,数据是五十名歌手所有音乐的数据,其中的行为是“所有”用户的下载,收藏和播放,对,这里的所有很重要!
    整个比赛的意义是从所有用户对选定歌手所有曲目行为中预测出这些选定歌手接下来60天的所有播放量,所以规模这个词大概应该是这样说,歌手规模是50,用户规模是所有。
    额,歌手数量我还没有去检验,但是之前看另一个帖子里面是提到的,所有的歌手是有50个,通过SQL select一下应该就能验证的,这个很简单。
    2016-05-05 11:41:51
    赞同 展开评论 打赏
  • 回 楼主(志正) 的帖子
    1. 对用户做了抽样, 真实结果也是在这个抽样用户集上的播放结果。所以只需要在给定的用户集上做预测即可。      
    2. 有可能的
    2016-05-04 14:41:30
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
Storm源码走读笔记 立即下载
低代码开发师(初级)实战教程 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载