开发者社区> 问答> 正文

来,简单讨论讨论预测结果的计算方式

按照个人的理解,预测的结果是某个艺人再某一天的播放数据,也就是预测该艺人名下所有的全部音乐在这一天有多少人进行了播放操作的统计量(不算下载,收藏量)。


步骤如下:
              1、根据艺人id查询。查询该艺人名下所有歌曲列表。
               select    song_id    from mars_tianchi_songs where artist_id= '.....'

                 2、遍历艺人的所有歌曲,根据每个歌曲id,查询 action_type=1,Ds='....' 指定日期的记录数量
             select    count(*) from mars_tianchi_user_actions where song_id= '.....' and Ds= '...'


               3、对上述每首音乐的播放记录数进行求和。
               sum( s1,s2.... ) ,得到某个艺人在某天的播放记录数


             (当然,为了查询优化,其中的步骤可以通过不同方式进行优化,如果要直接查询估计黄花菜都凉了)


       当然,发帖还是得跟大家讨论讨论,以用户‘023406156015ef87f99521f3b343f71f’为例,统计了该用户从0301-0830每天的播放记录,最低记录都是在300以上,大致如下:


    

         再看看赛题说明,里面给出了几行标准结果,可以发现,该用户的9月初播放记录仅仅为100-200,如下图:



          问题来了,如果用我的理解数据进行预测,无论怎么预测,肯定偏差都会很大。


          所以想问问:赛题说明中的结果样例是故意修改了? 还是以上我对预测结果的理解有误?  





展开
收起
千鸟 2016-03-22 12:10:22 6788 0
3 条回答
写回答
取消 提交回答
  • Re来,简单讨论讨论预测结果的计算方式
    "当然,发帖还是得跟大家讨论讨论,以用户‘023406156015ef87f99521f3b343f71f’为例,统计了该用户从0301-0830每天的播放记录,最低记录都是在300以上,大致如下:"----这应该是艺人的数据吧,不是用户
    2016-03-28 10:03:22
    赞同 展开评论 打赏
  • LT是个伪程序员
    回 1楼(寒立) 的帖子
    其实我就是想试试赛题说明里的参考数据是不是真实数据。^_^感觉要预测一个区间的数据好难,而且还是预测后续两个月~~~区间有点大,随机性太大,有可能还有新用户来听,还有可能艺人发布新歌,完全没有思路,求指点一二。

    -------------------------

    回 3楼(e1ias) 的帖子
    是的,应该是艺人,说错了~~~
    2016-03-22 16:33:47
    赞同 展开评论 打赏
  • 回 楼主(千鸟) 的帖子
    样例答案是随机的预测结果,只表明格式,和真实值有很大的差距。
    2016-03-22 13:51:14
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
数据+算法定义新世界 立即下载
典型模型-卷积神经网络入门 从概念原理到应用实现 立即下载
强化学习在电商环境下的若干应用与研究 立即下载