开发者社区> 问答> 正文

成绩为0的来讨论一下为啥吧,期待官方解答


1244250成绩为0,非常伤心,分析一下我自己的情况,大家一起来看看到底是为啥。
我用的是matlab的fprintf写的txt文件,具体结果(一部分)是这样的:
5780000\t155,10058\n5812000\t2683\n5899750\t12220\n

F1为0,P为0,R为0
只要P或者R有一个为0,那么F1就是0,所以只需要分析P和R就可以了
P和R都是分数,既然是分数,那么要么是分子为0,要么是分母太大。
先看分母,
对于P来说,分母是自己提交的预测条数,我提交了不到100条,所以排除了分母太大的可能
对于R来说,分母可能很大,但是至少分母要超过10000,否则哪怕只有一条准测的预测得到的结果就要大于或等于0.01%
再来看分母,
P和R的分母都是一样的,即预测准确的条数,例如我预测用户5780000会购买品牌155,如果他真的购买了,那么P和R的分母只要唯一。
从上面的分析来看,由于分母(至少P的分母)不会特别大,那么我结果为0的原因就是分子为0了,也就是说我预测的那些购买一次都没有发生。
真的一条都没有预测对吗?
我想每个成绩为0的队伍都会怀疑这个结果,原因很简单。有这样的一些用户,他们每个月都会购买相同的品牌,或者总是隔月就会购买一次。
虽然这样的用户和品牌并不是很多,也不一定是非常准确,但是总归能碰上一两条对的吧。
无论用什么样的算法来分析或者是学习,我觉得这种规律肯定是大家都有考虑到的一个。
再说了,即使是靠猜或者纯粹人工筛选,也应该能蒙对一个吧,所以一条都没预测对这种情况实在是让人无法相信。
经过上面的分析,成绩为0的唯一可能就是格式的问题了。
说到格式,真是让人崩溃呀!
由于对各种操作系统的原理不是非常了解,所以linux,win,mac到底有啥区别我也不是很清楚。
我提交的txt文本在windows下面也好,mac下面也好,看到的都是没有制表(8个空格)或者回车的。直接就是数字、\t、\n、以及逗号,也就是帖子一开始大家看到的那样。这样也是不行的吗?怎么看也没看出来有啥问题。在我若干思考以后,我终于发现了我格式里唯一可能出现问题的地方,文档的结尾我用了一个\n,似乎哪个帖子里官方的说法是最后一行不用换行。难道问题就是出现在这里?!我决定下期也不改结果和算法了,直接就提交这次的结果,把最后一行的那个\n去掉,如果结果还是0的话,我真的不知道该怎么办了……


展开
收起
逸川家的 2014-03-18 13:00:50 8656 0
5 条回答
写回答
取消 提交回答
  • Re成绩为0的来讨论一下为啥吧,期待官方解答
    很多比赛平台例如kaggle都会提供一个sample_submission.csv类似的文件,还告诉你你把这个提交上去就是xx分(当然一般很低啦),就是帮助选手在尽快上手
    2014-03-19 11:12:48
    赞同 展开评论 打赏
  • Re成绩为0的来讨论一下为啥吧,期待官方解答
    赞同楼上观点
    2014-03-19 00:59:33
    赞同 展开评论 打赏
  • Re成绩为0的来讨论一下为啥吧,期待官方解答
    赞楼上的意见
    2014-03-19 00:02:22
    赞同 展开评论 打赏
  • 个人感觉是你提交的数据格式可能有点问题,再检查下;另外,提交结果为100条,也有可能是这100条都是错误的,预测规则大概描述下?

    -------------------------

    回 3楼(逸川家的) 的帖子
    这样看来,应该是数据格式的问题了,另外再好好检查下代码,看是否哪里写错了,如果下周提交还是0分的话,我们会找技术人员帮你看一下
    2014-03-18 14:16:20
    赞同 展开评论 打赏
  • Re成绩为0的来讨论一下为啥吧,期待官方解答
    有点问题,有一小段忘记删掉了,
    “再来看分母,
    P和R的分母都是一样的,即预测准确的条数,例如我预测用户5780000会购买品牌155,如果他真的购买了,那么P和R的分母只要唯一。”
    这一段别看,没用的

    -------------------------

    Re成绩为0的来讨论一下为啥吧,期待官方解答
    这次提交的结果主要是从以下角度:
    1.某用户多次购买的这个品牌,认为下个月他还会购买
    2.某品牌点击转化为购买的比率高,认为在8月份多次点击了这个品牌的用户且尚未购买时接下来会购买。
    3.某用户点击转化为购买的比率高,认为该用户在8月份关注了多次且尚未购买的品牌接下会购买。
    暂时没有考虑品牌的关联以及其他特征。

    -------------------------

    Re成绩为0的来讨论一下为啥吧,期待官方解答
    太感激了,我再研究一下代码和格式的问题。
    我觉得成绩为0应该都是格式有问题,如果官方可以给个小程序或者格式测试平台之类的就更完美了。
    仅仅是个人建议,例如一个只包含10个数据的标准集合,内容可见,大家可以按照这个内容提交自己的格式,然后出成绩,这样如果格式是对的,F1、R和P成绩就应该为1,如果不是1就说明格式出错。这样我们就不会需要浪费珍贵的4次验证算法的机会来验证格式了。
    希望官方可以采纳,非常感谢。
    2014-03-18 13:04:00
    赞同 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
Android插件化-从入门到"放弃" 立即下载
从《阿里巴巴Java开发手册》编写推广谈技术成长 立即下载
【云栖精选7月刊】抛开晦涩的算法、模型,让我们来谈谈互联网架构 立即下载