离线赛掉到坑里实在爬不出来了, 恳请高手指点
Re离线赛掉到坑里实在爬不出来了, 恳请高手指点
感谢两位的回复,我再多试试。
-------------------------
Re离线赛掉到坑里实在爬不出来了, 恳请高手指点
snowfrsh:
我的环境是win7, win-python 3.4
我现在的输出代码是这样的:
outputFile = open(output_file_name, encoding='utf-8', mode='w')
outputFile.write('\'user_id\',\'item_id\'\n') # 文件头, 添加 \n 来换行
for index in range(len(predicted_prob)):
if (predicted_prob[index][1] >= min_proba):
outputFile.write('\'%s\',\'%s\'\n' % (samples_test[index][0], samples_test[index][1])) # 预测结果,添加 \n 来换行
outputFile.close()
我尝试使用以下的代码,但出错:
outputFile = open(output_file_name, mode='wb') # 二进制打开
outputFileWriter = csv.writer(outputFile)
outputFileWriter.writerow(['user_id', 'item_id']) # 这里出错, 走不下去了 TypeError: 'str' does not support the buffer interface, 我没有找到解决方法
for index in range(len(predicted_prob)):
if (predicted_prob[index][1] >= min_proba):
outputFileWriter.writerow([samples_test[index], samples_test[index]])
-------------------------
Re离线赛掉到坑里实在爬不出来了, 恳请高手指点
snowfrsh,
很不幸,还是 0, 但是代码里有个bug,所以我不确认到底是哪里导致的问题,改完bug我再试试看
-------------------------
Re离线赛掉到坑里实在爬不出来了, 恳请高手指点
zhan建州
感谢你的回复,我没用过np.savetxt()这个函数,今天就试试看。多谢
-------------------------
Re离线赛掉到坑里实在爬不出来了, 恳请高手指点
zhan建州, snowfrsh
感谢之前的回复,今天有结果了,但是成绩很差,f1 只有百分之零点几, 说明提交格式起码是正确的。
至于成绩为什么会这么差,我想先从采样方式入手。 我是根据某个use否在某一天购买了某个item作为一个正样本,例如为12-19号做预测,那么用户在12-18号的购买记录则作为正样本,但只是采用12-18这一天的购买记录还是再加上之前若干天的购买记录作为正样本,这个我不确认,能否给些建议。
另外负样本,我现在的是根据item的热度来采样,我用这个公式来计算热度:
item_popularity = item_view_cnt*0.01 + item_favourite_cnt*0.33 + item_cart_cnt*0.47 + item_buy_cnt*0.94, 这些系数我只是简单的统计了一下每个行为之间的比例后得到的。
得到热度之后,就根据热度来采样,热度越高的item就越容易被采集到负样本中。但这样只是考虑了item,是不是还要考虑 user的因素,因为毕竟一个样本是一个 pair。
还有就是采样的时候我没有考虑特征,是否根据特征来分层采样会更好?
另外我发现如果只在商品子集中采样正负样本会显著增加准确率,但如果这样的的话是否会丢掉某些模式?
这是我现在的问题,望能不吝赐教。
-------------------------
Re离线赛掉到坑里实在爬不出来了, 恳请高手指点
非常非常感谢zhan建州提供的信息,我会仔细看的。
非常感谢
赞0
踩0