开发者社区> 问答> 正文

单特征变量的分组

glitterblue 2017-11-29 18:39:47 1272

假设有两列数据:某个统计值、id。
某个统计值是某个特征的统计值,经过归一化之后是[0-1]之间的归一值,再通过归一值乘以N后取整得到归一分数,按这个分数再group 得到每个归一分数下的id个数。
那现在想要对这个特征进行分组定级别,倒序去求分组集合,要求是最少一个分组里的id个数不能少于总id数的1%,这个逻辑自己推算的话数据量不大时可excel进行推算,如果迭代应该怎么做?另外这种方式分组有没有理论依据呢?这样分出的等级有没有效?
大概是这个样子:
group
图片后面还有很多数据,贴不全,B列数的和(id计数总和)1344628,1%=13446
没有显示的15级id求和是13820。

分享到
取消 提交回答
全部回答(1)
  • ucmengxin
    2019-07-17 21:46:06
    已采纳
    1. 数据量大怎么做:Excel不熟所以……随便入门一种编程语言吧比如python
    2. 做法的理论依据:这相当于是按照特征分布密度做特征离散化,理论基础是有的, 比如有些课程把分数排名前30%的学生定为优秀,后10%的定不及格;但是按贴出的这个数据集,有很多不合理的地方,比如特征值0。0001和0.0002明明从特征来看相差很小,但是离散化之后完全变成两个类别。如果最终目的是做机器学习的话,不建议这样做特征离散化。
    0 0
+ 订阅

时时分享云计算技术内容,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。

推荐文章