当我试着用下面的公式来规格化我的数据时:
normalized_df=(df-df.mean())/df.std()
有些值变成NaN。我认为它可以变成NaN的唯一原因是stanard偏差等于0(除以0),这是不太可能的,因为这意味着所有的值必须有相同的值。 为什么会这样呢?如何避免? 我在这里发现了一个类似的问题,表明它可能是一个bug! 问题来源StackOverflow 地址:/questions/59379134/how-to-prevent-normalization-formula-to-produce-nan-values
如果没有任何额外的输入,std将给出这些列的标准偏差。首先要检查的是得到NaN的列是什么样的。 它可以有多个原因。或者,就像你说的,因为他们的性病是0。或者因为所有的列元素都是NaN。 因此,要查找bug,请检查特定列中发生了什么。明确计算平均值和std,看看发生了什么。并检查列中的任何项是否已经是NaN。我无法想象numpy bug已经超过4年没有被修复了。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。