python中数据离散化分类中的基于信息熵分组的概念是什么?
概念:
(1)信息量
Shannon认为,信息是用来消除随机不确定性的东西。即,衡量信息量大小就看这个消息消除不确定性的程度。
信息量的大小和事件发生的概率成反比。可以用公式表示为:l(x) = -log_{2}p(x)
式中,p(x)表示x发生的概率。
(2)熵
熵,是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。
可以表示为:E(x) = -\sum_{i=1}^{n}p(x_i)log_{2}p(x_i)
按照随机变量的所有可能取值划分数据的总熵E是所有事件的熵的加权平均:E = \sum_{i=1}^{k}w_iE_i
式中,w_i = \frac{m_i}{m}是第x个事件出现的比例,是第个可能取值出现的次数,是所有取值出现的总次数。
熵表示的是样本集合的不确定性。熵越大,则样本的不确定性越大。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。