Python计算基尼系数实践笔记(案例+代码+视频+列表推导式)

简介: Python计算基尼系数实践笔记(案例+代码+视频+列表推导式)

前些天听了南京大学周耿老师关于“基尼系数计算”的直播课,需要时间好好消化,便有了整理此篇文章的想法。


1 基尼系数


1.1 简介

1912年意大利经济学家基尼,设计了一个测度社会贫富差距的方法沿用至今,成为国际通用的标准。


基尼系数最大为“1”,最小等于“0”。基尼系数越接近0表明收入分配越是趋向平等。国际上并没有一个组织或教科书给出最适合的基尼系数标准。但有不少人认为基尼系数小于0.2时,居民收入过于平均,0.2-0.3之间时较为平均,0.3-0.4之间时比较合理,0.4-0.5时差距过大,大于0.5时差距悬殊。

image.png

世界部分国家基尼系数排行1970-2019


1.2 定义

基尼系数有好几种定义方式,老师在课上公式法中运用的是下面第二张图中的公式,还有其他的一些公式,感兴趣的也可以自己通过代码实现,用来对比不同算法之间的差异。

20210709215659463.png


2 实践


2.1 公式法

image.png

代码如下:

def gini(L):
    s1=0  #分子
    s2=0  #分母
    for i in L:
        s2+=2*len(L)*i
        for j in L:
            s1+=abs(i-j)
    return s1/s2
gini(r)   # 这里的r是老师通过random模块paretovar()方法构造的帕累托分布,大家也可以自己生成数据测试代码效果


我们同样用美国2008年收入数据来检验下公式法。


代码如下:

#生成列表,带入函数计算
df=pd.read_csv('usa_income.csv')
L=[]
for i in df.index:
    L=L+[ df.loc[i,'income'] for j in range(int(df.loc[i,'people']/10000))] #列表推导式
gini(L)
# out:0.5979213459691597


2.2 估算美国2008年基尼系数

2.2.1 读取数据并计算

代码如下:

#读取数据
df=pd.read_csv('usa_income.csv')
df['all_income']=df['people']*df['income']
df['people_cum']=df['people'].cumsum()
df['people_ratio']=df['people']/df['people'].sum()*100
df['people_ratio_cum']=df['people_cum']/df['people_cum'].max()*100
df['all_income_cum']=df['all_income'].cumsum()
df['Lorenz curve']=df['all_income_cum']/df['all_income_cum'].max()*100 #洛伦茨曲线
df


效果如图:

20210709215749193.png


2.2.2 画洛伦兹曲线

代码如下:

df['avg']=df['people_ratio_cum']  #绝对平均线
df.plot(x='people_ratio_cum', y=['Lorenz curve','avg']) #画图


效果如图:

image.png


2.2.3 按图形面积计算

#面积A+B=100*100*0.5=5000
#面积B
s=0
for i in df.index[1:]:
    people1=df.loc[i-1,'Lorenz curve'] #梯形的下底
    people2=df.loc[i,'Lorenz curve'] #梯形的上底
    people_ratio=df.loc[i,'people_ratio']
    s+=(people1+people2)*people_ratio*0.5
Gini=round((100*100*0.5-s)/(100*100*0.5),8) # 三角形的面积好求,洛伦兹曲线计算需要思考
Gini    # 计算结果为:0.60257495


不难发现,公式法与面积法计算结果还是比较接近的。


3 列表推导式与条件赋值


学习pandas,列表推导式最好一并掌握。


在生成一个数字序列的时候,在 Python 中可以如下写出:

L = []
def my_func(x):
    return 2*x
for i in range(5):
   L.append(my_func(i))
L
# Out: [0, 2, 4, 6, 8]


事实上可以利用列表推导式进行写法上的简化: [* for i in *] 。其中,第一个 * 为映射函数,其输入为后面 i 指代的内容,第二个 * 表示迭代的对象。

[my_func(i) for i in range(5)]
# Out:[0, 2, 4, 6, 8]


列表表达式还支持多层嵌套,如下面的例子中第一个 for 为外层循环,第二个为内层循环:

[m+'_'+n for m in ['a', 'b'] for n in ['c', 'd']]
# out:['a_c', 'a_d', 'b_c', 'b_d']


除了列表推导式,另一个实用的语法糖是带有 if 选择的条件赋值,其形式为 value = a if condition else b :

value = 'cat' if 2>1 else 'dog'
value
# out: 'cat'


等价于如下的写法:

a, b = 'cat', 'dog'
condition = 2 > 1 # 此时为True
if condition:
    value = a
else:
    value = b


下面举一个例子,截断列表中超过5的元素,即超过5的用5代替,小于5的保留原来的值:

L = [1, 2, 3, 4, 5, 6, 7]
[i if i <= 5 else 5 for i in L]
# out:[1, 2, 3, 4, 5, 5, 5]


References

基尼系数_百度百科 (baidu.com)

How Has the Literature on Gini’s IndexEvolved in the Past 80 Years?

目录
相关文章
|
4天前
|
并行计算 C语言 开发者
优化Python代码的五大技巧
Python作为一种流行的编程语言,在各种应用场景中广泛使用。然而,随着项目规模的增长和需求的变化,Python代码的性能和可维护性也成为了关键问题。本文将介绍优化Python代码的五大技巧,帮助开发者提升代码效率和质量。
|
1天前
|
人工智能 Python
【Python实用技能】建议收藏:自动化实现网页内容转PDF并保存的方法探索(含代码,亲测可用)
【Python实用技能】建议收藏:自动化实现网页内容转PDF并保存的方法探索(含代码,亲测可用)
14 0
|
1天前
|
算法 数据挖掘 数据处理
使用 Python 循环创建多个列表
在Python中,动态创建多个列表对于数据处理和算法实现十分有用。本文介绍了四种方法:1) 列表推导式,如创建偶数和奇数列表;2) 使用循环和`append()`,示例为生成斐波那契数列;3) 结合字典与循环,按条件(如正负数)分组;4) 列表生成器,用于一次性生成多组随机数列表。这些方法有助于提高代码效率和可读性。
11 1
|
1天前
|
数据安全/隐私保护 Python
Python中的装饰器:提升代码可读性和灵活性
Python中的装饰器是一种强大的编程工具,能够提升代码的可读性和灵活性。本文将深入探讨装饰器的原理和用法,以及如何利用装饰器来简化代码、实现日志记录、权限控制等功能,从而让你的Python代码更加优雅和高效。
|
2天前
|
存储 设计模式 算法
|
2天前
|
存储 索引 Python
|
4天前
|
机器学习/深度学习 搜索推荐 Python
Python特征工程面试:从理论到实践
【4月更文挑战第17天】本文探讨了Python在数据科学面试中的特征工程,涵盖基础概念如特征选择和提取,实战技能如缺失值和异常值处理,以及特定场景应用。强调避免过度依赖单一方法,忽视数据分布和相关性,以及保持特征工程的可解释性。提供代码示例展示了处理缺失值、标准化、特征选择和异常值检测的基本操作。建议结合业务理解,灵活运用多种方法并注重模型解释性。
19 9
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
总结几个GPT的超实用之处【附带Python案例】
总结几个GPT的超实用之处【附带Python案例】
|
7天前
|
Python Serverless API
Python风险价值计算投资组合VaR、期望损失ES
Python风险价值计算投资组合VaR、期望损失ES
23 0
Python风险价值计算投资组合VaR、期望损失ES
|
7天前
|
机器学习/深度学习 数据采集 算法
scikit-learn入门指南:从基础到实践
【4月更文挑战第17天】这篇指南介绍了scikit-learn,一个Python数据分析和机器学习的重要库。内容涵盖安装、数据加载与预处理、模型训练(如KNN分类器)、评估、调参优化及高级应用,如降维和聚类。通过实例展示了scikit-learn在分类任务中的使用,强调其在数据科学中的重要性。要深入了解,可参考官方文档和实践案例。

热门文章

最新文章