利用python做数据分析(五)-读取合并多个文件

简介: pieces=[]columns=['name','sex','births']for year in range(1880,2011): path=('C:\\Users\\ec...
pieces=[]
columns=['name','sex','births']
for year in range(1880,2011):
    path=('C:\\Users\\ecaoyng\\Desktop\\work space\\Python\\py_for_analysis\\pydata-book-master\\ch02\\names\\yob%d.txt' % year)
    frame=pd.read_csv(path,names=columns)
    frame['year']=year
    pieces.append(frame)

names=pd.concat(pieces,ignore_index=True)
names

names将所有的数据整合到单个DataFrame中
- concat默认将多个DataFrame整合到一起
- ignore_index=True, 因为我们不希望保留read_csv所返回的原始行号
可以得到结果集为:
这里写图片描述
注意index的id,若不加ignore_index,则得到的结果集是
这里写图片描述
看出区别了吧。

利用groupby和pivot_table在sex和year级别上对其进行聚合了

table_births=pd.pivot_table(names,index=['year'],columns='sex',values=['births'],aggfunc=sum)
table_births.tail()

这里写图片描述

作图

table_births.plot(title='Total births by sex and year')

这里写图片描述

下面我们要统计百分比,再来看下原始的names:
这里写图片描述
接着groupby year

names.groupby(['year']).births.sum()[:5]

year
1880 201486
1881 192703
1882 221538
1883 216954
1884 243466
Name: births, dtype: int64

现在想男女分开看:

names.groupby(['year','sex']).births.sum()[:5]

year sex
1880 F 90993
M 110493
1881 F 91955
M 100748
1882 F 107851

下面来计算比例,并增加一列。astype的作用是类型转换。

def add_prop(group):
    births=group.births.astype(float)
    group['prop']=births/births.sum()
    return group
names=names.groupby(['year','sex']).apply(add_prop)
names

这里写图片描述

之后可以进行完整性认证,比如prop的和是否为1

np.allclose(names.groupby(['year','sex']).prop.sum(),1)

返回TRUE


现在我想取一个子集,比如year,sex groupby的头1000个

def get_top1000(group):
    return group.sort_values(by='births',ascending=False)[:1000]
grouped=names.groupby(['year','sex'])
top1000=grouped.apply(get_top1000)
top1000

这里写图片描述

男女的各自统计

boys=top1000[top1000.sex=='M']
girls=top1000[top1000.sex=='M']

制作透视表:

total_birth=pd.pivot_table(top1000,index=['year'],columns='name',values=['births'],aggfunc=sum)

这里写图片描述

total_birth.births['John']

year
1880 9701.0
1881 8795.0
1882 9597.0
1883 8934.0
1884 9427.0
1885 8801.0
1886 9074.0
1887 8165.0
1888 9300.0

total_birth.births['John'].plot(title='John')

这里写图片描述

现在查看这最热的1000个名字所占全部名字的比例

table=pd.pivot_table(top1000,index=['year'],columns='sex',values=['prop'],aggfunc=sum)

这里写图片描述

table.plot(title='Sum of table1000.prob by year and sex', yticks=np.linspace(0,1.2,13),xticks=range(1880,2020,10))

这里写图片描述

df=boys[boys.year==2010]
prop_cumsum=df.sort_values(by='prop',ascending=False).prop.cumsum()

cumsum是计算累计和
261874 0.842953
261875 0.843055
261876 0.843156
Name: prop, dtype: float64

prop_cumsum.searchsorted(0.5)

array([116], dtype=int64),即最终结果是117

def get_quantile_count(group, q=0.5):
    group=group.sort_index(by='prop',ascending=False)
    return group.prop.cumsum().searchsorted(q)+1
diversity=top1000.groupby(['year','sex']).apply(get_quantile_count)
diversity

year sex
1880 F [38]
M [14]
1881 F [38]
M [14]
1882 F [38]
M [15]
1883 F [39]
M [15]

diversity.unstack('sex')

这里写图片描述

目录
相关文章
|
2月前
|
数据采集 数据可视化 搜索推荐
Python数据分析全流程指南:从数据采集到可视化呈现的实战解析
在数字化转型中,数据分析成为企业决策核心,而Python凭借其强大生态和简洁语法成为首选工具。本文通过实战案例详解数据分析全流程,涵盖数据采集、清洗、探索、建模、可视化及自动化部署,帮助读者掌握从数据到业务价值的完整技能链。
291 0
|
2月前
|
编译器 Python
如何利用Python批量重命名PDF文件
本文介绍了如何使用Python提取PDF内容并用于文件重命名。通过安装Python环境、PyCharm编译器及Jupyter Notebook,结合tabula库实现PDF数据读取与处理,并提供代码示例与参考文献。
|
2月前
|
编译器 Python
如何利用Python批量重命名文件
本文介绍了如何使用Python和PyCharm对文件进行批量重命名,包括文件名前后互换、按特定字符调整顺序等实用技巧,并提供了完整代码示例。同时推荐了第三方工具Bulk Rename Utility,便于无需编程实现高效重命名。适用于需要处理大量文件命名的场景,提升工作效率。
|
3月前
|
编解码 Prometheus Java
当Python同时操作1000个文件时,为什么你的CPU只用了10%?
本文介绍如何构建一个高效的文件处理系统,解决单线程效率低、多线程易崩溃的矛盾。通过异步队列与多线程池结合,实现任务调度优化,提升I/O密集型操作的性能。
65 4
|
3月前
|
人工智能 索引 Python
[oeasy]python094_使用python控制音符列表_midi_文件制作
本文介绍了如何使用Python控制音符列表制作MIDI文件。首先回顾了列表下标索引(正数和负数)的用法,接着通过`mido`库实现MIDI文件生成。以《两只老虎》为例,详细解析了代码逻辑:定义音高映射、构建旋律列表、创建MIDI文件框架,并将音符插入音轨。还探讨了音符时值与八度扩展的实现方法。最终生成的MIDI文件可通过不同平台播放或编辑。总结中提到,此技术可用于随机生成符合调性的旋律,同时引发对列表其他实际应用的思考。
89 5
|
2月前
|
数据采集 监控 算法
Python文件与目录比较全攻略:从基础操作到性能优化
文件比较的核心在于数据指纹校验,通过逐字节比对生成唯一标识,确保内容一致性。从标准库的os与filecmp到高性能第三方库如pydiffx,再到分布式与量子加密技术的未来趋势,文件比较广泛应用于数据备份、代码审查与系统监控等领域,是保障数据完整性的关键技术手段。
74 0
|
5月前
|
Python
使用Python实现multipart/form-data文件接收的http服务器
至此,使用Python实现一个可以接收 'multipart/form-data' 文件的HTTP服务器的步骤就讲解完毕了。希望通过我的讲解,你可以更好地理解其中的逻辑,另外,你也可以尝试在实际项目中运用这方面的知识。
248 69
|
3月前
|
数据采集 存储 API
Python爬虫结合API接口批量获取PDF文件
Python爬虫结合API接口批量获取PDF文件
|
3月前
|
数据采集 运维 BI
Python 文件操作进阶|使用 shutil 实现高效文件复制
在开发和运维中,处理大量文件是常见需求,如备份配置、归档日志或构建部署包。手动复制粘贴已无法满足高效需求!Python 的 `shutil` 模块提供了强大的文件操作功能,支持单文件复制、目录树迁移及自动化任务构建。本文详解 `shutil.copy()` 基础用法与进阶技巧,如批量复制、自动路径检测、时间戳命名备份等,助你实现高效自动化。结合实战案例(如自动备份系统),让你的代码更专业!学习后,欢迎交流心得,一起精进 Python 技能。关注我,获取更多编程技巧与源码分享!
|
4月前
|
机器学习/深度学习 数据采集 数据可视化
Python数据分析,别再死磕Excel了!
Python数据分析,别再死磕Excel了!
174 2

热门文章

最新文章

推荐镜像

更多