10个 Python 小技巧,覆盖了90%的数据分析需求!_countries_lat_lon

简介: 10个 Python 小技巧,覆盖了90%的数据分析需求!_countries_lat_lon

正文

以下是 countries_df.head() 的输出,我们可以使用它查看数据框的前 5 行:

2、汇总统计

下一步就是通过查看数据汇总来了解数据,例如 NewConfirmed、TotalConfirmed 等数字列的计数、均值、标准偏差、分位数以及国家代码等分类列的频率、最高出现值

countries_df.describe()

使用 describe 函数,我们可以得到数据集连续变量的摘要,如下所示: 在 describe() 函数中,我们可以设置参数"include = ‘all’"来获取连续变量和分类变量的摘要

countries_df.describe(include = ‘all’)

3、数据选择和过滤

分析其实不需要数据集的所有行和列,只需要选择感兴趣的列并根据问题过滤一些行。

例如,我们可以使用以下代码选择 Country 和 NewConfirmed 列:

countries_df[[‘Country’,‘NewConfirmed’]]

我们还可以将数据过滤Country,使用 loc,我们可以根据一些值过滤列,如下所示:

countries_df.loc[countries_df[‘Country’] == ‘United States of America’]

4、聚合

计数、总和、均值等数据聚合,是数据分析最常执行的任务之一。

我们可以使用聚合找到各国的 NewConfimed 病例总数。使用 groupby 和 agg 函数执行聚合。

countries_df.groupby([‘Country’]).agg({‘NewConfirmed’:‘sum’})

5、Join

使用 Join 操作将 2 个数据集组合成一个数据集。

例如:一个数据集可能包含不同国家/地区的 Covid-19 病例数,另一个数据集可能包含不同国家/地区的纬度和经度信息。

现在我们需要结合这两个信息,那么我们可以执行如下所示的连接操作

countries_lat_lon = pd.read_excel(‘C:/Users/anmol/Desktop/Courses/Python for Data Science/Code/countries_lat_lon.xlsx’)# joining the 2 dataframe : countries_df and countries_lat_lon# syntax : pd.merge(left_df, right_df, on = ‘on_column’, how = ‘type_of_join’)joined_df = pd.merge(countries_df, countries_lat_lon, on = ‘CountryCode’, how = ‘inner’)joined_df

6、内建函数

了解数学内建函数,如 min()、max()、mean()、sum() 等,对于执行不同的分析非常有帮助。

我们可以通过调用它们直接在数据帧上应用这些函数,这些函数可以在列上或在聚合函数中独立使用,如下所示:

finding sum of NewConfirmed cases of all the countries countries_df[‘NewConfirmed’].sum()# Output : 6,631,899# finding the sum of NewConfirmed cases across different countries countries_df.groupby([‘Country’]).agg({‘NewConfirmed’:‘sum’})# Output # NewConfirmed#Country #Afghanistan 75#Albania 168#Algeria 247#Andorra 0#Angola 53

7、用户自定义函数

我们自己编写的函数是用户自定义函数。我们可以在需要时通过调用该函数来执行这些函数中的代码。例如,我们可以创建一个函数来添加 2 个数字,如下所示:

User defined function is created using ‘def’ keyword, followed by function definition - ‘addition()’# and 2 arguments num1 and num2def addition(num1, num2): return num1+num2# calling the function using function name and providing the arguments print(addition(1,2))#output : 3

8、Pivot

Pivot 是将一列行内的唯一值转换为多个新列,这是很棒的数据处理技术。

在 Covid-19 数据集上使用 pivot_table() 函数,我们可以将国家名称转换为单独的新列:

using pivot_table to convert values within the Country column into individual columns and # filling the values corresponding to these columns with numeric variable - NewConfimed pivot_df = pd.pivot_table(countries_df, columns = ‘Country’, values = ‘NewConfirmed’)pivot_df

9、遍历数据框

很多时候需要遍历数据框的索引和行,我们可以使用 iterrows 函数遍历数据框:

iterating over the index and row of a dataframe using iterrows() function for index, row in countries_df.iterrows(): print('Index is ’ + str(index)) print('Country is '+ str(row[‘Country’])) # Output : # Index is 0# Country is Afghanistan# Index is 1# Country is Albania# …

10、字符串操作

很多时候我们处理数据集中的字符串列,在这种情况下,了解一些基本的字符串操作很重要。

最后

Python崛起并且风靡,因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低,但它的晋级路线很多,通过它你能进入机器学习、数据挖掘、大数据,CS等更加高级的领域。Python可以做网络应用,可以做科学计算,数据分析,可以做网络爬虫,可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多,你需要学好基础,再选择明确的方向。这里给大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

👉Python所有方向的学习路线👈

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

👉Python必备开发工具👈

工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。

👉Python全套学习视频👈

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

👉实战案例👈

学python就与学数学一样,是不能只看书不做题的,直接看步骤和答案会让人误以为自己全都掌握了,但是碰到生题的时候还是会一筹莫展。

因此在学习python的过程中一定要记得多动手写代码,教程只需要看一两遍即可。

👉大厂面试真题👈

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。


相关文章
|
15天前
|
Python
Python小技巧:一种字符串的排序方式
该文介绍了如何对包含数字的字符串列表进行特定排序。首先,示例了一个初始问题,使用Python内置的`sorted()`函数未能达到预期(按数字部分升序排序)。然后,文章提出通过自定义排序键`sort_key`来解决,利用正则表达式提取字符串尾部数字并进行排序。进一步,文章扩展到处理如'nxxx_name_nxxx'格式的字符串,通过给前缀和后缀数字赋予不同权重进行复合排序,展示了如何实现先按前缀、再按后缀排序的功能。提供的代码示例成功地完成了任务。
|
2天前
|
机器学习/深度学习 数据采集 数据挖掘
如何用Python进行数据分析?
【6月更文挑战第13天】如何用Python进行数据分析?
97 66
|
3天前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
【6月更文挑战第12天】在数字时代,Python因其强大的数据处理能力和易用性成为数据分析首选工具。结合Pandas(用于高效数据处理)和Matplotlib(用于数据可视化),能助你成为数据分析专家。Python处理数据预处理、分析和可视化,Pandas的DataFrame简化表格数据操作,Matplotlib则提供丰富图表展示数据。掌握这三个库,数据分析之路将更加畅通无阻。
|
3天前
|
JSON 数据挖掘 API
数据分析实战丨基于pygal与requests分析GitHub最受欢迎的Python库
数据分析实战丨基于pygal与requests分析GitHub最受欢迎的Python库
14 2
|
5天前
|
数据采集 数据可视化 数据挖掘
如何快速上手 Python,成为一名数据分析师
【6月更文挑战第10天】学习Python是成为数据分析师的关键。首先,掌握基本语法和数据结构,如变量、控制结构及列表、字典等。然后,学习NumPy、Pandas和Matplotlib库:NumPy用于数组计算,Pandas处理和分析数据,Matplotlib进行数据可视化。不断实践项目,从简单分析任务做起,并保持学习新技能的热情,关注技术动态。通过系统学习和实践,可迅速踏上数据分析师之路。
|
5天前
|
机器学习/深度学习 数据可视化 数据挖掘
python每日可视化分析:从过去到现代数据分析的演进
python每日可视化分析:从过去到现代数据分析的演进
|
13天前
|
Python 数据挖掘 数据可视化
Python数据分析——Pandas与Jupyter Notebook
【6月更文挑战第1天】 本文探讨了如何使用Python的Pandas库和Jupyter Notebook进行数据分析。首先,介绍了安装和设置步骤,然后展示了如何使用Pandas的DataFrame进行数据加载、清洗和基本分析。接着,通过Jupyter Notebook的交互式环境,演示了数据分析和可视化,包括直方图的创建。文章还涉及数据清洗,如处理缺失值,并展示了如何进行高级数据分析,如数据分组和聚合。此外,还提供了将分析结果导出到文件的方法。通过销售数据的完整案例,详细说明了从加载数据到可视化和结果导出的全过程。最后,讨论了进一步的分析和可视化技巧,如销售额趋势、产品销售排名和区域分布,以及
33 2
|
17天前
|
存储 并行计算 数据挖掘
Python中的NumPy库:科学计算与数据分析的基石
Python中的NumPy库:科学计算与数据分析的基石
67 0
|
17天前
|
数据采集 XML 数据可视化
使用Python进行简单的网页与数据分析
使用Python进行简单的网页与数据分析
61 0
|
18天前
|
数据采集 机器学习/深度学习 数据可视化
使用Python进行简单的数据分析与可视化
使用Python进行简单的数据分析与可视化
99 0