【Python】【Numpy+Pandas数据处理·闯关】和鲸社区学习笔记day(1)

简介: 【Python】【Numpy+Pandas数据处理·闯关】和鲸社区学习笔记day(1)

重要的一些步骤


1.将下面的字典创建为DataFrame¶


data = {"grammer":['Python', 'C', 'Java', 'GO', np.NaN, 'SQL', 'PHP', 'Python'],
       "score":[1.0, 2.0, np.NaN, 4.0, 5.0, 6.0, 7.0, 10.0]}
df = pd.DataFrame(data)
df

grammer
score
0 Python 1.0
1 C 2.0
2 Java NaN
3 GO 4.0
4 NaN 5.0
5 SQL 6.0
6 PHP 7.0
7 Python 10.0


2.交换两列位置


#方法2
cols = df.columns[[1,0]]
df = df[cols]
df



popularity
grammer
0 1.0 Python
1 2.0 C
2 3.0 Java
3 4.0 GO
4 5.0 NaN
5 6.0 SQL
6 7.0 PHP
7 10.0 Python


3.提取popularity列最大值所在行


df[df['popularity'] == df['popularity'].max()]



popularity
grammer
7 10.0 Python


4. 随机生成20个0-100的随机整数:Numpy.random.randint()


np.random.randint(0, 100, 20)


array([72, 68, 6, 41, 22, 63, 27, 43, 55, 26, 60, 89, 29, 83, 23, 68, 37,
70, 42, 31])


5.生成20个0-100固定步长的数:Numpy.arange()


np.arange()函数分为一/两/三个参数三种情况:


  • 一个参数时,参数值为终点,起点取默认值0,步长取默认值1。
  • 两个参数时,第一个参数为起点,第二个参数为终点,步长取默认值1。
  • 三个参数时,第一个参数为起点,第二个参数为终点,第三个参数为步长。其中步长支持小数
np.arange(0, 100, 5)

array([ 0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80,
85, 90, 95])


6. 生成20个指定分布(如标准正态分布)的数:Numpy.random.normal()


np.random.normal(0, 1, 20)


array([-0.20191223, 0.71407157, -0.9127828 , -0.65248936, 1.06513536,

0.31551879, -0.71842129, -0.75766808, 0.488825 , -1.15330714,

-0.50300377, -0.4937517 , -1.11488371, -0.70628642, -1.86134249,

-0.03509479, 0.20524998, 0.04379019, 0.39735111, -1.58616105])


7. 查看两列值相等的行号:Numpy.where()


np.where()用法:


np.where(condition, x, y): #

满足条件(condition),输出x,不满足输出y


np.where(condition):只有条件

(condition),没有x和y,则输出满足条件 (即非0) 元素的坐标

(等价于numpy.nonzero)。当条件成立时,where返回的是每个符合condition条件元素的坐标,返回的是以元组的形式。


df['cycle'] = [2.0, 3.0, 6.0, 3.0, 5.0, 2.0, 7.0, 5.0]
#方法一:值相等
df[df['score'] == df['cycle']].index
#方法二:np.where()
np.where(df.score == df.cycle)

(array([2, 4, 6]),)


8.查找第一列的局部最大值位置:Numpy.sign()


#思路:查找比它前一个和后一个数字都大数字
data = {"grammer":['Python', 'C', 'Java', 'GO', 'css', 'SQL', 'PHP', 'Python'],
       "score":[1.0, 2.0, 6.0, 4.0, 5.0, 6.0, 7.0, 10.0]}
tem = np.diff(np.sign(np.diff(df['score'])))
np.where(tem == -2)[0] + 1


array([2])


9. 计算两列欧式距离:Numpy.linalg.norm()


#方法一:公式法
import math as mt
mt.sqrt(sum((df['score']-df['cycle'])**2))
#方法二:numpy函数
np.linalg.norm(df['score'] - df['cycle'])

6.6332495807108


10. numpy其他一些统计基础函数


np.min([1,2,3]) # 最小值
np.mean([1,2,3]) # 均值
np.median([1,2,3]) # 中位数
np.var([1,2,3]) # 方差
np.max([1,2,3]) # 最大值
np.ptp([1,2,3]) # 极差
np.std([1,2,3]) # 标准差
np.cov([1,2,3]) # 协方差
np.log1p([1,2,3]) # log(x + 1)
np.log2([1,2,3]) # 以2为底的对数
np.expm1([1,2,3]) # e的x次幂-1
np.exp([1,2,3]) # e的次数幂
np.log([1,2,3]) # 取对数
np.sqrt([1,2,3]) # 开根号
np.exp2([1,2,3]) # 平方


array([2., 4., 8.])


作业


STEP1: 按照下列要求创建数据框

已知10位同学的学号以及语数英三科成绩如下:(都是数值型数据)

914e75d1a39bada153e7ccedd4e5ad46_6e616a97241e484cb678c9b34f268e57.png

Id: [202001, 202002, 202003, 202004, 202005, 202006, 202007, 202008, 202009, 202010] Chinese: [98, 67, 84, 88, 78, 90, 93, 75, 82, 87] Math: [92, 80, 73, 76, 88, 78, 90, 82, 77, 69] English: [88, 79, 90, 73, 79, 83, 81, 91, 71, 78]


要求:计算出每位同学的总成绩(SumScore)、平均成绩(MeanScore),最高成绩(MaxScore)、最低成绩(MinScore)、最高成绩与最低成绩的极差(PtpScore)、成绩方差(VarScore);并将所有数据保存到score数据框中;将多列数据(包括学生的ID)合并到一列中,列名设置为answer,最终只保留索引id(从0到100)和answer两列,统一保留整数;


别人写的,挺好的

import pandas as pd
import numpy as np
data = {'Id': ['202001','202002','202003','202004','202005','202006','202007','202008','202009','202010'],
            'Chinese': ['98','67','84','88','78','90','93','75','82','87'],
            'Math': ['92','80','73','76','88','78','90','82','77','69'],
            'English': ['88','79','90','73','79','83','81','91','71','78']}
df = pd.DataFrame(data) # 字典转换为DF
df = df.astype('int') # object等格式转换为int
#运算
a = df[['Chinese', 'Math', 'English']].apply(np.sum, axis=1)
b = df[['Chinese', 'Math', 'English']].apply(np.mean, axis=1)
c = df[['Chinese', 'Math', 'English']].apply(np.max, axis=1)
d = df[['Chinese', 'Math', 'English']].apply(np.min, axis=1)
e = df[['Chinese', 'Math', 'English']].apply(np.ptp, axis=1)
f = df[['Chinese', 'Math', 'English']].var(axis='columns') # 查阅资料后得知,pandas df方差计算方法与numpy方差计算方法不一致
# 拼接共10列
df_concat = pd.concat([df['Id'], df['Chinese'], df['Math'], df['English'],a,b,c,d,e,f]) # 拼接列,series
df_concat = df_concat.astype('int')
print(df_concat)
df2 = pd.DataFrame() # 新建df2
df2['answer'] = df_concat # 新增列,数据来自拼接列
df2['id'] = range(len(df_concat)) # 新增列,并按照answer数量添加id


我写的,挺慢的

import numpy as np
import pandas as pd
data = {"Id": [202001, 202002, 202003, 202004, 202005, 202006, 202007, 202008, 202009, 202010],
"Chinese": [98, 67, 84, 88, 78, 90, 93, 75, 82, 87],
"Math": [92, 80, 73, 76, 88, 78, 90, 82, 77, 69],
"English": [88, 79, 90, 73, 79, 83, 81, 91, 71, 78]}
mydata = pd.DataFrame(data)
mydata['SumScore'] = mydata.loc[:,mydata.columns[1:4]].sum(axis=1)
mydata['MeanScore'] =  mydata.loc[:,mydata.columns[1:4]].sum(axis=1)/3
mydata['MaxScore'] = mydata.loc[:,mydata.columns[1:4]].max(axis=1)
mydata['MinScore'] = mydata.loc[:,mydata.columns[1:4]].min(axis=1)
mydata['PtpScore'] = np.ptp(mydata.loc[:,mydata.columns[1:4]],axis=1)
mydata['VarScore'] = mydata.loc[:,mydata.columns[1:4]].var(axis=1)
answer = pd.concat([mydata[c] for c in mydata.columns])
answer = answer.astype('int')
mydata1 = pd.DataFrame()
mydata1['answer'] = answer
mydata1['id'] = range(len(answer))
mydata1 = mydata1[['id','answer']]
print(mydata1)
mydata1.to_csv('answer_1.csv',index=False,encoding='utf-8-sig')

收获


  • 在 Pandas 中,有三种方法可以用来索引和选择数据:[]、.iloc 和 .loc。
    [] 是最基本的索引和选择数据的方法,它通常用于选择单个列或多个列。使用 [] 选择多个列时,需要将列名以列表的形式传递。
import pandas as pd
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})
# 选择单个列
df['A']
# 输出:0    1
#      1    2
#      2    3
#      Name: A, dtype: int64
# 选择多个列
df[['A', 'B']]
# 输出:   A  B
#       0  1  4
#       1  2  5
#       2  3  6
  • .iloc 是按照整数位置(从 0 开始)进行索引和选择数据的方法。使用 .iloc 可以选择单个元素、行、列或者一个区域。选择行和列时可以用整数位置或者切片。
import pandas as pd
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})
# 选择单个元素
df.iloc[0, 0]
# 输出:1
# 选择单个行
df.iloc[0]
# 输出:A    1
#      B    4
#      C    7
#      Name: 0, dtype: int64
# 选择单个列
df.iloc[:, 0]
# 输出:0    1
#      1    2
#      2    3
#      Name: A, dtype: int64
# 选择一个区域
df.iloc[0:2, 0:2]
# 输出:   A  B
#       0  1  4
#       1  2  5


.loc 是按照标签进行索引和选择数据的方法。使用 .loc 可以选择单个元素、行、列或者一个区域。选择行和列时必须使用标签。

import pandas as pd
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})
# 选择单个元素
df.loc[0, 'A']
# 输出:1
# 选择单个行
df.loc[0]
# 输出:A    1
#      B    4
#      C    7
#      Name: 0, dtype: int64
# 选择单个列
df.loc[:, 'A']
# 输出:0    1
#      1    2
#      2    3
#      Name: A, dtype: int64
# 选择一个区域
df.loc[0:1, ['A', 'B']]
# 输出:   A  B
#       0 

相关文章
|
1天前
|
数据采集 机器学习/深度学习 数据可视化
利用Python和Pandas库构建高效的数据分析流程
在数据驱动的时代,数据分析已成为企业决策的关键环节。本文介绍如何利用Python编程语言及其强大的数据分析库Pandas,构建一套高效且可扩展的数据分析流程。与常规的数据分析流程不同,本文不仅涵盖数据加载、清洗、转换等基础步骤,还强调数据可视化、模型探索与评估等高级分析技巧,并通过实际案例展示如何在Python中实现这些步骤,为数据分析师提供一套完整的数据分析解决方案。
|
5天前
|
Python
NumPy 是 Python 中的一个重要的科学计算包,其核心是一个强大的 N 维数组对象 Ndarray
【6月更文挑战第18天】NumPy的Ndarray是科学计算的核心,具有ndim(维度数)、shape(各维度大小)、size(元素总数)和dtype(数据类型)属性。方法包括T(转置)、ravel()(扁平化)、reshape()(改变形状)、astype()(转换数据类型)、sum()(求和)及mean()(计算平均值)。更多属性和方法如min/max等可在官方文档中探索。
22 5
|
8天前
|
Python
在Python的pandas库中,向DataFrame添加新列简单易行
【6月更文挑战第15天】在Python的pandas库中,向DataFrame添加新列简单易行。可通过直接赋值、使用Series或apply方法实现。例如,直接赋值可将列表或Series对象分配给新列;使用Series可基于现有列计算生成新列;apply方法则允许应用自定义函数到每一行或列来创建新列。
68 8
|
5天前
|
Python
NumPy 是 Python 的一个强大的科学计算库,它允许你创建各种类型的数组
【6月更文挑战第18天】**NumPy**是Python的科学计算库,用于创建和操作多维数组。常用数组生成方法包括:`np.array()`从列表转换为数组;`np.zeros()`生成全零矩阵;`np.ones()`创建全一矩阵;`np.linspace()`产生等差序列;`np.arange()`创建等差数列;以及`np.eye()`生成对角线为1的二维数组。更多方法可查阅NumPy官方文档。
14 2
|
6天前
|
Python
GitHub爆赞!终于有大佬把《Python学习手册》学习笔记分享出来了
这份笔记的目标是为了给出一份比较精炼,但是又要浅显易懂的Python教程。《Python学习手册》中文第四版虽然比较简单,但是措辞比较罗嗦,而且一个语法点往往散落在多个章节,不方便读者总结。 我在做笔记时,将一个知识点的内容都统筹在一个章节里面,因此提炼性大大提高。而且还有《Python学习手册》中文第四版的翻译在某些章节(可能难度较大?)措辞可能前后矛盾。当知识点提炼之后就能够很快的找到一些难以理解的概念的上下文,方便吃透这些难点。
GitHub爆赞!终于有大佬把《Python学习手册》学习笔记分享出来了
这份笔记的目标是为了给出一份比较精炼,但是又要浅显易懂的Python教程。《Python学习手册》中文第四版虽然比较简单,但是措辞比较罗嗦,而且一个语法点往往散落在多个章节,不方便读者总结。 我在做笔记时,将一个知识点的内容都统筹在一个章节里面,因此提炼性大大提高。而且还有《Python学习手册》中文第四版的翻译在某些章节(可能难度较大?)措辞可能前后矛盾。当知识点提炼之后就能够很快的找到一些难以理解的概念的上下文,方便吃透这些难点。
|
9天前
|
Python
Python学习笔记之Matplotlib模块入门(直线图、折线图、曲线图、散点图、柱状图、饼状图、直方图、等高线图和三维图的绘制)-2
Python学习笔记之Matplotlib模块入门(直线图、折线图、曲线图、散点图、柱状图、饼状图、直方图、等高线图和三维图的绘制)
|
9天前
|
数据可视化 开发者 Python
Python学习笔记之Matplotlib模块入门(直线图、折线图、曲线图、散点图、柱状图、饼状图、直方图、等高线图和三维图的绘制)-1
Python学习笔记之Matplotlib模块入门(直线图、折线图、曲线图、散点图、柱状图、饼状图、直方图、等高线图和三维图的绘制)
|
9天前
|
存储 API C语言
Python学习笔记之NumPy模块——超详细(安装、数组创建、正态分布、索引和切片、数组的复制、维度修改、拼接、分割...)-2
Python学习笔记之NumPy模块——超详细(安装、数组创建、正态分布、索引和切片、数组的复制、维度修改、拼接、分割...)
|
9天前
|
BI 测试技术 索引
Python学习笔记之NumPy模块——超详细(安装、数组创建、正态分布、索引和切片、数组的复制、维度修改、拼接、分割...)-1
Python学习笔记之NumPy模块——超详细(安装、数组创建、正态分布、索引和切片、数组的复制、维度修改、拼接、分割...)