如何在引用某些其他行上的数据时对DF中的每一行执行计算？

for X in df.columns[df.columns.str.contains('area')].tolist(): Y = X.replace('area', 'fracUnmod') df[Y].iloc[row] = (1 - ((df.iloc[row][X]) / ((df.iloc[row][X]) + (df[(df.baseSeq==df.iloc[row].baseSeq) & (df.charge==df.iloc[row].charge) & (df.baseSeq==df.modSeq)][X].item()))))

如果我们创建一些临时列，可以对数学运算进行矢量化，这应该会大大减少时间量。之后我们可以删除临时列。

使用您给出的示例，它看起来像这样：

我们从一个df看起来像这样的开头：

baseSeq    modSeq        charge     modType   area_0  area_25   area_50

0 ADTPICR ADT[+16]PICR 2 hydoxy 1862 2472 3015
1 ADTPICR ADTPICR 2 UNMOD 22737 30966 24660
2 AVALFAED AVALFAED[+16] 2 hydroxy 40060 2423 3553
3 AVALFAED AVALFAE[+16]D 2 hydroxy 40131 2407 3577
4 AVALFAED AVALFAED 2 UNMOD 21962 34387 29860
5 AVALFAED AVALFAED[-30] 3 decarbox 12 16 40
6 AVALFAED AVALFAED 3 UNMOD 21885 35444 33511
7 AVALFAED AVALFAED 4 UNMOD 2116 3072 2974
创建所有“区域”列的列表：

area_cols = df.columns[df.columns.str.contains('area')].tolist()

以下5行代码创建一个临时df，其中包含每个/ combo 的未修改区域：baseSeqcharge

temp_df = df[['baseSeq'] + ['charge'] + ['modType'] + area_cols].groupby(['baseSeq', 'charge', 'modType'], axis=0).sum()
temp_df = temp_df.reset_index(level=2)
temp_df = temp_df[temp_df['modType'] == 'UNMOD']
temp_df = temp_df.drop('modType', axis=1)
temp_df.rename(columns = lambda x: 'unmod_' + x, inplace=True)
这是临时df在这一点上的样子：

            unmod_area_0    unmod_area_25   unmod_area_50

baseSeq charge
ADTPICR 2 22737 30966 24660
AVALFAED 2 21962 34387 29860

          3        21885            35444          33511
          4         2116             3072           2974

然后，我们将此临时数据帧连接回主数据框，以便为每个baseSeq/ charge组合显示适当数量的未修改区域的列：

df = df.join(temp_df, on=['baseSeq', 'charge'])

此时，我们的数据框如下所示：

baseSeq     modSeq       charge  modType    area_0  area_25 area_50 unmod_area_0    unmod_area_25   unmod_area_50

0 ADTPICR ADT[+16]PICR 2 hydoxy 1862 2472 3015 22737 30966 24660
1 ADTPICR ADTPICR 2 UNMOD 22737 30966 24660 22737 30966 24660
2 AVALFAED AVALFAED[+16] 2 hydroxy 40060 2423 3553 21962 34387 29860
3 AVALFAED AVALFAE[+16]D 2 hydroxy 40131 2407 3577 21962 34387 29860
4 AVALFAED AVALFAED 2 UNMOD 21962 34387 29860 21962 34387 29860
5 AVALFAED AVALFAED[-30] 3 decarbox 12 16 40 21885 35444 33511
6 AVALFAED AVALFAED 3 UNMOD 21885 35444 33511 21885 35444 33511
7 AVALFAED AVALFAED 4 UNMOD 2116 3072 2974 2116 3072 2974
现在主要部分：我们遍历每个“区域”列并计算所需的分数。该计算在列的每一行上进行矢量化，并且应该大大加快速度。
for col in area_cols:

num = col.split('_')[1]
df['fracUnmod_' + num] = 1 - (df[col] / (df[col] + df['unmod_' + col]))

要清理一下，让我们通过删除显示未修改区域的临时列来完成，并删除我们的临时数据帧。

df = df.drop(['unmod_' + c for c in area_cols], axis=1)

del(temp_df)

最终的数据框如下所示：

baseSeq     modSeq       charge  modType    area_0  area_25 area_50 fracUnmod_0  fracUnmod_25   fracUnmod_50

0 ADTPICR ADT[+16]PICR 2 hydoxy 1862 2472 3015 0.924306 0.926072 0.891057
1 ADTPICR ADTPICR 2 UNMOD 22737 30966 24660 0.500000 0.500000 0.500000
2 AVALFAED AVALFAED[+16] 2 hydroxy 40060 2423 3553 0.354100 0.934175 0.893664
3 AVALFAED AVALFAE[+16]D 2 hydroxy 40131 2407 3577 0.353695 0.934582 0.893023
4 AVALFAED AVALFAED 2 UNMOD 21962 34387 29860 0.500000 0.500000 0.500000
5 AVALFAED AVALFAED[-30] 3 decarbox 12 16 40 0.999452 0.999549 0.998808
6 AVALFAED AVALFAED 3 UNMOD 21885 35444 33511 0.500000 0.500000 0.500000
7 AVALFAED AVALFAED 4 UNMOD 2116 3072 2974 0.500000 0.500000 0.500000
这与原始嵌套for循环生成的输出相同。

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

如何在引用某些其他行上的数据时对DF中的每一行执行计算？

相关解决方案