替换Pandas数据框中的值不适用于.replace（）

>df Name Latitude Longitude Link 1 Link 2 Link 3 Link 4 Link 5 0 A 34.466667 72.200000 B NaN NaN NaN NaN 1 B 33.766667 72.366667 A C D NaN NaN 2 C 33.761500 72.434000 B E G NaN NaN

>datax Latitude Longitude Link 1 Link 2 Link 3 Link 4 Link 5 Name A 34.466667 72.200000 B NaN NaN NaN NaN B 33.766667 72.366667 A C D NaN NaN C 33.761500 72.434000 B E G NaN NaN

>datax Latitude Longitude Link 1 Link 2 Link 3 Link 4 Link 5 Name A 34.466667 72.200000 B NaN NaN NaN NaN B 33.766667 72.366667 Nan C D NaN NaN C 33.761500 72.434000 NaN E G NaN NaN

这是一个解决方案。

*步骤1-*第一步是沿列轴对“名称”和“链接1”的值进行排序。

datax[['Name', 'Link 1']].apply(sorted, axis=1)

这会给你这样的清单

0    [A, B]
1    [A, B]
2    [B, C]

*步骤2-*然后，您需要使用.apply（lambda x：'，'。join（map（str，x））将它们转换为字符串（因为使用df.duplicated（）时不接受列表）））`

*步骤3-*接下来，使用df.duplicated（）查找重复项，并将其存储在新列'temp'中。

datax['temp'] = datax[['Name', 'Link 1']].apply(sorted, axis=1).apply(lambda x: ','.join(map(str, x))).duplicated(keep='first')

在这个阶段，您的df datax将是

  Name   Latitude  Longitude Link 1 Link 2 Link 3  Link 4  Link 5   temp
0    A  34.466667  72.200000      B    NaN    NaN     NaN     NaN  False
1    B  33.766667  72.366667    NaN      C      D     NaN     NaN   True
2    C  33.761500  72.434000      B      E      G     NaN     NaN  False

*步骤4-*现在，您可以使用np.where（）并检查datax ['temp']是否为True，并相应地分配datax ['Link 1']

datax['Link 1'] = np.where(datax['temp']==True, np.NaN, datax['Link 1'])

*步骤5-*您可以在此之后使用datax.drop（'temp'，axis = 1）删除temp列

输出：

  Name   Latitude  Longitude Link 1 Link 2 Link 3  Link 4  Link 5
0    A  34.466667  72.200000      B    NaN    NaN     NaN     NaN
1    B  33.766667  72.366667    NaN      C      D     NaN     NaN
2    C  33.761500  72.434000      B      E      G     NaN     NaN

结合所有这些步骤-

datax['temp'] = datax[['Name', 'Link 1']].apply(sorted, axis=1).apply(lambda x: ','.join(map(str, x))).duplicated(keep='first')
datax['Link 1'] = np.where(datax['temp']==True, np.NaN, datax['Link 1'])
datax.drop('temp', axis=1)

*最终解决方案-*我们可以扩展此解决方案，以比较“链接1”，“链接2”，“链接3”等与“名称”，并设置“链接1”，“链接2”，“链接3” cols分别。

for column in datax[['Link 1','Link 2','Link 3','Link 4','Link 5']]:
    datax['temp'] = datax[['Name', column]]\
        .fillna('').apply(sorted, axis=1)\
        .apply(lambda x: ','.join(map(str, x)))\
        .duplicated(keep='first')
    datax[column] = np.where(datax['temp']==True, np.NaN, datax[column])
    datax.drop('temp', axis=1, inplace=True)

print(datax)

输出：

  Name   Latitude  Longitude Link 1 Link 2 Link 3  Link 4  Link 5
0    A  34.466667  72.200000      B    NaN    NaN     NaN     NaN
1    B  33.766667  72.366667    NaN      C      D     NaN     NaN
2    C  33.761500  72.434000      B      E      G     NaN     NaN

让我知道这是否有帮助！

回答来源：stackoverflow

替换Pandas数据框中的值不适用于.replace（）

相关课程

相关电子书

相关实验场景

替换Pandas数据框中的值不适用于.replace（）

相关课程

相关文章

相关电子书

相关实验场景