从数据框python中删除一行中的重复数据，而不会影响DataFrame的形状

如下所示，您可以选择重复的感兴趣的行和列（'A'），并将其值设置为NAN。

# create df

df = pd.DataFrame([
    [1, 10],
    [1, 20],
    [1, 30],
    [2, 10]],
    columns=['A', 'B'])

# replace duplicated elements with NAN, preserving the row

df.loc[df.duplicated(subset='A', keep='first'), 'A'] = np.nan

原始表：

修改表：

    A     B
0   1.0   10
1   NaN   20
2   NaN   30
3   2.0   10

列“ A”成为支持NaN的浮点数据类型。

使用duplicated，您可以将元素的第一个（keep ='first'）或最后一个（keep ='last'）指定为原始元素-就像其他元素一样-将其他相同元素视为重复元素。

与@Quang Hoang的评论有关，在duplicated中没有逻辑来选择任意中间元素，如您的示例。

************回应之后************回应之后，我想我知道您想要什么。以下是非矢量化方法，只要您的数据帧不是很大，就应该很好。它将重复的B值保存到列表中（见下文）

# create sample dataframe

df = pd.DataFrame([
    [1, 10],
    [1, 20],
    [1, 30],
    [2, 10],
    [3, 15],
    [3, 20]],
    columns=['A', 'B'])

# create a dictionary where unique column A values are keys, and values are all the column B values for a given key (whether the A value is a duplicate or not)

dictionary = dict()

for value in df.A.unique():
    if len(df.loc[(df.A == value) & df.A.duplicated(keep=False)]) > 0:
        all_values = df.loc[(df.A == value) & df.A.duplicated(keep=False), 'B'].tolist()
        dictionary[value] = all_values
    elif len(df.loc[(df.A == value) & df.A.duplicated(keep=False)]) == 0:
        dictionary[value] = df.loc[(df.A == value), 'B'].tolist()

# make a new dataframe

df2 = pd.DataFrame(columns=['A', 'B'])
df2.A = list(dictionary.keys())
df2.B = list(dictionary.values())

结果是这样的：

    A    B
0   1   [10, 20, 30]
1   2   [10]
2   3   [15, 20]

如果您想删除原始数据帧以释放内存：del df

回答来源：stackoverflow

从数据框python中删除一行中的重复数据，而不会影响DataFrame的形状

相关文章

相关解决方案

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

从数据框python中删除一行中的重复数据，而不会影响DataFrame的形状

相关文章

相关解决方案