How to remove duplicate column data based on column name in pandas

Question

How to remove duplicate column data based on column name in pandas

Suppose I have a table as shown below

    A   B   C   B
0   0   1   2   3
1   4   5   6   7

I would like to delete column B. I tried using drop_duplicate, but it seems that it only works based on duplicate data, not the header. Hope anyone knows how to do this.

thank

+10

pandas

Xz Jun 15 '17 at 7:47

source share

2 answers

groupby
axis=1 level=0, , . first , .

df.groupby(level=0, axis=1).first()

   A  B  C
0  0  1  2
1  4  5  6

last

df.groupby(level=0, axis=1).last()

   A  B  C
0  0  3  2
1  4  7  6

mean

df.groupby(level=0, axis=1).mean()

   A  B  C
0  0  2  2
1  4  6  6

+4

piRSquared 15 . '17 7:54

jezrael · Accepted Answer · 2017-06-15T07:50:01+0000

Use with or and : Index.duplicatedlociloc boolean indexing

print (~df.columns.duplicated())
[ True  True  True False]

df = df.loc[:, ~df.columns.duplicated()]
print (df)
   A  B  C
0  0  1  2
1  4  5  6

df = df.iloc[:, ~df.columns.duplicated()]
print (df)
   A  B  C
0  0  1  2
1  4  5  6

Dates :

np.random.seed(123)
cols = ['A','B','C','B']
#[1000 rows x 30 columns]
df = pd.DataFrame(np.random.randint(10, size=(1000,30)),columns = np.random.choice(cols, 30))
print (df)

In [115]: %timeit (df.groupby(level=0, axis=1).first())
1000 loops, best of 3: 1.48 ms per loop

In [116]: %timeit (df.groupby(level=0, axis=1).mean())
1000 loops, best of 3: 1.58 ms per loop

In [117]: %timeit (df.iloc[:, ~df.columns.duplicated()])
1000 loops, best of 3: 338 µs per loop

In [118]: %timeit (df.loc[:, ~df.columns.duplicated()])
1000 loops, best of 3: 346 µs per loop

How to remove duplicate column data based on column name in pandas

More articles: