Dataframe 생성

raw_data = {'date': ["20221201", "20221202", "20221202", "20221202", "20230102"],
            'col1': [10, 20, 20, 30, 40],
            'col2': [100, 200, 500, 300, 400]}

data = DataFrame(raw_data)
print(data)

       date  col1  col2
0  20221201    10   100
1  20221202    20   200
2  20221202    20   500
3  20221202    30   300
4  20230102    40   400

duplicated 함수 실행

중복되는 행들에서 첫번째 행만 False

print(data.duplicated(subset=['date']))

0    False
1    False
2     True
3     True
4    False
dtype: bool

중복되는 행들에서 마지막 행만 False

print(data.duplicated(subset=['date'], keep='last'))

0    False
1     True
2     True
3    False
4    False
dtype: bool

중복되는 행들에서 모든 행 True

print(data.duplicated(subset=['date'], keep=False))

0    False
1     True
2     True
3     True
4    False
dtype: bool

사용예

중복된 값 제거 후 1가지 값(첫번째 행)만 가져오기

print(data[~data.duplicated(subset=['date'])])

       date  col1  col2
0  20221201    10   100
1  20221202    20   200
4  20230102    40   400