728x90
데이터 전처리 삭제, 제거]
삭제 - 데이터 삭제 drop
titanic.drop(['SibSp','Parch'], axis=1, inplace= True)
삭제 - 컬럼 삭제
# 특정 열 삭제
데이터프레임.drop('열 이름', axis=1, inplace = True)
# 여러 열 삭제
삭제할 열 리스트 = [ '열 이름 1', '열 이름 2' ]
데이터프레임.drop( columns = 삭제할 열 리스트, axis =1, inplace = True )
삭제 - 데이터프레임의 중복 컬럼 삭제
# 'A' 컬럼 중 첫 번째만 선택
new_df = df.loc[:, ~df.columns.duplicated()]
삭제 - 행 - 삭제
# 특정 행 삭제
데이터프레임.drop( '행 이름', inplace = True )
# 여러 행 삭제
삭제할 행 리스트 [ '행 이름 1', '행 이름 2' ]
데이터프레임.drop( 삭제할 행 리스트, inplace = True )
# 조건 삭제
# 예시 : 30 이상인 행 삭제
데이터프레임 = 데이터프레임[ 데이터프레임['Age'] < 30]
삭제 - 행 - 컬럼명을 첫 행의 값으로 변경, 첫 행 삭제
import pandas as pd
# 데이터프레임 예시 생성
data = [["Column1", "Column2", "Column3"], [1, 2, 3], [4, 5, 6]]
df = pd.DataFrame(data)
display(df)
# 첫 번째 행을 컬럼으로 설정
df.columns = df.iloc[0]
display(df)
# 첫 번째 행 삭제
df = df.drop(df.index[0])
display(df)
삭제 - 행 - 첫 번째 행을 삭제
df.drop(df.index[0)
삭제 - 행 - 중복행 제거하기
df.drop_duplicates( subset=None, keep = 'first', inplace = True, ignore_index = False)
# subset : 중복 검사를 할 때 고려해야 할 열을 지정하는 매개변수
# keep = 'first' : 중복된 행 중 어떤 행을 유지할지 지정하는 매개변수
data_check[(data_check['기업명']=='(주)드림오브***')
& (data_check['accNm']=='영업이익') ].drop_duplicates(subset = ['기업명'],keep='first'))
삭제 - 행 - 중복행 제거하기
데이터프레임.drop_duplicates( subset = None, keep='first',
inplace = True, ignore_index = False )
# subset : 중복을 검사할 때 고려해야 할 열을 지정하는 매개변수
# keep = 'first' : 중복된 행 중 어떤 행을 유지할지 지정하는 매개변수
# ignore_index = Fasle : 이 매개변수가 'False'로 설정되면 인덱스(행 번호)를 재설정하지 않는다.
# 예시
df.drop_duplicates( subset = ['B'], keep = 'first' , inplace = True)
삭제 - 행 - Null값( = 결측치 )이 포함된 행을 제거
df = df.dropna()
삭제 - 행 - 값이 0인 행을 제거
df = df.loc[(df !=0).all(axis=1)]
삭제 - 결측치 제거
# 하나라도 결측치 포함
df.dropna()
# 모든 데이터가 결측치
df.dropna(how = 'all' )
728x90
'데이터 - 전처리' 카테고리의 다른 글
데이터 전처리 조회, 찾기, 탐색, 확인, 정보] (0) | 2024.01.06 |
---|---|
데이터 전처리 정보, 형태, 형식, 이름, 변경, 변형] (0) | 2024.01.06 |
데이터 전처리 결측치] (0) | 2024.01.06 |
데이터 전처리 날짜, date, Date] (0) | 2024.01.05 |
데이터 전처리 파일 다루기] (0) | 2024.01.05 |