출처: https://astrocosmos.tistory.com/202 [ASTROCOSMOS:티스토리] 데이터 전처리 삭제, 제거] :: 하나둘셋넷
728x90

데이터 전처리 삭제, 제거]

삭제 - 데이터 삭제 drop

titanic.drop(['SibSp','Parch'], axis=1, inplace= True)

 

 

삭제 - 컬럼 삭제

# 특정 열 삭제

데이터프레임.drop('열 이름', axis=1, inplace = True)

# 여러 열 삭제

삭제할 열 리스트 = [ '열 이름 1', '열 이름 2' ]

데이터프레임.drop( columns = 삭제할 열 리스트, axis =1, inplace = True )

 

삭제 - 데이터프레임의 중복 컬럼 삭제

# 'A' 컬럼 중 첫 번째만 선택
new_df = df.loc[:, ~df.columns.duplicated()]

삭제 -  행 - 삭제

# 특정 행 삭제
데이터프레임.drop( '행 이름', inplace = True )

# 여러 행 삭제
삭제할 행 리스트 [ '행 이름 1', '행 이름 2' ]

데이터프레임.drop( 삭제할 행 리스트, inplace = True )

# 조건 삭제
# 예시 : 30 이상인 행 삭제

데이터프레임 = 데이터프레임[ 데이터프레임['Age'] < 30]

 

삭제 - 행 - 컬럼명을 첫 행의 값으로 변경, 첫 행 삭제

import pandas as pd

# 데이터프레임 예시 생성
data = [["Column1", "Column2", "Column3"], [1, 2, 3], [4, 5, 6]]
df = pd.DataFrame(data)
display(df)

# 첫 번째 행을 컬럼으로 설정
df.columns = df.iloc[0]
display(df)

# 첫 번째 행 삭제
df = df.drop(df.index[0])
display(df)

삭제 -  행 - 첫 번째 행을 삭제

df.drop(df.index[0)

 

삭제 - 행 - 중복행 제거하기

df.drop_duplicates( subset=None, keep = 'first', inplace = True, ignore_index = False)

# subset : 중복 검사를 할 때 고려해야 할 열을 지정하는 매개변수

# keep = 'first' : 중복된 행 중 어떤 행을 유지할지 지정하는 매개변수

 

data_check[(data_check['기업명']=='(주)드림오브***')
	& (data_check['accNm']=='영업이익') ].drop_duplicates(subset = ['기업명'],keep='first'))

 

삭제 - 행 - 중복행 제거하기

데이터프레임.drop_duplicates( subset = None, keep='first',
                           inplace = True, ignore_index = False )

#  subset : 중복을 검사할 때 고려해야 할 열을 지정하는 매개변수
# keep = 'first' : 중복된 행 중 어떤 행을 유지할지 지정하는 매개변수

# ignore_index = Fasle : 이 매개변수가 'False'로 설정되면 인덱스(행 번호)를 재설정하지 않는다.

# 예시
df.drop_duplicates( subset  = ['B'], keep = 'first' , inplace = True)

 

 

삭제 - 행 - Null값( = 결측치 )이 포함된 행을 제거

df = df.dropna()

 

삭제 - 행 - 값이 0인 행을 제거

df = df.loc[(df !=0).all(axis=1)]

 

삭제 - 결측치 제거

# 하나라도 결측치 포함
df.dropna()

# 모든 데이터가 결측치
df.dropna(how = 'all' )

 

 

728x90

+ Recent posts