출처: https://astrocosmos.tistory.com/202 [ASTROCOSMOS:티스토리] 데이터 전처리 구간, 범위] :: 하나둘셋넷
728x90

데이터 전처리 구간, 범위]

구간 - between

이미 값의 형식이 지정되어 있다.

구간 - pd.cut

bin = [ -np.inf, 숫자, 숫자, 숫자, np.inf ]
label = [ 구간, 구간, 구간, 구간 ]

데이터프레임['새로 만들 컬럼명'] = pd.cut( 데이터프레임['기존 컬럼명'],
					bins = bins, labels = labels)

 

 

구간 - pd.cut, describe

q1 = titanic['Age'].describe()['25%']
q2 = titanic['Age'].describe()['50%']
q3 = titanic['Age'].describe()['75%']
print(q1, q2, q3)

bin = [-np.inf,q1,q2,q3,np.inf]
label = list('abcd')
titanic['AgeGrp'] = pd.cut(titanic['Age'], bins = bin,labels = label)
titanic

 

 

728x90

+ Recent posts