출처: https://astrocosmos.tistory.com/202 [ASTROCOSMOS:티스토리] '데이터프레임' 태그의 글 목록 :: 하나둘셋넷
728x90

데이터 전처리] 1,234 등 숫자에서 쉼표를 제거하고 숫자형으로 형식 변경, 빈 칸 np.nan으로 대체 및 제거, str.replace(',', '').astype(float), np.nan, subset

 

seoul_monthly_2023['대여건수'] = seoul_monthly_2023['대여건수'].str.replace(',', '').astype(float)
seoul_monthly_2023['반납건수'] = seoul_monthly_2023['반납건수'].str.replace(',', '')
seoul_monthly_2023['반납건수'] = seoul_monthly_2023['반납건수'].str.replace(' - ', '')
seoul_monthly_2023['반납건수'].replace('', np.nan, inplace = True)
seoul_monthly_2023.dropna(subset=['반납건수'], inplace= True)
seoul_monthly_2023['반납건수'] = seoul_monthly_2023['반납건수'].astype(float)
728x90
728x90

피어슨 상관계수, regplot

 

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import scipy.stats as spst   

target = '등록차량수'

for feature in analyze_features:

    print(f"[{feature}] 통계 분석 및 그래프 분석")

    # 통계 분석 : 통계 분석

    print("   ***** 통계 분석 *****")
    result = spst.pearsonr(data[feature], data[target])
    print(feature, " vs ", target, " 상관 분석: ", spst.pearsonr(data[feature], data[target]))
    
    if result[1] > 0.05:
        print(f"통계분석 결과 : {feature}는 등록차량수에 영향을 주지 않는다")
    else:
        print(f"통계분석 결과 : {feature}는 등록차량수에 영향을 준다")

    # 그래프 분석 : regplot

    # plt.figure(figsize = (12,8))
    print("   ***** 그래프 분석 *****")
    sns.regplot(x = feature, y= target, data = data)
    plt.grid()
    plt.show()
    
    print("")
    print("-"*50)

 

 

heatmap

 

## 각 컬럼간 상관계수에 대한 heatmap 그래프 분석

plt.figure(figsize = (20,12))
sns.heatmap(data[col_num].corr(),cmap="PiYG", annot=True)
plt.show()

 

728x90
728x90

기본 차트 그리기 plt.plot(1차원 값)

 

 

# 차트 그리기
plt.plot(data['Temp'])

# 화면에 보여주기
plt.show()

 

x축, y축 지정하고 그래프 그리기

 

import pandas as pd
import matplotlib.pyplot as plt
plt.rc('font', family = 'Malgun Gothic')
plt.rcParams['font.family']

plt.plot(df['timestamp'], df['price(원/kg)])
plt.xticks(rotation=70)

plt.ylabel('price(원/kg)')
plt.show()

 

# 방법 2
plt.plot('Date', 'Temp', data = data)
plt.show()

 

 

시각화 axhline

train.groupby('hour').mean()['hour_bef_temperature'].plot()
plt.axhline(train.groupby('hour').mean()['hour_bef_temperature'].mean())

 

차트 꾸미기

plt.plot(data['Date'], data['Ozone'])

plt.xticks(rotation = 30)       # x축 값 꾸미기 : 방향을 30도 틀어서
plt.xlabel('Date')              # x축 이름 지정
plt.ylabel('Ozone')             # y축 이름 지정
plt.title('Daily Airquality')   # 타이틀

plt.show()

 

 

라인스타일 조정

 

plt.plot(data['Date'], data['Ozone']
         ,color='green'                # 칼러
         , linestyle='dotted'          # 라인스타일
         , marker='o')                 # 값 마커(모양)

plt.xlabel('Date') 
plt.ylabel('Ozone')
plt.title('Daily Airquality')
plt.xticks(rotation=45)

plt.show()

 

 

그래프 겹쳐서 그리기

 

# 첫번째 그래프
plt.plot(data['Date'], data['Ozone'], color='green', linestyle='dotted', marker='o')
# 두번째 그래프
plt.plot(data['Date'], data['Temp'], color='r', linestyle='-', marker='s')

plt.xlabel('Date') 
plt.ylabel('Ozone')
plt.title('Daily Airquality')
plt.xticks(rotation=45)

# 위 그래프와 설정 한꺼번에 보여주기
plt.show()

 

 

범례, 그리드 추가

 

plt.plot(data['Date'], data['Ozone'], label = 'Ozone')  # label = : 범례추가를 위한 레이블값
plt.plot(data['Date'], data['Temp'], label = 'Temp')

plt.legend(loc = 'upper right')    # 레이블 표시하기. loc = : 위치
plt.grid()
plt.xticks(rotation=45)
plt.show()

 

 

여러 개 차트 그리기, 방식 2

 

data.plot(x = 'Date', y = ['Temp','Ozone']
          , title = 'Daily Airquality')
plt.grid()
plt.show()

 

 

축 범위 조정

 

plt.plot(data['Ozone'])

# plt.ylim(0, 100)
# plt.xlim(0, 10)
plt.grid()
plt.show()

 

 

그래프 수직선, 수평선 추가

 

plt.plot(data['Ozone'])

plt.axhline(40, color = 'grey', linestyle = '--')
plt.axvline(10, color = 'red', linestyle = '--')
plt.show()

 

 

 

그래프에 텍스트 추가

 

plt.plot(data['Ozone'])

plt.axhline(40, color = 'grey', linestyle = '--')
plt.axvline(10, color = 'red', linestyle = '--')

plt.text(5, 41, '40')
plt.text(10.1, 20, '10')

plt.show()

 

 

여러 그래프 나눠서 그리기

 

plt.figure(figsize = (12,8))
plt.subplot(3,1,1)
plt.plot('Date', 'Temp', data = data)
plt.grid()

plt.subplot(3,1,2)
plt.plot('Date', 'Wind', data = data)

plt.subplot(3,1,3)
plt.plot('Date', 'Ozone', data = data)
plt.grid()
plt.ylabel('Ozone')

plt.tight_layout() # 그래프간 간격을 적절히 맞추기
plt.show()

 

 

 

 

하나의 데이터프레임에서 여러 개의 차트 그리기

 

# 남녀 인구 변화
plt.plot(pop_test[['male','female']])
plt.show()

 

728x90
728x90

데이터 전처리 그룹] 

그룹 - groupby

groupby( by = ['컬럼1', '컬럼2'], as_index = False )[['컬럼 3']].sum()

groupby( by = ['컬럼1'],as_index = False)[['컬럼2', '컬럼3']].sum()

 

728x90
728x90

내용

  • 평균 : numpy , pandas
  • Maplotlib 시각화 : 히스토그램, 박스플랏, plot
  • seaborn : kde 밀도함수, 히스토그램 + kde 밀도 함수 한 번에 그리기, 하나의 그래프에 두 개의 kde

 

평균(산술평균)

 

1. 넘파이 함수 이용

np.mean(데이터프레임['컬럼명'])

 

2. 판다스 mean 메서드 이용

데이터프레임['컬럼명'].mean()

 

히스토그램 작성

plt.hist(데이터프레임.컬럼명, bins = 숫자, edgecolor = '색상명')

plt.title('제목')

plt.ylabel('y 라벨명')

plt.show()

 

 

Boxplot 그리기

plot.boxplot(데이터프레임['컬럼명'])

옆으로 그리려면,

plt.boxplot(데이터프레임['컬럼명'], vert=False)

plt.grid()

plt.show()

 

plot 차트 이용

plt.plot(데이터프레임['컬럼명'])

 

 

밀도함수 그리기 <kdeplot>

sns.kdeplot(데이터프레임['컬럼명'])

plt.show()

 

히스토그램 + 밀도함수 합쳐서 그리기 <hisplot+kde></hisplot+kde>

sns.hisplot(데이터프레임['컬럼명'], ked=True)

 

하나의 그래프에 두 개의 밀도함수그래프 그리기 <kde+kde>

sns.kdeplot(x='컬럼명'1, data = 데이터프레임, label = '라벨이름')

sns.kdeplot(x='컬럼명2, data = 데이터프레임, label = '라벨이름')

plt.legend()

plt.gride()

plt.show()

 

728x90

+ Recent posts