'데이터_전처리, 분석기법, 시각화, 자료형/데이터 분석기법' 카테고리의 글 목록

PREV 이전 1 NEXT 다음

데이터_전처리, 분석기법, 시각화, 자료형/데이터 분석기법

데이터 분석기법] 카이제곱검정, anova(f_oneway), ttest_p-value, barbplot

하나둘셋넷_1234 2023. 11. 30. 23:29

2023. 11. 30. 23:29

범주형 feature -> 수치형 target

카이제곱 검정, ttest, ANOVA 검정에서의 p_value의 의미

ㆍ t-검정

- 귀무가설 : 집단의 평균 간에 차이가 없을 것이다.

- p-value < 0.05 : 귀무 가설 기각, 집단 간의 평균에 유의미한 차이가 있다.

ㆍ 카이제곱 검정

- 귀무가설 : 두 집단의 빈도 분포가 독립적이다.

- p-value < 0.05 : 귀무 가설 기각, 두 집단의 빈도 분포가 독립적이지 않을 것이다.

ㆍ ANOVA

- 귀무가설 : 집단(세 개 이상)의 평균 간에 차이가 없을 것이다.

- p-value < 0.05 : 귀무 가설 기각, 집단 간의 평균에 유의미한 차이가 있다.

(1) Gender

plt.figure(figsize = (15,8))
sns.barplot(x='Gender', y='Score_diff_total', data = base_data)
plt.grid()
plt.show()

## 범주 데이터 확인 : value_counts()
base_data['Gender'].value_counts()

## 평균 분석 : ttest_ind

t_male = base_data.loc[base_data['Gender']=='M', 'Score_diff_total']
t_female = base_data.loc[base_data['Gender']=='F', 'Score_diff_total']

spst.ttest_ind(t_male, t_female)

3-2-2) 학습목표

# 그래프 분석 : barplot

plt.figure(figsize = (15,8))
sns.barplot(x='학습목표', y='Score_diff_total', data = base_data)
plt.grid()
plt.show()

## 범주 데이터 확인 : value_counts()
base_data['학습목표'].value_counts()

## 분산 분석 : f_oneway

anova_1 = base_data.loc[base_data['학습목표']=='승진', 'Score_diff_total']
anova_2 = base_data.loc[base_data['학습목표']=='자기계발', 'Score_diff_total']
anova_3 = base_data.loc[base_data['학습목표']=='취업', 'Score_diff_total']

spst.f_oneway(anova_1, anova_2, anova_3)

3-2-3) 학습방법

## 그래프 분석 : barplot

plt.figure(figsize = (15,8))
sns.barplot(x='학습방법', y='Score_diff_total', data = base_data)
plt.grid()
plt.show()

## 범주 데이터 확인 : value_counts()
base_data['학습방법'].value_counts()

## 분산 분석 : f_oneway

anova_1 = base_data.loc[base_data['학습방법']=='온라인강의', 'Score_diff_total']
anova_2 = base_data.loc[base_data['학습방법']=='오프라인강의', 'Score_diff_total']
anova_3 = base_data.loc[base_data['학습방법']=='참고서', 'Score_diff_total']

spst.f_oneway(anova_1, anova_2, anova_3)

3-2-4) 강의 학습 교재 유형

## 그래프 분석 : barplot

plt.figure(figsize = (15,8))
sns.barplot(x='강의 학습 교재 유형', y='Score_diff_total', data = base_data)
plt.grid()
plt.show()

## 범주 데이터 확인 : value_counts()
base_data['강의 학습 교재 유형'].value_counts()

## 분산 분석 : f_oneway

anova_1 = base_data.loc[base_data['강의 학습 교재 유형']=='일반적인 영어 텍스트 기반 교재', 'Score_diff_total']
anova_2 = base_data.loc[base_data['강의 학습 교재 유형']=='영상 교재', 'Score_diff_total']
anova_3 = base_data.loc[base_data['강의 학습 교재 유형']=='뉴스/이슈 기반 교재', 'Score_diff_total']
anova_4 = base_data.loc[base_data['강의 학습 교재 유형']=='비즈니스 시뮬레이션(Role Play)', 'Score_diff_total']

spst.f_oneway(anova_1, anova_2, anova_3, anova_4)

3-2-6) 취약분야 인지 여부

## 그래프 분석 : barplot

plt.figure(figsize = (15,8))
sns.barplot(x='취약분야 인지 여부', y='Score_diff_total', data = base_data)
plt.grid()
plt.show()

## 범주 데이터 확인 : value_counts()

base_data['취약분야 인지 여부'].value_counts()

## 평균 분석 : ttest_ind

t_yes = base_data.loc[base_data['취약분야 인지 여부']=='알고 있음', 'Score_diff_total']
t_no = base_data.loc[base_data['취약분야 인지 여부']=='알고 있지 않음', 'Score_diff_total']

spst.ttest_ind(t_yes, t_no)

'데이터_전처리, 분석기법, 시각화, 자료형 > 데이터 분석기법' 카테고리의 다른 글

데이터 분석기법] 상관관계 분석_피어슨 상관계수, regplot, heatmap (0)	2023.11.30

데이터 분석기법] 상관관계 분석_피어슨 상관계수, regplot, heatmap

하나둘셋넷_1234 2023. 11. 30. 18:13

2023. 11. 30. 18:13

피어슨 상관계수, regplot

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import scipy.stats as spst   

target = '등록차량수'

for feature in analyze_features:

    print(f"[{feature}] 통계 분석 및 그래프 분석")

    # 통계 분석 : 통계 분석

    print("   ***** 통계 분석 *****")
    result = spst.pearsonr(data[feature], data[target])
    print(feature, " vs ", target, " 상관 분석: ", spst.pearsonr(data[feature], data[target]))
    
    if result[1] > 0.05:
        print(f"통계분석 결과 : {feature}는 등록차량수에 영향을 주지 않는다")
    else:
        print(f"통계분석 결과 : {feature}는 등록차량수에 영향을 준다")

    # 그래프 분석 : regplot

    # plt.figure(figsize = (12,8))
    print("   ***** 그래프 분석 *****")
    sns.regplot(x = feature, y= target, data = data)
    plt.grid()
    plt.show()
    
    print("")
    print("-"*50)

heatmap

## 각 컬럼간 상관계수에 대한 heatmap 그래프 분석

plt.figure(figsize = (20,12))
sns.heatmap(data[col_num].corr(),cmap="PiYG", annot=True)
plt.show()

'데이터_전처리, 분석기법, 시각화, 자료형 > 데이터 분석기법' 카테고리의 다른 글

데이터 분석기법] 카이제곱검정, anova(f_oneway), ttest_p-value, barbplot (0)	2023.11.30

하나둘셋넷

데이터_전처리, 분석기법, 시각화, 자료형/데이터 분석기법

데이터 분석기법] 카이제곱검정, anova(f_oneway), ttest_p-value, barbplot

범주형 feature -> 수치형 target

카이제곱 검정, ttest, ANOVA 검정에서의 p_value의 의미

'데이터_전처리, 분석기법, 시각화, 자료형 > 데이터 분석기법' 카테고리의 다른 글

데이터 분석기법] 상관관계 분석_피어슨 상관계수, regplot, heatmap

피어슨 상관계수, regplot

heatmap

'데이터_전처리, 분석기법, 시각화, 자료형 > 데이터 분석기법' 카테고리의 다른 글

+ Recent posts

티스토리툴바