출처: https://astrocosmos.tistory.com/202 [ASTROCOSMOS:티스토리] '평균' 태그의 글 목록 :: 하나둘셋넷
728x90

[메타코드 강의 후기] 통계 기초의 모든것 올인원 - 일원분산분석_240623

메타코드M (metacodes.co.kr)

 

통계 기초의 모든것 올인원 [ 1편, 2편 ]ㅣ18만 조회수 검증

 

www.metacodes.co.kr

안녕하세요 메타코드 서포터즈로 활동하고 있는 송주영입니다.

저는 작년 하반기부터 데이터 분석가의 꿈을 꾸고 이 분야를 공부하기 시작했어요.

 

메타코드는 데이터 분석, 인공지능 등 다양한 분야의 강의를 제공하고 있는 강의 사이트입니다. 이 분야의 입문자들에게는 어떤 강의가 좋을지 직관적으로 안내해주는 것이 메타코드 사이트의 장점이라고 생각합니다. 꾸준히 이벤트도 진행하고 있으니 가벼운 마음으로 방문해보셔도 좋을거 같아요

 

요새 꾸준히 공부하기가 어려워서ㅠ 서포터즈 활동을 하면 보다 몰입감을 가지고 강의를 들을 수 있을거 같아서 시작했고, 메타코드가 성장하는 모습을 보니 간접적으로나마 기여했다는 생각이 들어서 뿌듯함 또한 느끼고 있습니다.

 

"통계 기초의 모든 것 올인원" 강의 중 일원배치 분산분석에 대한 강의 후기 작성해봤습니다.

 

분산분석, 기본가정

반응변수는 종속변수와 같은 개념이다.

인자의 경우 독립변수의 개념이며, 반응변수에 어떠한 영향을 주는지 알아보는 것이 목표이다.

MBTI를 예시로 들면, MBTI 하나하나의 특성이 “처리(treatment)” 개념의 수준의 개념이다. 즉 16가지의 수준이 존재

분석에 앞서서 정규분포, 등분산, 오차가 독립이다는 기본 가정을 확인해야 한다.

 

분산분석의 식과 종류

그룹 간 변동이 우리가 검정하고 싶은 내용이다.

즉 MBTI가 그룹별로 어떻게 나눠지는지 등의 내용을 말한다.

그룹내 변동은 말 그대로 같은 집단 안에서 어느 정도의 차이가 있는지를 말한다.

인자가 몇 개인지에 따라 “일원배치분산분석”인지 “이원배치분산분석”인지로 나뉜다.

“이원배치분산분석”의 경우 인자가 두 개이므로 이들의 교호 작용 또한 생각해야 한다.

 

일원배치 분산분석

일원배치 분산분석에서 k개의 모집단의 개념을 보면, k는 요인이 취할 수 있는 값의 개수를 말한다.

Unique한 값의 개수를 말한다.

앞서 배웠던 기본 가정대로 각 집단은 독립이고 정규분포를 따라야 한다.

분산은 같아야 하지만, 평균은 다를 수 있음을 유의해야 한다.(*MBTI를 예시로 생각하면 이해가 쉽다)

 

반복수가 같은 경우의 일원배치 분산분석 표

반복수 : 특정 처치를 가할 때 그 안에 그룹이 몇 개가 있는가?

예시로는 “MBTI 별로 그 집단 안에 몇 명이 있는지”를 들 수 있다.

처리별로 본다면 각 처리별로는 크기가 n으로 동일하다.

y11에서 앞 부분이 k에 해당하고 뒷 부분의 숫자가 샘플의 숫자를 의미한다.

입실론은 개별 관측값이 가질 수 있는 오차를 말한다.

 

일원배치의 관찰값 모형

알파 i 가 우리가 관심을 가져야 하는 대상이다.

알파 i는 MBTI라고 한다면, 그 안의 특성이 어느 정도의 영향을 주는 지를 말한다.

모평균과 전체 모평균과의 차이가 얼마나 나는지를 확인하면 영향력을 파악할 수 있다.

수식을 관찰하면, 위 식에서 ( 뮤 i - 뮤 ) = ( 알파 i )가 된다.

 

일원배치 분산분석에서 오차항 가정의 중요성

분산분석을 진행한 이후에는 오차항에 대해 집중적으로 검증을 한다.(=잔차 진단)

오차항이 아래의 4가지 조건을 모두 만족하는 지를 확인하는 과정을 말한다.

오차가 있어야 분석이 의미있는 것이기 때문에, 오차항 검증이 중요성을 갖는다.

귀무가설 식에서 ( 뮤 i )와 ( 알파 i )가 같은 것은 관찰값 모형식에서 보면 ( 뮤 )는 하나의 상수값으로 볼 수 있기 때문이다.

 

제곱합 분해

식의 각 부분을 구분하자면 앞 부분은 처리 효과에 대한 값이고 뒷 부분은 잔차에 대한 값이다.

식에서 SST는 Sum of Squares Total로 잔차들의 총합을 말하고,

처리간 분산 SSt는 Sum of Squares Treatment로 처리 효과의 합,

처리 내 분산 SSE는 Sum of Squares Error로 잔차에 대한 값이다.

 

평균 제곱

평균제곱은 Mean Squares total로 제곱합에서의 값을 자유도로 나눈 값을 의미한다.

평균제곱은 뷴산의 추정량(분산 estimator)에 해당한다.

목표는 집단 내 효과가 집단 간 효과보다 큰 것인가를 알아내는 것이다.

처리에 의한 효과가 더 커야 분산분석이 의미를 갖는다.

 

강의후기

 

이번 강의에서는 수식과 각 수식에 대한 Notation이 많아서 집중을 하지 않으면 흐름을 놓치지 쉬웠어요

공식에 대한 증명을 해주시고, 이해하기 쉽게 MBI를 예시로 들어주신 것이 큰 도움이 되었어요!!

비전공자에게 어려운 부분이 있기도 했지만, 설명이 자세하여 그래도 들을만 했던 거 같아요

 

서포터즈로서 글을 작성하다보니 수업 때 배운 내용을 정리할 수 있어서 좋았어요

728x90
728x90

[통계 기초의 모든것 올인원] 메타코드 강의 후기 - 점추정/구간추정

https://mcode.co.kr/video/list2?viewMode=view&idx=94

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

추정 - 점 추정 => 불편성, 유효성

- 불편성은 편향이 되지 않는다는 것을 의미한다.

(n-1)으로 나누는 이유는 모수의 불편성을 만족시키기 위함이다.

- 유효성은 추정량의 표준오차로 흩어짐의 정도를 나타내는 측도로,

불편추정량 "세타 1"이 "세타 2"보다 작다면 추정량 "세타 1"이 더 유효하다.

 

점 추정 - 모평균의 추정, 오차한계

모평균의 추정에는 주로 표본평균을 사용한다.

모표준편차를 알면 시그마, 모른다면 표본 표준편차 s를 사용한다.

오차 한계에서, 해당 수식의 경우 모평균을 1,000번 추정했을 때, 오차범위 내에 있는 값이 954번 나올 확률을 의미한다.

한계값 수식은 ( 2 시그마 ) / ( 루트 n )이다.

 

추정 - 점 추정 => 모비율의 추정

식에서 X는 확률 변수에 해당한다.

X는 어떤 특정 사건의 발생 횟수를 말한다.

X는 이산형 확률변수로 모델링을 해야하며 B(n, p)로 binomial 분포를 따른다.

n에는 전체 횟수, p는 특정 사건의 횟수를 말한다.

일치성은 표본의 갯수 증가할수록 추정량이 모수로 수렴하는 성질을 말한다.

 

추정 - 구간추정

보통 추정을 할 때는 구간추정을 많이 사용한다.

(알파 = 0.05)로 한다면 (1 - 알파 ) = 0.95가 된다.

식에 대입하면 모수 세타가 a와 b 사이에 위치할 확률이 95%라는 의미가 된다.

신뢰구간은 모수를 포함할 것으로 추정한 구간을 말한다.

 

모평균의 구간추정

모분산을 안다면 정규분포를 사용한다.

즉, Z 통계량을 사용하게 된다.

90%, 95%, 99% 신뢰구간에 대한 Z 통계량 값은 자주 나오는 개념이므로 외워둔다면 도움이 된다.

주로 양측 검증을 하게 되므로 10% 를 예시로 든다면 0.05에 대한 Z 통계량을 사용하는 것이다.

표준정규분포이므로, 0을 기준으로 대칭이기 때문에 하나의 Z 통계량 값만 안다면 반대쪽의 Z 값도 아는 것이 된다.

 

추정 - 모평균의 구간추정

모분산을 모르는 경우라면 t 통계량을 사용한다.

단, 표본크기가 클 경우에는 Z 통계량을 사용할 수 있게 된다.

모분산을 모르는 상황이므로 수식에서 표본 표준편차 s 를 사용함을 확인할 수 있다.

관심 대상은 모수로, 모수가 어느 구간에 속할 것인가에 초점을 맞추면 된다.

728x90
728x90

[통계 기초의 모든것 올인원] 메타코드 강의 후기 - 연속확률분포, 통계적 추정

https://mcode.co.kr/video/list2?viewMode=view&idx=94

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

메타코드의 "통계 기초의 모든 것 올인원[1편, 2편]"에 대한 수업 후기입니다.

메타코드에는 통계 강의를 포함하여 데이터 분석, 인공지능 등 다양한 강의를 제공하니 데이터 분석 혹은 인공지능 분야에 관심이 있다면 이용해보시길 추천드립니다.

 

연속확률분포 예제 1

표본평균의 공식은 시그마 X를 n으로 나누는 것이다.

이 공식을 Variance(분산) 식에 대입한다.

이때, n은 상수이므로 Var 공식에서 바깥으로 뺄 수 있다. 이때, n은 제곱의 형태로 나오게 된다.

같은 모집단에서 나왔으므로 X들에 시그마 제곱을 대입할 수 있고 결과적으로 (시그마 제곱) / n 의 형태로 공식을 유도할 수 있다.

 

연속확률분포 예제 2

표본은 100명이고, 표본의 평균이 70, 표본의 표준편차는 10인 상황이다.

중요한 가정 중 하나는 성적이 정규분포를 따른다는 것이다.

이 문제의 경우, 학생 수를 물어본다는 것이 특이한데 결과적으로는 확률을 계산하는 것이 문제이다.

표준화 공식을 적용하면 좌측은 (60-70) / 10 => -1 이 되고 (60-70) / 10 => +1이 된다.

정규분포의 특징은 양측이 종 모양으로 같다는 것이다. 따라서 0.159 X 2 = 0.318이 된다.

최종적으로 정답은 100 X 0.682 = 62.8명이 된다.

 

연속확률분포 예제 3

문제에서 P(X<5) = 0.5 조건을 주었다.

정규분포는 기댓값을 기준으로 하여 좌우 대칭이 된다.

따라서 각각 확률을 의미하는 면적이 0.5이 됨을 의미한다.

따라서 조건으로 준 5가 기대값이 된다.

 

연속확률분포 예제 4

샘플 사이즈가 충분히 크다면 정규분포가 된다. 표본이 20으로 주어졌으므로 이 문제에서는 해당하지 않는 사항이다.

표본평균의 확률분포를 묻는 것이 문제이다.

모집단 자체가 정규분포를 따른다고 했기 때문에 표본평균의 확률분포는 정규분포를 따를 것이다.

표본평균의 기댓값은 모평균(뮤)와 같다. 표본평균의 Variance는 (시그마 제곱) / n 이다.

 

통계적 추정

통계적 추정이란 데이터를 샘플링하여 모집단에 대한 추론을 한다는 것을 의미한다.

모평균은 "대한민국 모든 사람들의 키의 평균을 알고 싶어" 등이 해당한다.

이에 대하여 단일한 값으로 추정한다면 점추정에 해당한다.

만일 구간으로 추정을 한다면 구간 추정에 해당하는 것이다.

 

통계적 추정 : 기준

통계적 추정이 올바른 것인지 판단하기 위한 기준 4가지이다.

불편성에서 "편"이란 편향, bias를 의미한다.

유효성이란 불편성이 보장된 상태에서 확인하는 값이다.

일치성과 충분성은 강의자료에 적힌 그대로 이해하면 된다.

728x90

+ Recent posts