출처: https://astrocosmos.tistory.com/202 [ASTROCOSMOS:티스토리] '분산' 태그의 글 목록 :: 하나둘셋넷
728x90

[메타코드 강의 후기] 메타코드 머신러닝 입문 부트캠프 - "Bias and variance Trade-off"

메타코드M (metacodes.co.kr)

 

머신러닝 입문 부트캠프ㅣKAIST AI 박사과정

 

www.metacodes.co.kr

안녕하세요 메타코드 서포터즈 5기 송주영입니다.

머신러닝을 공부함에 있어서 코딩으로 넘어가기 전에 기초 이론을 다지는 이 부분이 쉽게 않게 느껴지네요.

통계학과나 수학과 분들이 부러워지는 순간이었어요

그래도 힘내서 끝까지 완주해보겠습니다!

 

Training Data vs Test Data

데이터를 받게 된다면 하나의 데이터셋을 통째로 받게 됩니다.

이 데이터셋에 대해 일정 퍼센티지에 따라서 학습용으로 사용할 데이터와 평가용으로 사용할 데이터로 나눕니다.

데이터를 나누는 과정에서는 랜덤 샘플링 과정을 수행합니다.

보통 학습용으로 80%를 정하고 20%를 평가 데이터로 할당합니다.

 

모델의 복잡도

모델의 복잡도는 선형에서 비선형으로 갈수록 더 올라갑니다.

선형 함수는 단순히 기울기와 절편으로 이루어져 있고, 차수가 올라갈수록 파라미터가 하나씩 증가하는 것을 생각해보면 당연합니다.

모델이 복잡해질수록 학습 데이터를 잘 학습한다는 장점을 갖습니다.

대신, 모델이 복잡한데 데이터가 모자르다면 충분한 학습이 이루어지 지지 않는 Under-fitting 현상이 발생하기 때문에 무조건 좋은 것은 아닙니다.

 

편향과 분산 - (1)

편향과 분산은 모두 알고리즘이 가지고 있는 에러의 종류로서 이들을 합친 것이 MSE 값입니다.

평균에 대한 분배 법칙을 따라서 해당 수식을 전개하는 과정입니다.

$\theta  $는 우리가 모르는 어떤 특정값을 말합니다. 따라서 정해진 값이기 때문에 랜덤성, 평균이 없습니다.

따라서 수식에서 3번째 항은 그대로 나온 모습을 보입니다.

 

편향과 분산 - (2)

편향은 실제값과 예측값의 차이를 말합니다.

이는 학습 데이터에 대한 정확도라고 이해할 수도 있습니다.

분산은 예측값의 범위를 말합니다. 따라서 분산이 크다면 첫 번째 예측값과 두 번째 예측값이 크게 달라지게 됩니다.

분산이 적다면 여러 번 추정을 하더라도 비슷한 값을 가지게 될 것이다.

 

편향과 분산 - (3)

편향은 정답과 예측값의 차이를 말합니다.

이 그림에서는 빨간색 점을 정답, 파란색 점은 예측으로 표현했습니다.

Low Variance 상태를 보면 파란색 점들이 뭉쳐 있는 모습을 보이고, Low Bias일 때는 빨간색 점과 파란색 점과의 거리가 좁은 모습을 보입니다.

즉 Variance는 정답 여부를 떠나서, 얼마나 일정한 값을 도출하는가를 말합니다.

 

편향과 분산 - (3)

그래프에서 X축의 좌측은 선형 모델, 우측은 비선형 모델에 해당합니다.

모델의 복잡도가 낮을수록, 즉 선형 모델에 가까울수록 편향값은 커지지만 Variance 값은 작은 모습을 보입니다.

모델이 단순하기 때문에 에러가 발생하더라도 일정한 모습을 보이고, 이로 인해 Variance 값이 작습니다.

대신 선형 모델에서는 파라미터가 적기 때문에 편향값은 커집니다.

똑같은 데이터셋이 들어올 때 모델의 복잡도가 커지면, Under-fitting이 발생하고 이는 편향에 영향을 주며, 분산은 반대로 Over-fitting이 발생합니다.

 

 

728x90
728x90

[메타코드 강의 후기] 통계 기초의 모든것 올인원 - 이원배치 분산분석_240623

메타코드M (metacodes.co.kr)

 

통계 기초의 모든것 올인원 [ 1편, 2편 ]ㅣ18만 조회수 검증

 

www.metacodes.co.kr

안녕하세요 메타코드 서포터즈로 활동하고 있는 송주영입니다.

저는 작년 하반기부터 데이터 분석가의 꿈을 꾸고 이 분야를 공부하기 시작했어요.

 

메타코드는 데이터 분석, 인공지능 등 다양한 분야의 강의를 제공하고 있는 강의 사이트입니다. 이 분야의 입문자들에게는 어떤 강의가 좋을지 직관적으로 안내해주는 것이 메타코드 사이트의 장점이라고 생각합니다. 꾸준히 이벤트도 진행하고 있으니 가벼운 마음으로 방문해보셔도 좋을거 같아요

 

요새 꾸준히 공부하기가 어려워서ㅠ 서포터즈 활동을 하면 보다 몰입감을 가지고 강의를 들을 수 있을거 같아서 시작했고, 메타코드가 성장하는 모습을 보니 간접적으로나마 기여했다는 생각이 들어서 뿌듯함 또한 느끼고 있습니다.

 

"통계 기초의 모든 것 올인원" 강의 중 이원배치 분산분석에 대한 강의 후기 작성해봤습니다.

 

반복이 없는 경우 이원배치 분산분석 Table

왼쪽이 인자 A에 대한 treatment이다.

MBTI라고 생각하면 위에서부터 ISFJ, ENFP 이렇게 내려온다고 생각하자

B에 대해서는 성격, 혈액형을 예시로 생각해보자

각 열에 대하여 B에 대한 number는 고정되어 있고, A에 대한 number가 변화함을 확인하자

. (점)이 찍혀있는 것은 어떤 인자를 평균으로 바꾸었는지를 나타낸다.

 

반복이 없는 경우 이원배치 분산분석 관찰모형

 

큰 틀에서는 일원 분산분석과 비슷하고, 교호작용이 추가되었다.

신경 써야할 부분은 Notation이 더 추가되었기 때문에 이에 대해 정확히 파악하는 것이다.

관찰값 모형의 역할은 큰 가이드라인이다. 이 모형에 따라서 각각의 항들을 찾아가야 한다.

관찰값 모형을 간단하게 만듦으로써 이미 연구가 되어있는 값들을 가져올 수 있게 된다.

 

반복이 없는 경우 이원배치 분산분석 제곱합 분해

제곱합 공식을 보면, 앞 부분은 처리에 의한 효과(집단 간 변동)을 말하고, 뒷 부분은 잔차에 대한 값을 표현한다.

SST는 일원 분산분석과 같고,

뒤의 두 항은 각각 A에 의한 처리효과와 B에 의한 처리효과를 나타낸다.

마지막 항은 잔차에 대한 값이다.

 

반복이 없는 경우 이원배치 분산분석 ANOVA Table

Table을 작성해보면 A와 B의 자유도는 각각 ( p - 1 ), ( q - 1 )이 된다.

각각의 요인이 가질 수 있는 레벨의 갯수에서 1을 뺀 값을 말한다.

F 통계량은 MSE를 분모로 둔 상태에서 내가 검증하고 싶은 요인을 분자에 넣으면 구할 수 있다.

F 분포를 사용하는데, 단측 검정이기 때문에 일원 분산분석에서와 마찬가지로 통계량 값을 그대로 사용해야 한다.

 

반복이 있는 경우의 이원배치 분산분석

이원배치 분산분석에서 반복이 있는 경우에 대한 내용이다.

주효과 분석은 일원배치 분산분석에서와 마찬가지로 각각의 인자에 의한 효과를 말한다.

상호작용 효과는 주 효과들 간에 교호작용을 말한다.

예를 들면, 인자 A(성적)에 의해 종속변수(독서시간)가 변화를 나타내는데 인자 B(혈액형) 또한 영향을 주는 상황을 말한다.

 

반복이 있는 경우의 이원배치 분산분석 관찰모형

이원배치 분산분석에서 반복이 있는 경우의 관찰값 모형이다.

반복이 없는 경우의 식과 비교하면, 감마값이 추가되었다는 차이가 있다.

감마는 인자들 간에 교호작용에 대한 값을 말한다.

오차항의 경우, 일원배치 분산분석에서 배웠던 오차항에 대한 기본 가정을 따르고 있어야 한다.

 

강의후기

 

저번 일원배치 분산분석 강의보다 식에 Notation이 많아져서 힘들게 느껴졌네요ㅠ

강의를 들으면서 중간중간에 정지를 하고 정리하는 시간을 많이 가졌어요

저번 강의에서처럼 MBTI, 성적 등을 예시로 들며 설명해주셔서 그래도 이해할 수 있었던거 같아요

좀 더 난이도가 높아졌지만, 더 어려웠던 만큼 다 듣고 정리하니 성취감이 더 크게 다가오네요

 

데이터 분석을 하다보면 코딩 스킬에 그치지 않고, 통계 지식을 체계적으로 쌓는 것이 중요한데 메타코드에서 이러한 강의를 들으니 큰 도움이 된다고 느껴집니다

 

 

728x90
728x90

[메타코드 강의 후기] 통계 기초의 모든것 올인원 - 일원분산분석_240623

메타코드M (metacodes.co.kr)

 

통계 기초의 모든것 올인원 [ 1편, 2편 ]ㅣ18만 조회수 검증

 

www.metacodes.co.kr

안녕하세요 메타코드 서포터즈로 활동하고 있는 송주영입니다.

저는 작년 하반기부터 데이터 분석가의 꿈을 꾸고 이 분야를 공부하기 시작했어요.

 

메타코드는 데이터 분석, 인공지능 등 다양한 분야의 강의를 제공하고 있는 강의 사이트입니다. 이 분야의 입문자들에게는 어떤 강의가 좋을지 직관적으로 안내해주는 것이 메타코드 사이트의 장점이라고 생각합니다. 꾸준히 이벤트도 진행하고 있으니 가벼운 마음으로 방문해보셔도 좋을거 같아요

 

요새 꾸준히 공부하기가 어려워서ㅠ 서포터즈 활동을 하면 보다 몰입감을 가지고 강의를 들을 수 있을거 같아서 시작했고, 메타코드가 성장하는 모습을 보니 간접적으로나마 기여했다는 생각이 들어서 뿌듯함 또한 느끼고 있습니다.

 

"통계 기초의 모든 것 올인원" 강의 중 일원배치 분산분석에 대한 강의 후기 작성해봤습니다.

 

분산분석, 기본가정

반응변수는 종속변수와 같은 개념이다.

인자의 경우 독립변수의 개념이며, 반응변수에 어떠한 영향을 주는지 알아보는 것이 목표이다.

MBTI를 예시로 들면, MBTI 하나하나의 특성이 “처리(treatment)” 개념의 수준의 개념이다. 즉 16가지의 수준이 존재

분석에 앞서서 정규분포, 등분산, 오차가 독립이다는 기본 가정을 확인해야 한다.

 

분산분석의 식과 종류

그룹 간 변동이 우리가 검정하고 싶은 내용이다.

즉 MBTI가 그룹별로 어떻게 나눠지는지 등의 내용을 말한다.

그룹내 변동은 말 그대로 같은 집단 안에서 어느 정도의 차이가 있는지를 말한다.

인자가 몇 개인지에 따라 “일원배치분산분석”인지 “이원배치분산분석”인지로 나뉜다.

“이원배치분산분석”의 경우 인자가 두 개이므로 이들의 교호 작용 또한 생각해야 한다.

 

일원배치 분산분석

일원배치 분산분석에서 k개의 모집단의 개념을 보면, k는 요인이 취할 수 있는 값의 개수를 말한다.

Unique한 값의 개수를 말한다.

앞서 배웠던 기본 가정대로 각 집단은 독립이고 정규분포를 따라야 한다.

분산은 같아야 하지만, 평균은 다를 수 있음을 유의해야 한다.(*MBTI를 예시로 생각하면 이해가 쉽다)

 

반복수가 같은 경우의 일원배치 분산분석 표

반복수 : 특정 처치를 가할 때 그 안에 그룹이 몇 개가 있는가?

예시로는 “MBTI 별로 그 집단 안에 몇 명이 있는지”를 들 수 있다.

처리별로 본다면 각 처리별로는 크기가 n으로 동일하다.

y11에서 앞 부분이 k에 해당하고 뒷 부분의 숫자가 샘플의 숫자를 의미한다.

입실론은 개별 관측값이 가질 수 있는 오차를 말한다.

 

일원배치의 관찰값 모형

알파 i 가 우리가 관심을 가져야 하는 대상이다.

알파 i는 MBTI라고 한다면, 그 안의 특성이 어느 정도의 영향을 주는 지를 말한다.

모평균과 전체 모평균과의 차이가 얼마나 나는지를 확인하면 영향력을 파악할 수 있다.

수식을 관찰하면, 위 식에서 ( 뮤 i - 뮤 ) = ( 알파 i )가 된다.

 

일원배치 분산분석에서 오차항 가정의 중요성

분산분석을 진행한 이후에는 오차항에 대해 집중적으로 검증을 한다.(=잔차 진단)

오차항이 아래의 4가지 조건을 모두 만족하는 지를 확인하는 과정을 말한다.

오차가 있어야 분석이 의미있는 것이기 때문에, 오차항 검증이 중요성을 갖는다.

귀무가설 식에서 ( 뮤 i )와 ( 알파 i )가 같은 것은 관찰값 모형식에서 보면 ( 뮤 )는 하나의 상수값으로 볼 수 있기 때문이다.

 

제곱합 분해

식의 각 부분을 구분하자면 앞 부분은 처리 효과에 대한 값이고 뒷 부분은 잔차에 대한 값이다.

식에서 SST는 Sum of Squares Total로 잔차들의 총합을 말하고,

처리간 분산 SSt는 Sum of Squares Treatment로 처리 효과의 합,

처리 내 분산 SSE는 Sum of Squares Error로 잔차에 대한 값이다.

 

평균 제곱

평균제곱은 Mean Squares total로 제곱합에서의 값을 자유도로 나눈 값을 의미한다.

평균제곱은 뷴산의 추정량(분산 estimator)에 해당한다.

목표는 집단 내 효과가 집단 간 효과보다 큰 것인가를 알아내는 것이다.

처리에 의한 효과가 더 커야 분산분석이 의미를 갖는다.

 

강의후기

 

이번 강의에서는 수식과 각 수식에 대한 Notation이 많아서 집중을 하지 않으면 흐름을 놓치지 쉬웠어요

공식에 대한 증명을 해주시고, 이해하기 쉽게 MBI를 예시로 들어주신 것이 큰 도움이 되었어요!!

비전공자에게 어려운 부분이 있기도 했지만, 설명이 자세하여 그래도 들을만 했던 거 같아요

 

서포터즈로서 글을 작성하다보니 수업 때 배운 내용을 정리할 수 있어서 좋았어요

728x90
728x90

[통계 기초의 모든것 올인원] 메타코드 강의 후기 - 대응비교, 모비율, 모분산 비교

메타코드M (metacodes.co.kr)

 

통계 기초의 모든것 올인원 [ 1편, 2편 ]ㅣ18만 조회수 검증

 

www.metacodes.co.kr

 

대응비교

paired t-test, 같은 개체에 대하여 실험 전후 값을 측정한다.

따라서 독립이라고 보기는 어렵다. ⇒ 독립 가정이 빠진다.

대응표본은 독립이 아닌 것을 말하며, 이들을 통해 비교를 수행하는 것이 대응비교의 개념이다.

모표분편차가 들어가지 않기 때문에 표본 표분편차를 사용하고 t 분포를 따르는 통계량을 사용한다.

 

두 모비율 비교

Variance는 독립이라면 괄호 안이 각각 더하기로 나누어질 수 있다.

표본의 크기가 큰 경우에 대한 수식은, Variance에 대해 식을 나누는 과정을 수행하고 각각에 대한 Var 값을 대입한 것이다.

마지막 식에서 분모 부분이 복잡하게 보이지만 단순하게 위에서의 Var 값을 대입한 것 뿐이다.

최종적으로는 표준정규분포를 따르게 됨을 말하며 따라서 Z 통계량을 사용한다.

 

두 모비율 비교

( 알파 / 2 ) 쓰여 있음을 통해 양측검정을 수행함을 알 수 있다.

“1. p1 - p2 신뢰구간” 수식에서 루트 안에 있는 값은 앞 슬라이드에서의 Variance에 해당하며, 두 집단이 독립이기 때문에 각각의 Variance를 더하기로 나눈 것이다.

“2. 표본의 크기가 큰 경우” 수식에서 귀무가설이 맞다면 기댓값 E는 당연하게 0이 된다.

공동 모비율 p의 합동 추정량 식은, 합동이라는 개념이므로 분자와 분모에 각각에 대한 합의 값이 적혀있다고 우선 받아들인다.

 

예시 문제

강의 A를 듣고 시험을 본 경우와 강의 B를 듣고 시험을 본 경우를 비교한 것이다.

강의 A의 합격률은 0.7, 강의 B의 경우 합격률은 0.6이 된다.

95%에 대한 신뢰 구간이므로 알파는 1-0.95 = 0.05가 된다.

양측 검정이므로 알파 = 0.025일 때의 Z 통계량 값은 1.96이 된다.

우측은 Standard Error 수식이다.

 

예시 문제 2

강의 A를 수강한 학생이 합격률이 더 높은지 확인하고 싶으므로, 귀무가설은 두 집단의 합격률이 같다가 된다.

합동추정량 계산에서 분모에는 각각의 표본의 숫자를 더하므로 100 + 150이 된다.

합격자에 대해서도 70 + 90이 된다.

위에서 구한 값들에 따라 계산을 진행하면 값은 1.6137이 된다.

 

모분산 비교

등분산 가정은 집단 간의 검정에 중요한 가정이 된다.

“2. 두 모분산 비교의 가정” 식에서 각각의 정규분포에 대해 시그마 값이 같게 되어 있고 서로 독립이라는 조건이 있으며,

이 경우에는 Levene’s Test를 사용한다고 되어 있다.

귀무가설은 두 모분산이 비율이 1이 된다(=같다)이다.

728x90
728x90

[통계 기초의 모든것 올인원] 메타코드 강의 후기 - 모분산, 두 집단 비교

메타코드M (metacodes.co.kr)

 

통계 기초의 모든것 올인원 [ 1편, 2편 ]ㅣ18만 조회수 검증

 

www.metacodes.co.kr

 

모분산 검정의 필요성, 예시

모분산 검정은 두 가지 집단이 모평균의 차이가 있냐 없냐를 판단할 때 중요하다.

왜냐하면, 그러한 검정은 두 집단의 모분산이 같다가 전제되어야 하기 때문이다.

등분산 조건을 의미한다.

이 문제에서 대립 가설은 분산이 0.1보다 작다는 것이 된다.

확률 표현은 오른쪽 영역을 기준으로 한다.

기각역은 10.117이 되는데 검정통계량 계산량은 9.5가 되므로 귀무가설을 기각할 수 있게 된다.

 

집단 비교

두 집단의 비교에는 분산이 고려되어야 한다는 것이 중요한 포인트이다.

분산이 고려되었을 때 객관적 비교가 가능하기 때문이다.

모분산은 아는데, 정규 모집단이면 Z 통계량을 사용한다.

모분산은 모르는데, 정규 모집단이긴 하다면,

모분산이 같은지 혹은 모분산이 다른지 확인하는 절차가 필요하다.

 

모분산 아는 경우의 모집단 비교

정규모집단 가정이 되어있는 상태이다.

기댓값 E의 경우 하나의 항에서 두 개의 항으로 분리가 가능하다.

이때, 각각의 기댓값은 뮤이다.

Variance는 분해를 할 때, 독립이라는 전제가 되어있다면 분해가 가능하다. 이때, 괄호 안이 + 부호이든 - 부호이든 더하기 형태로 분해된다.

 

모집단 비교 - 예시 #1

문제 조건에서 모분산을 알고 있다고 가정한다.

같은 지 물어보는 것이기 때문에 양측 검정에 해당한다.

대립 가설은 키 평균이 같지 않다는 것이 된다.

검정 통계량 식은 윗 슬라이드에 있던 내용이다.

검정은 귀무가설의 입장을 기준으로 한다. 즉, 일단 귀무 가설의 말이 맞다고 가정한다는 의미이다.

뮤 1과 뮤2는, 귀무가설이 “평균이 같다”이므로 0이 된다.

계산 결과가 2.63이므로 귀무가설을 기각할 수 있게 된다.

 

모집단 비교 - 예시 #2

t 통계량을 사용하는 경우의 문제이다.

귀무가설은 평균이 같다는 경우가 되고, 대립 가설은 같지 않다가 된다.

같지 않다가 조건이므로 양측 검정에 해당하며 ( 알파 / 2 ) 값을 확인한다.

이 문제에서는 계산 결과가 유의수준보다 크기 때문에 귀무가설을 기각할 수 있게 된다.

슬라이드에서 검정 통계량에 Z 가 아니라 T로 수정해야 한다.

 

모집단 비교 - 예시 #3

다른 조건은 같지만 분산이 다른 경우이다.

이분산인 경우에는 t 검정 통계량을 사용한다.

이분산이기 때문에 검정 통계량 식에서 s1, s2가 빠져나오지 못한다는 것이 앞의 문제와 차이이다.

밑의 자유도 식은 뒷 과정에서 다룰 것이다.

728x90
728x90

[통계 기초의 모든것 올인원] 메타코드 강의 후기 - 구간추정/표본크기결정, 검정

https://mcode.co.kr/video/list2?viewMode=view&idx=94

 

메타코드M

AI / 빅데이터 강의 플랫폼 & IT 현직자 모임 플랫폼 | 메타코드 커뮤니티 일원이 되시기 바랍니다.

www.metacodes.co.kr

 

모평균의 구간추정

- 표본 크기가 크지 않은 경우에,

만약 모분산을 안다면, 모분산 시그마와 Z 통계량을 사용한다.

모분산을 모르는 상황이라면 표본분산 S와 t 통계량을 사용해야 한다.

 

- 표본 크기가 크다면,

모분산을 안다면 모분산 시그마와 Z 통계량을 사용한다.

모분산을 모른다면 표본분산 S를 사용하는 것은 위와 동일하나 Z 통계량을 사용한다는 점에서 차이가 있다.

 

모비율의 구간추정

- B(1, p) 형태

 Binomial 분포에서 n이 1인 경우가 베르누이 분포이다.

 

- 근사신뢰구간

 앞에 비율에 대한 내용이 나오고, 그 뒤에 플러스(+), 마이너스(-) 연산을 하여 신뢰구간을 구한다.

 Bell Shaped이기 때문에 Z 통계량은 하나만 알면 된다.

 

추정 - 표본크기 결정

모비율 추정

- 만약 p에 대한 사전직이 없는 경우 보통 "1/2" 로 한다.

 밑의 식이 p를 "1/2" 로 계산하여 만든 식이다.

 두 번째 식의 경우에는 사전지식이 있는 경우로 p와 q의 곱으로 계산함을 확인할 수 있다.

 

검정

앞에서 수업한 대로 통계에서는 신뢰구간을 많이 사용한다.

가설 검정의 경우에는 두 집단 간의 차이가 있을 때, 어느 정도 수준부터 유의미한 차이가 있다고 봐야하는지 결정하는데에 사용한다.

통계적 검증 결과에 따라 귀무가설과 대립가설 중에서 어떤 것을 채택할지 결정한다.

강의에서는 출생률, 승률을 예시로 하였다.

 

가설의 종류

가설의 종류에는 귀무가설과 대립가설이 존재한다.

검정 과정에서는 귀무가설을 채택할 것인지, 기각할 것인지 정한다.

귀무 가설에서는 등호를 사용하는 것이 중요하다.

 

- 밑의 예시에서는

평균(뮤)가 0.6 이하인 것이"귀무가설", 0.6보다 크다는 것이 "대립가설"에 해당하며 등호를 사용한 것에 주목한다.

 

가설 설정의 오류

- 제 1종 오류는 귀무가설을 채택해야  했지만, 기각한 경우를 말한다.

 즉, 입증하고자 하는 내용이 맞았지만 기각했음을 말한다.

 예시) 신약이 효과가 없다는 가설을 채택해야 했는데, 기각한 경우

 

- 제 2종 오류는 귀무가설을 기각해야 했지만, 채택한 경우를 말한다.

 즉, 제 1종 오류의 반대의 경우를 말한다.

728x90
728x90

[통계 기초의 모든것 올인원] 메타코드 강의 후기 - t분포/F분포, 점추정/구간추정

https://mcode.co.kr/video/list2?viewMode=view&idx=94

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

표본분포 - t 분포

 

모집단의 표준편차를 모르면, 모표준편차 대신 표본표준편차를 사용한다?

자유도가 높은 것이 좋은 것이다?

=> 그렇지 않다, 임의로 결정될 수 있는 것이 늘어남에 따라 컨트롤하기 어려워진다.

X가 동일한 분포에서 나온 확률표본인데, 시그마를 모른다면 표본분산을 대신 사용할 수 있다.

이때, 표준정규분포가 아니라 t 분포를 따르게 된다.

 

표본분포 - t 분포 특징 정리

 

t 분포는 그림에서 볼 수 있듯이 정규분포보다 평평하게 나타나게 된다.

표본크기가 크다면, 분포가 중심부근에서 점점 뾰족해지는데 이때 표준크기가 30 이상이 된다면 정규분포에 근사하게 된다.

즉, 표본 30을 기준으로 이상이면 표준정규분포, 미만일 때는 t 분포가 된다.

t 분포는 모표준편차를 모르는 경우에 사용한다는 것이 가장 중요한 내용이다.

 

표본분포 - F 분포

V1을 본인의 모수로 나누어 주고, V2 또한 본인의 모수로 나누어 준다.

F 식에서 분자가 앞에 와야 한다는 것을 기억하자.

분산을 비교한다는 것은 회귀분석, 분산분석에서 중요하게 다루어지는 개념이다.

통계 분석에서 분산 분석은 가장 중요한 내용 중 하나이다.

 

표본분포 - 정리

정규분포는 모분산을 알고 있을 때, 모평균 혹은 두 모평균 차이에 대한 추정/검정을 할 때 사용한다.

이때, 모분산을 모르더라도 표본크기가 크다면 이를 동일하게 수행할 수 있다.

t 분포는 모분산을 모를 때 사용한다.

카이제곱분포는 모분산에 대한 추정/검정을 하고, F 분포는 두 모분산 차이에 대한 추정/검정에 사용한다.

 

점추정/구간추정

점 추정의 경우, 모수를 특정 값으로 추측한다.

신뢰도를 나타낼 수 없고, 오차에 대한 정보가 없다는 특징이 있다.

구간 추정은 점 추정과 달리, 모수를 특정 값이 아닌 구간으로 추정한다.

신뢰도를 나타낼 수 있다는 점이 점 추정과 다르다.

 

추정 - 점 추정

추정량(estimator)와 추정값(estimate)는 말은 비슷하지만 다른 개념이다.

이 강의에서는 추정량(Estimator)를 더 많이 사용할 것이다.

추정에서 사용되는 통계량을 통틀어서 통계량이라고 부른다.

추정값은 실제값을 의미한다. 즉 실제 계산된 결과를 말한다.

728x90
728x90

[통계 기초의 모든것 올인원] 메타코드 강의 후기 - "1강 통계량"

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

평균의 종류

산술 평균이란 모든 자료의 값을 더한 뒤에, 자료의 수로 나누어 준 값을 의미하며 평상 시에 자주 다루는 평균의 개념에 해당합니다.

산술 평균은 극단값에 영향을 받는다는 특징이 있고 이 부분은 데이터를 분석함에 있어 주의해야 할 부분입니다.

가중평균은 자료의 중요성이 다를 경우, 중요도에 따라 가중치를 부여한 평균을 의미합니다.

가중평균의 경우 분모를 보면, 자료의 갯수가 아닌 가중치의 합인 것을 볼 수 있으며 이 부분이 산술평균과 차이가 있습니다.

 

기하평균의 개념

기하평균의 경우, 비율에 대한 값을 다룰 때 사용하는 평균의 개념을 말합니다.

수업 때, 예시로서 내가 주식에서 100%의 수익을 달성하고 다음 날에 -100%의 손해를 발생했을 때, 이 비율에 대하여 산술평균으로 접근하면 오류가 생긴다는 상황을 들어주셨습니다.

이 예시를 통해, 보다 쉽게 이 개념을 받아들일 수 있었습니다.

위에서의 평균 개념들과 다르게 곱하고 제곱근을 한다는 특징이 있습니다.

 

분산, 표본분산

분산의 경우 편차 제곱의 합을 자료의 수로 나눈 값을 의미합니다.

여기에서 편차란 평균과 자료값의 차이를 의미합니다.

강의자료에서는 분모에 (n-1)이 적혀있는데 이는 표본분산인 경우를 의미합니다.

모분산의 경우는 n으로 나누며 시그마로 표시하고, 표본분산의 경우 (n-1)로 나누며 s로 표기합니다.

 

 

표준 편차에 식의 두 가지 형태

표준 편차 계산을 위한 수식을 2가지 배웠습니다.

저 두 수식이 왜 같은지에 대해 증명을 하는 과정을 보며, 이해도를 높일 수 있었습니다.

예제를 풀며 왜 두 가지 수식을 알고 있어야 하는지 느낄 수 있었습니다.

다양한 상황에서 데이터를 분석함에 있어서는 같은 개념에 대해서도 여러 가지 형태의 수식을 배워두면 유용할 것임을 배웠습니다.

 

왜도, 첨도

왜도의 경우 분포의 비대칭도가 어느정도 되는지 나타내는 수치로 영어로는 Skewness라고 합니다.

오른쪽으로 긴 꼬리가 있는 경우를 Positive Skew라고 합니다.

이 때는 양의 값으로 이상치가 있는 경우를 의미하기 때문에 평균이 이에 영향을 받아 중앙값보다 우측으로 위치하는 특징을 보입니다.

반대로 음의 값으로 이상치가 있는 경우는 Negative Skew라고 하며 Positive Skew와는 반대의 상황을 보입니다.

 

상관성 분석

상관성에 대한 개념과 공분산, 상관계수에 대한 개념을 배웠습니다.

상관계수는 확률변수 간의 변화가 서로 어느 정도로 관계가 있는 정도를 나타내는 값입니다.

절대값이 1에 가까울수록 상관관계가 강함을 의미하며, +1에 가까운 경우는 양의 상관 관계에 해당하고, -1에 가까울 경우에는 음의 상관관계에 해당합니다.

단, 특정 구간을 기준으로 양의 선형관계와 음의 선형관계가 달라지는 자료라면 상관계수 값으로는 0에 가깝게 나오겠지만 제대로 된 분석을 하지는 않을 것이므로 이 수치만을 보고 판단해서는 안된다고 배웠습니다.

 

728x90

+ Recent posts