출처: https://astrocosmos.tistory.com/202 [ASTROCOSMOS:티스토리] '표본' 태그의 글 목록 :: 하나둘셋넷
728x90

[통계 기초의 모든것 올인원] 메타코드 강의 후기 - 대응비교, 모비율, 모분산 비교

메타코드M (metacodes.co.kr)

 

통계 기초의 모든것 올인원 [ 1편, 2편 ]ㅣ18만 조회수 검증

 

www.metacodes.co.kr

 

대응비교

paired t-test, 같은 개체에 대하여 실험 전후 값을 측정한다.

따라서 독립이라고 보기는 어렵다. ⇒ 독립 가정이 빠진다.

대응표본은 독립이 아닌 것을 말하며, 이들을 통해 비교를 수행하는 것이 대응비교의 개념이다.

모표분편차가 들어가지 않기 때문에 표본 표분편차를 사용하고 t 분포를 따르는 통계량을 사용한다.

 

두 모비율 비교

Variance는 독립이라면 괄호 안이 각각 더하기로 나누어질 수 있다.

표본의 크기가 큰 경우에 대한 수식은, Variance에 대해 식을 나누는 과정을 수행하고 각각에 대한 Var 값을 대입한 것이다.

마지막 식에서 분모 부분이 복잡하게 보이지만 단순하게 위에서의 Var 값을 대입한 것 뿐이다.

최종적으로는 표준정규분포를 따르게 됨을 말하며 따라서 Z 통계량을 사용한다.

 

두 모비율 비교

( 알파 / 2 ) 쓰여 있음을 통해 양측검정을 수행함을 알 수 있다.

“1. p1 - p2 신뢰구간” 수식에서 루트 안에 있는 값은 앞 슬라이드에서의 Variance에 해당하며, 두 집단이 독립이기 때문에 각각의 Variance를 더하기로 나눈 것이다.

“2. 표본의 크기가 큰 경우” 수식에서 귀무가설이 맞다면 기댓값 E는 당연하게 0이 된다.

공동 모비율 p의 합동 추정량 식은, 합동이라는 개념이므로 분자와 분모에 각각에 대한 합의 값이 적혀있다고 우선 받아들인다.

 

예시 문제

강의 A를 듣고 시험을 본 경우와 강의 B를 듣고 시험을 본 경우를 비교한 것이다.

강의 A의 합격률은 0.7, 강의 B의 경우 합격률은 0.6이 된다.

95%에 대한 신뢰 구간이므로 알파는 1-0.95 = 0.05가 된다.

양측 검정이므로 알파 = 0.025일 때의 Z 통계량 값은 1.96이 된다.

우측은 Standard Error 수식이다.

 

예시 문제 2

강의 A를 수강한 학생이 합격률이 더 높은지 확인하고 싶으므로, 귀무가설은 두 집단의 합격률이 같다가 된다.

합동추정량 계산에서 분모에는 각각의 표본의 숫자를 더하므로 100 + 150이 된다.

합격자에 대해서도 70 + 90이 된다.

위에서 구한 값들에 따라 계산을 진행하면 값은 1.6137이 된다.

 

모분산 비교

등분산 가정은 집단 간의 검정에 중요한 가정이 된다.

“2. 두 모분산 비교의 가정” 식에서 각각의 정규분포에 대해 시그마 값이 같게 되어 있고 서로 독립이라는 조건이 있으며,

이 경우에는 Levene’s Test를 사용한다고 되어 있다.

귀무가설은 두 모분산이 비율이 1이 된다(=같다)이다.

728x90
728x90

[통계 기초의 모든것 올인원] 메타코드 강의 후기 - t분포/F분포, 점추정/구간추정

https://mcode.co.kr/video/list2?viewMode=view&idx=94

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

표본분포 - t 분포

 

모집단의 표준편차를 모르면, 모표준편차 대신 표본표준편차를 사용한다?

자유도가 높은 것이 좋은 것이다?

=> 그렇지 않다, 임의로 결정될 수 있는 것이 늘어남에 따라 컨트롤하기 어려워진다.

X가 동일한 분포에서 나온 확률표본인데, 시그마를 모른다면 표본분산을 대신 사용할 수 있다.

이때, 표준정규분포가 아니라 t 분포를 따르게 된다.

 

표본분포 - t 분포 특징 정리

 

t 분포는 그림에서 볼 수 있듯이 정규분포보다 평평하게 나타나게 된다.

표본크기가 크다면, 분포가 중심부근에서 점점 뾰족해지는데 이때 표준크기가 30 이상이 된다면 정규분포에 근사하게 된다.

즉, 표본 30을 기준으로 이상이면 표준정규분포, 미만일 때는 t 분포가 된다.

t 분포는 모표준편차를 모르는 경우에 사용한다는 것이 가장 중요한 내용이다.

 

표본분포 - F 분포

V1을 본인의 모수로 나누어 주고, V2 또한 본인의 모수로 나누어 준다.

F 식에서 분자가 앞에 와야 한다는 것을 기억하자.

분산을 비교한다는 것은 회귀분석, 분산분석에서 중요하게 다루어지는 개념이다.

통계 분석에서 분산 분석은 가장 중요한 내용 중 하나이다.

 

표본분포 - 정리

정규분포는 모분산을 알고 있을 때, 모평균 혹은 두 모평균 차이에 대한 추정/검정을 할 때 사용한다.

이때, 모분산을 모르더라도 표본크기가 크다면 이를 동일하게 수행할 수 있다.

t 분포는 모분산을 모를 때 사용한다.

카이제곱분포는 모분산에 대한 추정/검정을 하고, F 분포는 두 모분산 차이에 대한 추정/검정에 사용한다.

 

점추정/구간추정

점 추정의 경우, 모수를 특정 값으로 추측한다.

신뢰도를 나타낼 수 없고, 오차에 대한 정보가 없다는 특징이 있다.

구간 추정은 점 추정과 달리, 모수를 특정 값이 아닌 구간으로 추정한다.

신뢰도를 나타낼 수 있다는 점이 점 추정과 다르다.

 

추정 - 점 추정

추정량(estimator)와 추정값(estimate)는 말은 비슷하지만 다른 개념이다.

이 강의에서는 추정량(Estimator)를 더 많이 사용할 것이다.

추정에서 사용되는 통계량을 통틀어서 통계량이라고 부른다.

추정값은 실제값을 의미한다. 즉 실제 계산된 결과를 말한다.

728x90
728x90

[통계 기초의 모든것 올인원] 메타코드 강의 후기 - 통계적 추정

https://mcode.co.kr/video/list2?viewMode=view&idx=94

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

메타코드의 "통계 기초의 모든 것 올인원[1편, 2편]"에 대한 수업 후기입니다.

메타코드에는 통계 강의를 포함하여 데이터 분석, 인공지능 등 다양한 강의를 제공하니 데이터 분석 혹은 인공지능 분야에 관심이 있다면 이용해보시길 추천드립니다.

 

구간 추정

모수 세타가 a와 b 사이에 있을 확률을 (1 - 알파)라고 한다면,

모수 세타에 대한 신뢰구간은 100 X ( 1 - 알파 )[%]가 된다.

즉, 신뢰구간은 모수를 포함할 것으로 추정한 구간을 의미한다.

신뢰수준은 신뢰구간이 모수를 포함할 확률로 ( 1 - 알파 )가 된다.

 

모평균의 구간추정

모분산을 아는 경우에는 Z 통계량을 사용한다.

Z 값을 사용하기 위해서는 표준화를 하는 과정이 필요한다.

구간추정을 하기 위해서는 먼저 신뢰수준을 정하는 것이 필요하다.

몇 %로 신뢰수준을 정할 것인지에 따라 Z 값이 달라진다.

 

통계적 추정 예제

모집단은 우리나라 대학생이 해당하며, 샘플 사이즈는 100명이 된다.

샘플 X의 평균 값은 30만원이 되며, 모집단의 표준편차 시그마는 12만원으로 주어졌다.

신뢰수준이 90%이므로 0.05일 때의 Z 값을 사용하면 된다.

Z = 1.64이기 때문에 ( 시그마 / 루트 n ) 식을 곱한 뒤에 X의 평균값에 더하면 된다.

 

모평균의 구간추정 - 모분산을 모르는 경우

모분산을 모르는 경우에는 t 통계량을 사용한다.

Z 통계량을 구하는 것과 유사한 모습을 보인다.

모표준편차 시그마를 사용하는 것과 달리 표본 표준편차 S를 쓰는 대신 t 통계량을 쓰는 것이 차이점이다.

단, 표본 크기가 클 경우에는 Z 통계량을 사용하게 된다.

 

통계적 추정 - 예제

표본의 평균은 30만원, 표본의 숫자는 16명, 표본의 표준편차 S는 10만원으로 주어졌다.

신뢰구간은 90%로 주어졌으므로, t가 0.05인 경우의 값을 확인하면 된다.

식을 계산하기 위하여 t 확률분포표를 확인하는 과정이 필요하다.

해당하는 t 값은 1.71이며, 나머지 값들을 넣어서 계산을 진행하면 답이 된다.

 

통계적 추정 - 예제 2

표본의 숫자는 10명, 표본의 평균 X는 150만원으로 주어졌다.

모집단에 대한 정보인 모표준편차는 10만원으로 주어졌고, 정규분포를 따른다는 조건 또한 주어졌다.

모평균에 대한 신뢰구간을 구할 때, 모분산을 안다면 Z 값을 사용할 수 있게 된다.

신뢰수준은 95%로 설정하였으므로 0.025일 때의 Z 값인 1.96을 사용하면 된다.

728x90

+ Recent posts