출처: https://astrocosmos.tistory.com/202 [ASTROCOSMOS:티스토리] '연속확률분포' 태그의 글 목록 :: 하나둘셋넷
728x90

[통계 기초의 모든것 올인원] 메타코드 강의 후기 - 연속확률분포, 통계적 추정

https://mcode.co.kr/video/list2?viewMode=view&idx=94

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

메타코드의 "통계 기초의 모든 것 올인원[1편, 2편]"에 대한 수업 후기입니다.

메타코드에는 통계 강의를 포함하여 데이터 분석, 인공지능 등 다양한 강의를 제공하니 데이터 분석 혹은 인공지능 분야에 관심이 있다면 이용해보시길 추천드립니다.

 

연속확률분포 예제 1

표본평균의 공식은 시그마 X를 n으로 나누는 것이다.

이 공식을 Variance(분산) 식에 대입한다.

이때, n은 상수이므로 Var 공식에서 바깥으로 뺄 수 있다. 이때, n은 제곱의 형태로 나오게 된다.

같은 모집단에서 나왔으므로 X들에 시그마 제곱을 대입할 수 있고 결과적으로 (시그마 제곱) / n 의 형태로 공식을 유도할 수 있다.

 

연속확률분포 예제 2

표본은 100명이고, 표본의 평균이 70, 표본의 표준편차는 10인 상황이다.

중요한 가정 중 하나는 성적이 정규분포를 따른다는 것이다.

이 문제의 경우, 학생 수를 물어본다는 것이 특이한데 결과적으로는 확률을 계산하는 것이 문제이다.

표준화 공식을 적용하면 좌측은 (60-70) / 10 => -1 이 되고 (60-70) / 10 => +1이 된다.

정규분포의 특징은 양측이 종 모양으로 같다는 것이다. 따라서 0.159 X 2 = 0.318이 된다.

최종적으로 정답은 100 X 0.682 = 62.8명이 된다.

 

연속확률분포 예제 3

문제에서 P(X<5) = 0.5 조건을 주었다.

정규분포는 기댓값을 기준으로 하여 좌우 대칭이 된다.

따라서 각각 확률을 의미하는 면적이 0.5이 됨을 의미한다.

따라서 조건으로 준 5가 기대값이 된다.

 

연속확률분포 예제 4

샘플 사이즈가 충분히 크다면 정규분포가 된다. 표본이 20으로 주어졌으므로 이 문제에서는 해당하지 않는 사항이다.

표본평균의 확률분포를 묻는 것이 문제이다.

모집단 자체가 정규분포를 따른다고 했기 때문에 표본평균의 확률분포는 정규분포를 따를 것이다.

표본평균의 기댓값은 모평균(뮤)와 같다. 표본평균의 Variance는 (시그마 제곱) / n 이다.

 

통계적 추정

통계적 추정이란 데이터를 샘플링하여 모집단에 대한 추론을 한다는 것을 의미한다.

모평균은 "대한민국 모든 사람들의 키의 평균을 알고 싶어" 등이 해당한다.

이에 대하여 단일한 값으로 추정한다면 점추정에 해당한다.

만일 구간으로 추정을 한다면 구간 추정에 해당하는 것이다.

 

통계적 추정 : 기준

통계적 추정이 올바른 것인지 판단하기 위한 기준 4가지이다.

불편성에서 "편"이란 편향, bias를 의미한다.

유효성이란 불편성이 보장된 상태에서 확인하는 값이다.

일치성과 충분성은 강의자료에 적힌 그대로 이해하면 된다.

728x90
728x90

[통계 기초의 모든것 올인원] 메타코드 강의 후기 - 연속확률분포

https://mcode.co.kr/video/list2?viewMode=view&idx=94

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

표본분포

표본분포는 통계량의 확률분포이다.

통계량에는 평균, 표준편차, 분산, 중위값 등이 있다.

평균의 확률분포와 같은 개념을 의미한다.

전수 조사가 어려울 경우, 샘플링을 한다. 이때, 샘플링 과정을 여러 번( ex 1,000번 )한다.

이러한 과정을 진행하면 샘플링한 값들의 평균에 대한 확률분포를 구할 수 있다.

 

중심극한정리

임의의 모집단 => 내가 그 집단이 어떠한 성질을 가지고 있는지 모른다.

만약 샘플 사이즈 n이 충분히 크다면 근사적으로 정규분포를 따르는 것을 말한다.

어떠한 집단이 정규분포인지 정하는 것이 매우 중요하다.

따라서, 이 중심극한정리를 통하여 집단의 특성을 정하는 것은 매우 유용하게 된다.

 

카이제곱 분포

카이제곱 분포, t 분포는 표본분포에서 나온 개념이다.

통계량에 대한 분포를 의미한다.

카이제곱은 이 통계량 중에서 표본분산에 대한 분포를 말한다.

확률변수가 각각 표준정규분포를 따르고 독립일 때, 이들의 제곱합이 자유도 k인 카이제곱 분포를 따른다.

자유도 k만 알면 카이제곱 분포의 모양을 결정할 수 있게 된다.

카이제곱 분포는 원래 치우친 모양을 나타낸다.

 

카이제곱 분포 특징 정리

단봉분포는 하나의 봉우리만 가진다는 것을 의미한다.

오른쪽에 긴 꼬리를 가지는 Positive Skew 형태를 나타낸다. 즉, 양의 이상치 값을 갖는다.

정규분포를 따르는 각각의 확률변수 Z의 갯수만큼 자유도를 가진다.

이때, 이 자유도가 커질수록 정규분포에 가까워지게 된다.

표본분산만 가지고 있을 때 모분산을 추정하고 싶은 경우에 활용한다.

 

연속확률분포 예제 1

확률변수에 대하여 상수가 붙어있다면 제곱이 붙어서 나오게 되므로 이 경우에는 분모에 n^2이 생기게 된다.

확률표본이므로 X1부터 Xn까지 각각 독립이 된다.

따라서, 각각이 Var이 붙어서 연결된다.

동일한 모집단에서 나왔으므로 각각 시그마 제곱이므로 nσ^2이 되고 최종적으로 계산하면 σ^2/n이 된다.

 

연속확률분포 예제 2

이전 문제까지는 확률에 대해서 계산을 하다가 이번 문제는 학생 숫자에 대해서 물어보고 있다.

x가 60점에서 80점 사이에 있을 확률을 구한다.

(60-70) / 70 = -1이 되고, (80-70) / 70 = 1이다.

파란색 부분이 0.159에 해당하는 정규분포이므로 양쪽이 Bell 모양에 해당한다.

따라서 0.159 X 2 = 0.318이 된다.

100 * ( 1 - 0.318 )을 계산하면 정답에 해당한다.

 

728x90

+ Recent posts