출처: https://astrocosmos.tistory.com/202 [ASTROCOSMOS:티스토리] '통계' 태그의 글 목록 :: 하나둘셋넷
728x90

[메타코드 강의 후기] 통계 기초의 모든것 올인원_회귀분석_Part2_240630

https://www.metacodes.co.kr/edu/read2.nx?M2_IDX=30098&page=1&SC_EC1_IDX=442&SC_EC2_IDX=929&sc_is_discount=&sc_is_new=&EP_IDX=8382&EM_IDX=8208

 

통계 기초의 모든것 올인원 [ 1편, 2편 ]ㅣ18만 조회수 검증

 

www.metacodes.co.kr

안녕하세요

메타코드 서포터즈 5기 송주영입니다.

 

한 주를 마무리하면 지금까지 듣던 "통계 기초의 모든 것 올인원" 강의를 완강하게 되어 뿌듯함을 느꼈어요

ADsP 자격증을 따면서 기초적인 통계를 배우기는 했지만 이렇게 하나의 강의를 온전히 들으니 자격증에서는 배우지 못한 내용들을 배울 수 있어서 좋았어요

 

만약 비전공이시거나, 비전공 출신으로 자격증은 취득했으나 아직 통계 개념이 어렵다면 메타코드 통계 강의를 들어보면서 큰 틀을 잡아보시는 것도 좋을 거라 생각해요

 

"통계 기초의 모든것 올인원_회귀분석_Part2" 강의 후기 작성하겠습니다.

 

잔차제곱합, MSE

$\widehat{y}$ 추정회귀식에 해당한다.

이를 풀어서 작성하면 “베타 0 hat”, “베타 1 hat”, “x i”를 통해 작성할 수 있다.

MSE는 SSE를 자유도로 나눈 값을 말한다.

“시그마 제곱 hat”으로 표시하며, 오차분산의 불편(unbiased) 추정량이다.

 

$ \beta _{1} $의 추정 및 검정(1)

“a i”라는 새로운 term을 하나 만들었으며, 이 식은 아래 추정 및 검정 과정에서 사용된다.

“베타 1”에 대한 추정과 검정을 하는 것이 목표이다.

이러한 추정과 검정을 할 때는 항상 기댓값과 Variance를 구하는 과정을 수행했으며, 이 경우에도 마찬가지이다.

“베타 1 hat”에 대한 식은 값들을 차례로 대입하고 나누어주는 과정을 수행하여 구한다.

“베타 1 hat” 식의 마지막 부분에서 “베타 0”에는 “a i”에 해당하는 값의 summation이고, “베타 1”에는 ‘a i”값의 summation에 “x i”가 곱해져 있다.

“a i”의 summation의 값은 0이고, “베타 1”에 곱해져 있는 부분은 1이 되므로 최종적으로 “베타 1 hat”에 대한 값은 “베타 1”이 된다.

“a i”의 summation 식을 보면 분자값이 0이 되게 되므로 전체 값이 0이 된다.

 

$ \beta _{1} $의 추정 및 검정(2)

“a i hat”의 제곱식을 대입한 뒤 정리하면 분자가 “시그마 제곱” 형태가 된다.

“시그마 제곱”의 불편추정량은 MSE에 해당한다.

“베타 1 hat”에 대한 Variance 값은 자유도가 (n-2)인 t 분포를 따른다.

신뢰구간을 설정한다면 양측 검정이므로 “베타 1 hat”에 똑같은 식을 +, -를 해준다.

이때 양측 검정이므로 알파 값의 1/2에 해당하는 사용한다.

 

$\beta _{0}$ 의 추정 및 검정

“시그마 제곱”은 “MSE”에 해당하므로, “시그마 제곱” 값을 모른다면 “MSE”를 구하여 사용한다.

검정통계량에서 분모 부분은 Standard Error이며, “시그마 제곱”를 모르기 때문에 “MSE”를 넣었다.

분자는 “베타 0 hat”에서 “베타 0 hat”의 기댓값인 “베타 0”를 빼준다.

이렇게 구한 검정통계량 값은 자유도가 (n-2)인 T 분포를 따른다.

 

변동분해, 분산분석

총 변동 $y_{i}  - \overline{y}$ 식은 개별관측값과 이에 대한 평균의 차이다.

식에서 각 항을 제곱하면, 설명이 안되는 변동은 잔차제곱합 SSE가 되고 설명이 되는 변동은 회귀제곱합 SSR이 된다.

자유도는 총 변동, 잔차변동, 회귀변동이 각각 (n-1), (n-2), n이다.

각각의 자유도로 나누어주면 MSE와 MSR 값을 구할 수 있다.

 

회귀모형 검정_F 검정

단순 선형회귀에서는 “베타 1 = 0”이 귀무가설이다.

만약 다중 선형회귀가 된다면 베타 1, 베타 2, 베타 3, ..으로 늘어난다.

F 통계량 식에서 MSR은 자유도가 1, MSE는 자유도가 (n-2)이다.

단측검정이므로 유의수준 알파를 그대로 사용한다.

 

강의를 완강하며, 어려운 점들도 있었지만 선생님께서 쉬운 예시를 들어주셔서 따라갈 수 있었던 것 같아요.

진도의 뒷 부분에 도달하니 앞 부분에서 내가 어떤 개념을 덜 이해하고 넘어갔는지 체감할 수 있었고, 이에 대해 다시 복습할 필요성을 느꼈습니다.

 

다음 수업으로는 Python을 활용하여 통계 이론을 실습하는 수업을 할지 아니면 다른 수업을 들을지 고민이 드네요

현재 생각으로는 그래도 실습을 하며 배운 개념을 계속하여 적용하다 보면 통계 개념에 익숙해지고 이해가 되지 않을까 생각을 하고 있습니다.

 

이상으로 "통계기초의 모든 것 올인원" 강의 후기는 마무리하도록 하겠습니다.

감사합니다!!

 

728x90
728x90

[통계 기초의 모든것 올인원] 메타코드 강의 후기 - 모분산, 두 집단 비교

메타코드M (metacodes.co.kr)

 

통계 기초의 모든것 올인원 [ 1편, 2편 ]ㅣ18만 조회수 검증

 

www.metacodes.co.kr

 

모분산 검정의 필요성, 예시

모분산 검정은 두 가지 집단이 모평균의 차이가 있냐 없냐를 판단할 때 중요하다.

왜냐하면, 그러한 검정은 두 집단의 모분산이 같다가 전제되어야 하기 때문이다.

등분산 조건을 의미한다.

이 문제에서 대립 가설은 분산이 0.1보다 작다는 것이 된다.

확률 표현은 오른쪽 영역을 기준으로 한다.

기각역은 10.117이 되는데 검정통계량 계산량은 9.5가 되므로 귀무가설을 기각할 수 있게 된다.

 

집단 비교

두 집단의 비교에는 분산이 고려되어야 한다는 것이 중요한 포인트이다.

분산이 고려되었을 때 객관적 비교가 가능하기 때문이다.

모분산은 아는데, 정규 모집단이면 Z 통계량을 사용한다.

모분산은 모르는데, 정규 모집단이긴 하다면,

모분산이 같은지 혹은 모분산이 다른지 확인하는 절차가 필요하다.

 

모분산 아는 경우의 모집단 비교

정규모집단 가정이 되어있는 상태이다.

기댓값 E의 경우 하나의 항에서 두 개의 항으로 분리가 가능하다.

이때, 각각의 기댓값은 뮤이다.

Variance는 분해를 할 때, 독립이라는 전제가 되어있다면 분해가 가능하다. 이때, 괄호 안이 + 부호이든 - 부호이든 더하기 형태로 분해된다.

 

모집단 비교 - 예시 #1

문제 조건에서 모분산을 알고 있다고 가정한다.

같은 지 물어보는 것이기 때문에 양측 검정에 해당한다.

대립 가설은 키 평균이 같지 않다는 것이 된다.

검정 통계량 식은 윗 슬라이드에 있던 내용이다.

검정은 귀무가설의 입장을 기준으로 한다. 즉, 일단 귀무 가설의 말이 맞다고 가정한다는 의미이다.

뮤 1과 뮤2는, 귀무가설이 “평균이 같다”이므로 0이 된다.

계산 결과가 2.63이므로 귀무가설을 기각할 수 있게 된다.

 

모집단 비교 - 예시 #2

t 통계량을 사용하는 경우의 문제이다.

귀무가설은 평균이 같다는 경우가 되고, 대립 가설은 같지 않다가 된다.

같지 않다가 조건이므로 양측 검정에 해당하며 ( 알파 / 2 ) 값을 확인한다.

이 문제에서는 계산 결과가 유의수준보다 크기 때문에 귀무가설을 기각할 수 있게 된다.

슬라이드에서 검정 통계량에 Z 가 아니라 T로 수정해야 한다.

 

모집단 비교 - 예시 #3

다른 조건은 같지만 분산이 다른 경우이다.

이분산인 경우에는 t 검정 통계량을 사용한다.

이분산이기 때문에 검정 통계량 식에서 s1, s2가 빠져나오지 못한다는 것이 앞의 문제와 차이이다.

밑의 자유도 식은 뒷 과정에서 다룰 것이다.

728x90
728x90

[통계 기초의 모든것 올인원] 메타코드 강의 후기 - 점추정/구간추정

https://mcode.co.kr/video/list2?viewMode=view&idx=94

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

추정 - 점 추정 => 불편성, 유효성

- 불편성은 편향이 되지 않는다는 것을 의미한다.

(n-1)으로 나누는 이유는 모수의 불편성을 만족시키기 위함이다.

- 유효성은 추정량의 표준오차로 흩어짐의 정도를 나타내는 측도로,

불편추정량 "세타 1"이 "세타 2"보다 작다면 추정량 "세타 1"이 더 유효하다.

 

점 추정 - 모평균의 추정, 오차한계

모평균의 추정에는 주로 표본평균을 사용한다.

모표준편차를 알면 시그마, 모른다면 표본 표준편차 s를 사용한다.

오차 한계에서, 해당 수식의 경우 모평균을 1,000번 추정했을 때, 오차범위 내에 있는 값이 954번 나올 확률을 의미한다.

한계값 수식은 ( 2 시그마 ) / ( 루트 n )이다.

 

추정 - 점 추정 => 모비율의 추정

식에서 X는 확률 변수에 해당한다.

X는 어떤 특정 사건의 발생 횟수를 말한다.

X는 이산형 확률변수로 모델링을 해야하며 B(n, p)로 binomial 분포를 따른다.

n에는 전체 횟수, p는 특정 사건의 횟수를 말한다.

일치성은 표본의 갯수 증가할수록 추정량이 모수로 수렴하는 성질을 말한다.

 

추정 - 구간추정

보통 추정을 할 때는 구간추정을 많이 사용한다.

(알파 = 0.05)로 한다면 (1 - 알파 ) = 0.95가 된다.

식에 대입하면 모수 세타가 a와 b 사이에 위치할 확률이 95%라는 의미가 된다.

신뢰구간은 모수를 포함할 것으로 추정한 구간을 말한다.

 

모평균의 구간추정

모분산을 안다면 정규분포를 사용한다.

즉, Z 통계량을 사용하게 된다.

90%, 95%, 99% 신뢰구간에 대한 Z 통계량 값은 자주 나오는 개념이므로 외워둔다면 도움이 된다.

주로 양측 검증을 하게 되므로 10% 를 예시로 든다면 0.05에 대한 Z 통계량을 사용하는 것이다.

표준정규분포이므로, 0을 기준으로 대칭이기 때문에 하나의 Z 통계량 값만 안다면 반대쪽의 Z 값도 아는 것이 된다.

 

추정 - 모평균의 구간추정

모분산을 모르는 경우라면 t 통계량을 사용한다.

단, 표본크기가 클 경우에는 Z 통계량을 사용할 수 있게 된다.

모분산을 모르는 상황이므로 수식에서 표본 표준편차 s 를 사용함을 확인할 수 있다.

관심 대상은 모수로, 모수가 어느 구간에 속할 것인가에 초점을 맞추면 된다.

728x90
728x90

[통계 기초의 모든것 올인원] 메타코드 강의 후기 - t분포/F분포, 점추정/구간추정

https://mcode.co.kr/video/list2?viewMode=view&idx=94

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

표본분포 - t 분포

 

모집단의 표준편차를 모르면, 모표준편차 대신 표본표준편차를 사용한다?

자유도가 높은 것이 좋은 것이다?

=> 그렇지 않다, 임의로 결정될 수 있는 것이 늘어남에 따라 컨트롤하기 어려워진다.

X가 동일한 분포에서 나온 확률표본인데, 시그마를 모른다면 표본분산을 대신 사용할 수 있다.

이때, 표준정규분포가 아니라 t 분포를 따르게 된다.

 

표본분포 - t 분포 특징 정리

 

t 분포는 그림에서 볼 수 있듯이 정규분포보다 평평하게 나타나게 된다.

표본크기가 크다면, 분포가 중심부근에서 점점 뾰족해지는데 이때 표준크기가 30 이상이 된다면 정규분포에 근사하게 된다.

즉, 표본 30을 기준으로 이상이면 표준정규분포, 미만일 때는 t 분포가 된다.

t 분포는 모표준편차를 모르는 경우에 사용한다는 것이 가장 중요한 내용이다.

 

표본분포 - F 분포

V1을 본인의 모수로 나누어 주고, V2 또한 본인의 모수로 나누어 준다.

F 식에서 분자가 앞에 와야 한다는 것을 기억하자.

분산을 비교한다는 것은 회귀분석, 분산분석에서 중요하게 다루어지는 개념이다.

통계 분석에서 분산 분석은 가장 중요한 내용 중 하나이다.

 

표본분포 - 정리

정규분포는 모분산을 알고 있을 때, 모평균 혹은 두 모평균 차이에 대한 추정/검정을 할 때 사용한다.

이때, 모분산을 모르더라도 표본크기가 크다면 이를 동일하게 수행할 수 있다.

t 분포는 모분산을 모를 때 사용한다.

카이제곱분포는 모분산에 대한 추정/검정을 하고, F 분포는 두 모분산 차이에 대한 추정/검정에 사용한다.

 

점추정/구간추정

점 추정의 경우, 모수를 특정 값으로 추측한다.

신뢰도를 나타낼 수 없고, 오차에 대한 정보가 없다는 특징이 있다.

구간 추정은 점 추정과 달리, 모수를 특정 값이 아닌 구간으로 추정한다.

신뢰도를 나타낼 수 있다는 점이 점 추정과 다르다.

 

추정 - 점 추정

추정량(estimator)와 추정값(estimate)는 말은 비슷하지만 다른 개념이다.

이 강의에서는 추정량(Estimator)를 더 많이 사용할 것이다.

추정에서 사용되는 통계량을 통틀어서 통계량이라고 부른다.

추정값은 실제값을 의미한다. 즉 실제 계산된 결과를 말한다.

728x90
728x90

[통계 기초의 모든것 올인원] 메타코드 강의 후기 - 통계적 추정

https://mcode.co.kr/video/list2?viewMode=view&idx=94

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

메타코드의 "통계 기초의 모든 것 올인원[1편, 2편]"에 대한 수업 후기입니다.

메타코드에는 통계 강의를 포함하여 데이터 분석, 인공지능 등 다양한 강의를 제공하니 데이터 분석 혹은 인공지능 분야에 관심이 있다면 이용해보시길 추천드립니다.

 

구간 추정

모수 세타가 a와 b 사이에 있을 확률을 (1 - 알파)라고 한다면,

모수 세타에 대한 신뢰구간은 100 X ( 1 - 알파 )[%]가 된다.

즉, 신뢰구간은 모수를 포함할 것으로 추정한 구간을 의미한다.

신뢰수준은 신뢰구간이 모수를 포함할 확률로 ( 1 - 알파 )가 된다.

 

모평균의 구간추정

모분산을 아는 경우에는 Z 통계량을 사용한다.

Z 값을 사용하기 위해서는 표준화를 하는 과정이 필요한다.

구간추정을 하기 위해서는 먼저 신뢰수준을 정하는 것이 필요하다.

몇 %로 신뢰수준을 정할 것인지에 따라 Z 값이 달라진다.

 

통계적 추정 예제

모집단은 우리나라 대학생이 해당하며, 샘플 사이즈는 100명이 된다.

샘플 X의 평균 값은 30만원이 되며, 모집단의 표준편차 시그마는 12만원으로 주어졌다.

신뢰수준이 90%이므로 0.05일 때의 Z 값을 사용하면 된다.

Z = 1.64이기 때문에 ( 시그마 / 루트 n ) 식을 곱한 뒤에 X의 평균값에 더하면 된다.

 

모평균의 구간추정 - 모분산을 모르는 경우

모분산을 모르는 경우에는 t 통계량을 사용한다.

Z 통계량을 구하는 것과 유사한 모습을 보인다.

모표준편차 시그마를 사용하는 것과 달리 표본 표준편차 S를 쓰는 대신 t 통계량을 쓰는 것이 차이점이다.

단, 표본 크기가 클 경우에는 Z 통계량을 사용하게 된다.

 

통계적 추정 - 예제

표본의 평균은 30만원, 표본의 숫자는 16명, 표본의 표준편차 S는 10만원으로 주어졌다.

신뢰구간은 90%로 주어졌으므로, t가 0.05인 경우의 값을 확인하면 된다.

식을 계산하기 위하여 t 확률분포표를 확인하는 과정이 필요하다.

해당하는 t 값은 1.71이며, 나머지 값들을 넣어서 계산을 진행하면 답이 된다.

 

통계적 추정 - 예제 2

표본의 숫자는 10명, 표본의 평균 X는 150만원으로 주어졌다.

모집단에 대한 정보인 모표준편차는 10만원으로 주어졌고, 정규분포를 따른다는 조건 또한 주어졌다.

모평균에 대한 신뢰구간을 구할 때, 모분산을 안다면 Z 값을 사용할 수 있게 된다.

신뢰수준은 95%로 설정하였으므로 0.025일 때의 Z 값인 1.96을 사용하면 된다.

728x90
728x90

[통계 기초의 모든것 올인원] 메타코드 강의 후기 - 연속확률분포, 통계적 추정

https://mcode.co.kr/video/list2?viewMode=view&idx=94

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

메타코드의 "통계 기초의 모든 것 올인원[1편, 2편]"에 대한 수업 후기입니다.

메타코드에는 통계 강의를 포함하여 데이터 분석, 인공지능 등 다양한 강의를 제공하니 데이터 분석 혹은 인공지능 분야에 관심이 있다면 이용해보시길 추천드립니다.

 

연속확률분포 예제 1

표본평균의 공식은 시그마 X를 n으로 나누는 것이다.

이 공식을 Variance(분산) 식에 대입한다.

이때, n은 상수이므로 Var 공식에서 바깥으로 뺄 수 있다. 이때, n은 제곱의 형태로 나오게 된다.

같은 모집단에서 나왔으므로 X들에 시그마 제곱을 대입할 수 있고 결과적으로 (시그마 제곱) / n 의 형태로 공식을 유도할 수 있다.

 

연속확률분포 예제 2

표본은 100명이고, 표본의 평균이 70, 표본의 표준편차는 10인 상황이다.

중요한 가정 중 하나는 성적이 정규분포를 따른다는 것이다.

이 문제의 경우, 학생 수를 물어본다는 것이 특이한데 결과적으로는 확률을 계산하는 것이 문제이다.

표준화 공식을 적용하면 좌측은 (60-70) / 10 => -1 이 되고 (60-70) / 10 => +1이 된다.

정규분포의 특징은 양측이 종 모양으로 같다는 것이다. 따라서 0.159 X 2 = 0.318이 된다.

최종적으로 정답은 100 X 0.682 = 62.8명이 된다.

 

연속확률분포 예제 3

문제에서 P(X<5) = 0.5 조건을 주었다.

정규분포는 기댓값을 기준으로 하여 좌우 대칭이 된다.

따라서 각각 확률을 의미하는 면적이 0.5이 됨을 의미한다.

따라서 조건으로 준 5가 기대값이 된다.

 

연속확률분포 예제 4

샘플 사이즈가 충분히 크다면 정규분포가 된다. 표본이 20으로 주어졌으므로 이 문제에서는 해당하지 않는 사항이다.

표본평균의 확률분포를 묻는 것이 문제이다.

모집단 자체가 정규분포를 따른다고 했기 때문에 표본평균의 확률분포는 정규분포를 따를 것이다.

표본평균의 기댓값은 모평균(뮤)와 같다. 표본평균의 Variance는 (시그마 제곱) / n 이다.

 

통계적 추정

통계적 추정이란 데이터를 샘플링하여 모집단에 대한 추론을 한다는 것을 의미한다.

모평균은 "대한민국 모든 사람들의 키의 평균을 알고 싶어" 등이 해당한다.

이에 대하여 단일한 값으로 추정한다면 점추정에 해당한다.

만일 구간으로 추정을 한다면 구간 추정에 해당하는 것이다.

 

통계적 추정 : 기준

통계적 추정이 올바른 것인지 판단하기 위한 기준 4가지이다.

불편성에서 "편"이란 편향, bias를 의미한다.

유효성이란 불편성이 보장된 상태에서 확인하는 값이다.

일치성과 충분성은 강의자료에 적힌 그대로 이해하면 된다.

728x90
728x90

[통계 기초의 모든것 올인원] 메타코드 강의 후기 - 연속확률분포

https://mcode.co.kr/video/list2?viewMode=view&idx=94

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

표본분포

표본분포는 통계량의 확률분포이다.

통계량에는 평균, 표준편차, 분산, 중위값 등이 있다.

평균의 확률분포와 같은 개념을 의미한다.

전수 조사가 어려울 경우, 샘플링을 한다. 이때, 샘플링 과정을 여러 번( ex 1,000번 )한다.

이러한 과정을 진행하면 샘플링한 값들의 평균에 대한 확률분포를 구할 수 있다.

 

중심극한정리

임의의 모집단 => 내가 그 집단이 어떠한 성질을 가지고 있는지 모른다.

만약 샘플 사이즈 n이 충분히 크다면 근사적으로 정규분포를 따르는 것을 말한다.

어떠한 집단이 정규분포인지 정하는 것이 매우 중요하다.

따라서, 이 중심극한정리를 통하여 집단의 특성을 정하는 것은 매우 유용하게 된다.

 

카이제곱 분포

카이제곱 분포, t 분포는 표본분포에서 나온 개념이다.

통계량에 대한 분포를 의미한다.

카이제곱은 이 통계량 중에서 표본분산에 대한 분포를 말한다.

확률변수가 각각 표준정규분포를 따르고 독립일 때, 이들의 제곱합이 자유도 k인 카이제곱 분포를 따른다.

자유도 k만 알면 카이제곱 분포의 모양을 결정할 수 있게 된다.

카이제곱 분포는 원래 치우친 모양을 나타낸다.

 

카이제곱 분포 특징 정리

단봉분포는 하나의 봉우리만 가진다는 것을 의미한다.

오른쪽에 긴 꼬리를 가지는 Positive Skew 형태를 나타낸다. 즉, 양의 이상치 값을 갖는다.

정규분포를 따르는 각각의 확률변수 Z의 갯수만큼 자유도를 가진다.

이때, 이 자유도가 커질수록 정규분포에 가까워지게 된다.

표본분산만 가지고 있을 때 모분산을 추정하고 싶은 경우에 활용한다.

 

연속확률분포 예제 1

확률변수에 대하여 상수가 붙어있다면 제곱이 붙어서 나오게 되므로 이 경우에는 분모에 n^2이 생기게 된다.

확률표본이므로 X1부터 Xn까지 각각 독립이 된다.

따라서, 각각이 Var이 붙어서 연결된다.

동일한 모집단에서 나왔으므로 각각 시그마 제곱이므로 nσ^2이 되고 최종적으로 계산하면 σ^2/n이 된다.

 

연속확률분포 예제 2

이전 문제까지는 확률에 대해서 계산을 하다가 이번 문제는 학생 숫자에 대해서 물어보고 있다.

x가 60점에서 80점 사이에 있을 확률을 구한다.

(60-70) / 70 = -1이 되고, (80-70) / 70 = 1이다.

파란색 부분이 0.159에 해당하는 정규분포이므로 양쪽이 Bell 모양에 해당한다.

따라서 0.159 X 2 = 0.318이 된다.

100 * ( 1 - 0.318 )을 계산하면 정답에 해당한다.

 

728x90
728x90

[통계 기초의 모든것 올인원] 메타코드 강의 후기 - 이산확률분포

https://mcode.co.kr/video/list2?viewMode=view&idx=94

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

이산확률 분포 : 이항분포, 베르누이 시행

베르누이 시행은 성공아니면 실패로 판변이 되는 것을 말한다.

동전 던지기를 한 번 하면 베르누이 시행, 여러 번 반복하면 이항분포에 해당한다.

사상이 두 개만 있으므로 1-pp만 있게 된다.

확률변수 X의 평균(기댓값)은 p, 확률변수 X의 분산은 p(1-p)이다.

 

이항확률분포

베르누이 시행을 반복하여 특정한 횟수의 성공/실패가 나타날 확률이 이항확률분포에 해당한다.

어떤 사건이 a 아니면 b에만 해당한다면 이 분포에 해당한다.

x에는 성공 횟수, n에는 시행 횟수를 대입한다.

앞에 n이 곱해져 있는 것을 제외하면 베르누이 시행과 식이 유사한 모습을 볼 수 있다.

 

이산확률분포 예제 풀이 1번

앞에서 배운 베르누이 시행에 대한 개념이다.

앞에서 확률과 확률변수에 대해 공부할 때, E(x^2 )- μ^2 형태로 정의한 공식이 있다.

x의 제곱을 했을 때 0이면 0, 1이면 1로 나온다.

즉 차이가 없으므로 E(x^2)은 p에 해당한다.

따라서 X의 분산이 p(1-p) 임을 확인할 수 있다.

 

이산확률분포 예제 풀이 2번

4 이상의 눈이 나올 확률은 p이다.

주사위를 5번 던지므로 n = 5에 해당한다.

눈이 두 번 나오는 경우가 궁금하므로 n = 2에 해당한다.

p의 경우 4 이상인 경우는 4, 5, 6이므로 확률은 1/2에 해당한다.

 

이산확률분포 예제 풀이 3번

동전을 5번 던지므로 n = 5 이다.앞면과 뒷면이므로 p = 1/2 이다.

기댓값에 대한 공식은 np이다.

분산에 대한 공식은 np(1-p)이다.

기본 공식을 적용하면 정답을 구할 수 있는 문제이다.

 

이산확률 예제 풀이 4번

3회 청구될 확률이므로 우선 x=3에 해당한다.

한 해에, 어떤 한 해에 조건이 붙어 있어 단위 시간을 나타낸다. 따라서 이 문제는 포아송 분포에 해당한다.

포아송 분포에서는 람다를 구해야 한다.

1000명의 보험자 X (1/2000) = 0.5회 청구된다. 따라서 람다는 0.5에 해당한다.

공식에서 x와 람다를 대입하면 정답을 구할 수 있다.

728x90
728x90

[통계 기초의 모든것 올인원] 메타코드 강의 후기 - "2강 확률과 확률변수"

 

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

조건부 확률

모집단의 20%가 A이므로, P(A) = 0.2로 설정하고, 이에 따라 나머지 집단인 B에 대해서는 P(B)로 설정하였습니다.

A 고객에 대하여 사고가 날 확률을 정의하면 P(C|A) = 0.3으로 계산할 수 있습니다.

B 고객에 대하여 사고가 날 확률을 정의하면 P(C|B) = 0.1로 계산할 수 있습니다.

조건부 확률에 대한 식을 생각하면, P(C∩B) / P(B) 이므로 P(C∩B) 값을 구할 수 있고 A에 대해서도 같은 과정을 수행할 수 있습니다. 따라서 구한 값들을 더한다면 새 고객에 대한 사고 확률을 계산할 수 있습니다.

 

베이즈 정리

사전 확률을 사후 확률로 전환할 수 있다는 것이 베이즈 정리에서의 가장 중요한 점입니다.

데이터가 추가됨에 따라 확률을 업데이트 할 수 있습니다.

예시로서, 성적이 얼마나 오를지에 대해 예측하는 것을 들어주셨습니다.

대상에 대하여, "책을 몇 개 샀다", "이번 모의고사에서 몇 점 맞았다"의 정보가 추가됨에 따라 사후 확률을 추정할 수 있게됩니다.

 

확률변수

확률 변수는 이름은 변수로 되어있지만, 함수를 의미합니다.

사건의 실수값을 맵핑하는 개념으로 생각하면 된다고 설명을 해주셨습니다.

확률분포는 확률변수를 설명해주는 개념입니다.

밑의 예시를 통하여 보다 확률 변수를 쉽게 이해할 수 있도록 돕는 것입니다.

 

이산확률변수, 연속확률변수

이산확률의 경우 정의된 확률의 값을 셀 수 있습니다.

따라서 확률질량 함수의 경우 특정 값에 대해 각 확률이 대응됩니다.

연속확률 변수의 경우 이산확률변수와는 다르게, 특정 값으로 정해지지 않는다는 특성을 갖습니다.

연속형이므로, 취할 수 있는 값이 무한대에 해당한다는 특징이 있습니다.

 

기대값 - 이산확률변수, 연속확률변수

이산확률 변수의 경우, 각 변수에 대하여 일어날 확률을 곱하는 과정을 수행합니다.

이후에 해당 값들을 모두 더해주면 이산확률변수에서의 기대값인 E(X) 값을 계산할 수 있습니다.

연속확률 변수의 경우, 위에서와 마찬가지로 변수에 확률을 곱하는 과정을 수행합니다.

연속형 값이므로 더해주는 것이 아닌 적분을 수행한다는 것이 위의 과정과 차이가 있습니다.

 

기대값에 대한 공식

위 식들은 기대값에 대하여 외워두면 좋은 공식들입니다.

가장 위의 E(a)의 경우 상수 a에 대한 기대값은 상수 a라는 것을 의미합니다.

E(X + b)의 경우, 우리나라 선수들의 평균 키보다 A 국가대표팀들의 평균 키가 3cm 큰 상황을 예시로 들어주셨습니다.

이 경우 A 국가대표팀에 대하여 평균을 구하는 것이 아닌 우리나라 선수들의 평균 키에서 3cm를 더하면 됩니다.

728x90

+ Recent posts