출처: https://astrocosmos.tistory.com/202 [ASTROCOSMOS:티스토리] '추정' 태그의 글 목록 :: 하나둘셋넷
728x90

[메타코드 강의 후기] 통계 기초의 모든것 올인원_회귀분석_Part2_240630

https://www.metacodes.co.kr/edu/read2.nx?M2_IDX=30098&page=1&SC_EC1_IDX=442&SC_EC2_IDX=929&sc_is_discount=&sc_is_new=&EP_IDX=8382&EM_IDX=8208

 

통계 기초의 모든것 올인원 [ 1편, 2편 ]ㅣ18만 조회수 검증

 

www.metacodes.co.kr

안녕하세요

메타코드 서포터즈 5기 송주영입니다.

 

한 주를 마무리하면 지금까지 듣던 "통계 기초의 모든 것 올인원" 강의를 완강하게 되어 뿌듯함을 느꼈어요

ADsP 자격증을 따면서 기초적인 통계를 배우기는 했지만 이렇게 하나의 강의를 온전히 들으니 자격증에서는 배우지 못한 내용들을 배울 수 있어서 좋았어요

 

만약 비전공이시거나, 비전공 출신으로 자격증은 취득했으나 아직 통계 개념이 어렵다면 메타코드 통계 강의를 들어보면서 큰 틀을 잡아보시는 것도 좋을 거라 생각해요

 

"통계 기초의 모든것 올인원_회귀분석_Part2" 강의 후기 작성하겠습니다.

 

잔차제곱합, MSE

$\widehat{y}$ 추정회귀식에 해당한다.

이를 풀어서 작성하면 “베타 0 hat”, “베타 1 hat”, “x i”를 통해 작성할 수 있다.

MSE는 SSE를 자유도로 나눈 값을 말한다.

“시그마 제곱 hat”으로 표시하며, 오차분산의 불편(unbiased) 추정량이다.

 

$ \beta _{1} $의 추정 및 검정(1)

“a i”라는 새로운 term을 하나 만들었으며, 이 식은 아래 추정 및 검정 과정에서 사용된다.

“베타 1”에 대한 추정과 검정을 하는 것이 목표이다.

이러한 추정과 검정을 할 때는 항상 기댓값과 Variance를 구하는 과정을 수행했으며, 이 경우에도 마찬가지이다.

“베타 1 hat”에 대한 식은 값들을 차례로 대입하고 나누어주는 과정을 수행하여 구한다.

“베타 1 hat” 식의 마지막 부분에서 “베타 0”에는 “a i”에 해당하는 값의 summation이고, “베타 1”에는 ‘a i”값의 summation에 “x i”가 곱해져 있다.

“a i”의 summation의 값은 0이고, “베타 1”에 곱해져 있는 부분은 1이 되므로 최종적으로 “베타 1 hat”에 대한 값은 “베타 1”이 된다.

“a i”의 summation 식을 보면 분자값이 0이 되게 되므로 전체 값이 0이 된다.

 

$ \beta _{1} $의 추정 및 검정(2)

“a i hat”의 제곱식을 대입한 뒤 정리하면 분자가 “시그마 제곱” 형태가 된다.

“시그마 제곱”의 불편추정량은 MSE에 해당한다.

“베타 1 hat”에 대한 Variance 값은 자유도가 (n-2)인 t 분포를 따른다.

신뢰구간을 설정한다면 양측 검정이므로 “베타 1 hat”에 똑같은 식을 +, -를 해준다.

이때 양측 검정이므로 알파 값의 1/2에 해당하는 사용한다.

 

$\beta _{0}$ 의 추정 및 검정

“시그마 제곱”은 “MSE”에 해당하므로, “시그마 제곱” 값을 모른다면 “MSE”를 구하여 사용한다.

검정통계량에서 분모 부분은 Standard Error이며, “시그마 제곱”를 모르기 때문에 “MSE”를 넣었다.

분자는 “베타 0 hat”에서 “베타 0 hat”의 기댓값인 “베타 0”를 빼준다.

이렇게 구한 검정통계량 값은 자유도가 (n-2)인 T 분포를 따른다.

 

변동분해, 분산분석

총 변동 $y_{i}  - \overline{y}$ 식은 개별관측값과 이에 대한 평균의 차이다.

식에서 각 항을 제곱하면, 설명이 안되는 변동은 잔차제곱합 SSE가 되고 설명이 되는 변동은 회귀제곱합 SSR이 된다.

자유도는 총 변동, 잔차변동, 회귀변동이 각각 (n-1), (n-2), n이다.

각각의 자유도로 나누어주면 MSE와 MSR 값을 구할 수 있다.

 

회귀모형 검정_F 검정

단순 선형회귀에서는 “베타 1 = 0”이 귀무가설이다.

만약 다중 선형회귀가 된다면 베타 1, 베타 2, 베타 3, ..으로 늘어난다.

F 통계량 식에서 MSR은 자유도가 1, MSE는 자유도가 (n-2)이다.

단측검정이므로 유의수준 알파를 그대로 사용한다.

 

강의를 완강하며, 어려운 점들도 있었지만 선생님께서 쉬운 예시를 들어주셔서 따라갈 수 있었던 것 같아요.

진도의 뒷 부분에 도달하니 앞 부분에서 내가 어떤 개념을 덜 이해하고 넘어갔는지 체감할 수 있었고, 이에 대해 다시 복습할 필요성을 느꼈습니다.

 

다음 수업으로는 Python을 활용하여 통계 이론을 실습하는 수업을 할지 아니면 다른 수업을 들을지 고민이 드네요

현재 생각으로는 그래도 실습을 하며 배운 개념을 계속하여 적용하다 보면 통계 개념에 익숙해지고 이해가 되지 않을까 생각을 하고 있습니다.

 

이상으로 "통계기초의 모든 것 올인원" 강의 후기는 마무리하도록 하겠습니다.

감사합니다!!

 

728x90
728x90

[통계 기초의 모든것 올인원] 메타코드 강의 후기 - 점추정/구간추정

https://mcode.co.kr/video/list2?viewMode=view&idx=94

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

추정 - 점 추정 => 불편성, 유효성

- 불편성은 편향이 되지 않는다는 것을 의미한다.

(n-1)으로 나누는 이유는 모수의 불편성을 만족시키기 위함이다.

- 유효성은 추정량의 표준오차로 흩어짐의 정도를 나타내는 측도로,

불편추정량 "세타 1"이 "세타 2"보다 작다면 추정량 "세타 1"이 더 유효하다.

 

점 추정 - 모평균의 추정, 오차한계

모평균의 추정에는 주로 표본평균을 사용한다.

모표준편차를 알면 시그마, 모른다면 표본 표준편차 s를 사용한다.

오차 한계에서, 해당 수식의 경우 모평균을 1,000번 추정했을 때, 오차범위 내에 있는 값이 954번 나올 확률을 의미한다.

한계값 수식은 ( 2 시그마 ) / ( 루트 n )이다.

 

추정 - 점 추정 => 모비율의 추정

식에서 X는 확률 변수에 해당한다.

X는 어떤 특정 사건의 발생 횟수를 말한다.

X는 이산형 확률변수로 모델링을 해야하며 B(n, p)로 binomial 분포를 따른다.

n에는 전체 횟수, p는 특정 사건의 횟수를 말한다.

일치성은 표본의 갯수 증가할수록 추정량이 모수로 수렴하는 성질을 말한다.

 

추정 - 구간추정

보통 추정을 할 때는 구간추정을 많이 사용한다.

(알파 = 0.05)로 한다면 (1 - 알파 ) = 0.95가 된다.

식에 대입하면 모수 세타가 a와 b 사이에 위치할 확률이 95%라는 의미가 된다.

신뢰구간은 모수를 포함할 것으로 추정한 구간을 말한다.

 

모평균의 구간추정

모분산을 안다면 정규분포를 사용한다.

즉, Z 통계량을 사용하게 된다.

90%, 95%, 99% 신뢰구간에 대한 Z 통계량 값은 자주 나오는 개념이므로 외워둔다면 도움이 된다.

주로 양측 검증을 하게 되므로 10% 를 예시로 든다면 0.05에 대한 Z 통계량을 사용하는 것이다.

표준정규분포이므로, 0을 기준으로 대칭이기 때문에 하나의 Z 통계량 값만 안다면 반대쪽의 Z 값도 아는 것이 된다.

 

추정 - 모평균의 구간추정

모분산을 모르는 경우라면 t 통계량을 사용한다.

단, 표본크기가 클 경우에는 Z 통계량을 사용할 수 있게 된다.

모분산을 모르는 상황이므로 수식에서 표본 표준편차 s 를 사용함을 확인할 수 있다.

관심 대상은 모수로, 모수가 어느 구간에 속할 것인가에 초점을 맞추면 된다.

728x90
728x90

[통계 기초의 모든것 올인원] 메타코드 강의 후기 - t분포/F분포, 점추정/구간추정

https://mcode.co.kr/video/list2?viewMode=view&idx=94

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

표본분포 - t 분포

 

모집단의 표준편차를 모르면, 모표준편차 대신 표본표준편차를 사용한다?

자유도가 높은 것이 좋은 것이다?

=> 그렇지 않다, 임의로 결정될 수 있는 것이 늘어남에 따라 컨트롤하기 어려워진다.

X가 동일한 분포에서 나온 확률표본인데, 시그마를 모른다면 표본분산을 대신 사용할 수 있다.

이때, 표준정규분포가 아니라 t 분포를 따르게 된다.

 

표본분포 - t 분포 특징 정리

 

t 분포는 그림에서 볼 수 있듯이 정규분포보다 평평하게 나타나게 된다.

표본크기가 크다면, 분포가 중심부근에서 점점 뾰족해지는데 이때 표준크기가 30 이상이 된다면 정규분포에 근사하게 된다.

즉, 표본 30을 기준으로 이상이면 표준정규분포, 미만일 때는 t 분포가 된다.

t 분포는 모표준편차를 모르는 경우에 사용한다는 것이 가장 중요한 내용이다.

 

표본분포 - F 분포

V1을 본인의 모수로 나누어 주고, V2 또한 본인의 모수로 나누어 준다.

F 식에서 분자가 앞에 와야 한다는 것을 기억하자.

분산을 비교한다는 것은 회귀분석, 분산분석에서 중요하게 다루어지는 개념이다.

통계 분석에서 분산 분석은 가장 중요한 내용 중 하나이다.

 

표본분포 - 정리

정규분포는 모분산을 알고 있을 때, 모평균 혹은 두 모평균 차이에 대한 추정/검정을 할 때 사용한다.

이때, 모분산을 모르더라도 표본크기가 크다면 이를 동일하게 수행할 수 있다.

t 분포는 모분산을 모를 때 사용한다.

카이제곱분포는 모분산에 대한 추정/검정을 하고, F 분포는 두 모분산 차이에 대한 추정/검정에 사용한다.

 

점추정/구간추정

점 추정의 경우, 모수를 특정 값으로 추측한다.

신뢰도를 나타낼 수 없고, 오차에 대한 정보가 없다는 특징이 있다.

구간 추정은 점 추정과 달리, 모수를 특정 값이 아닌 구간으로 추정한다.

신뢰도를 나타낼 수 있다는 점이 점 추정과 다르다.

 

추정 - 점 추정

추정량(estimator)와 추정값(estimate)는 말은 비슷하지만 다른 개념이다.

이 강의에서는 추정량(Estimator)를 더 많이 사용할 것이다.

추정에서 사용되는 통계량을 통틀어서 통계량이라고 부른다.

추정값은 실제값을 의미한다. 즉 실제 계산된 결과를 말한다.

728x90
728x90

[통계 기초의 모든것 올인원] 메타코드 강의 후기 - 통계적 추정

https://mcode.co.kr/video/list2?viewMode=view&idx=94

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

메타코드의 "통계 기초의 모든 것 올인원[1편, 2편]"에 대한 수업 후기입니다.

메타코드에는 통계 강의를 포함하여 데이터 분석, 인공지능 등 다양한 강의를 제공하니 데이터 분석 혹은 인공지능 분야에 관심이 있다면 이용해보시길 추천드립니다.

 

구간 추정

모수 세타가 a와 b 사이에 있을 확률을 (1 - 알파)라고 한다면,

모수 세타에 대한 신뢰구간은 100 X ( 1 - 알파 )[%]가 된다.

즉, 신뢰구간은 모수를 포함할 것으로 추정한 구간을 의미한다.

신뢰수준은 신뢰구간이 모수를 포함할 확률로 ( 1 - 알파 )가 된다.

 

모평균의 구간추정

모분산을 아는 경우에는 Z 통계량을 사용한다.

Z 값을 사용하기 위해서는 표준화를 하는 과정이 필요한다.

구간추정을 하기 위해서는 먼저 신뢰수준을 정하는 것이 필요하다.

몇 %로 신뢰수준을 정할 것인지에 따라 Z 값이 달라진다.

 

통계적 추정 예제

모집단은 우리나라 대학생이 해당하며, 샘플 사이즈는 100명이 된다.

샘플 X의 평균 값은 30만원이 되며, 모집단의 표준편차 시그마는 12만원으로 주어졌다.

신뢰수준이 90%이므로 0.05일 때의 Z 값을 사용하면 된다.

Z = 1.64이기 때문에 ( 시그마 / 루트 n ) 식을 곱한 뒤에 X의 평균값에 더하면 된다.

 

모평균의 구간추정 - 모분산을 모르는 경우

모분산을 모르는 경우에는 t 통계량을 사용한다.

Z 통계량을 구하는 것과 유사한 모습을 보인다.

모표준편차 시그마를 사용하는 것과 달리 표본 표준편차 S를 쓰는 대신 t 통계량을 쓰는 것이 차이점이다.

단, 표본 크기가 클 경우에는 Z 통계량을 사용하게 된다.

 

통계적 추정 - 예제

표본의 평균은 30만원, 표본의 숫자는 16명, 표본의 표준편차 S는 10만원으로 주어졌다.

신뢰구간은 90%로 주어졌으므로, t가 0.05인 경우의 값을 확인하면 된다.

식을 계산하기 위하여 t 확률분포표를 확인하는 과정이 필요하다.

해당하는 t 값은 1.71이며, 나머지 값들을 넣어서 계산을 진행하면 답이 된다.

 

통계적 추정 - 예제 2

표본의 숫자는 10명, 표본의 평균 X는 150만원으로 주어졌다.

모집단에 대한 정보인 모표준편차는 10만원으로 주어졌고, 정규분포를 따른다는 조건 또한 주어졌다.

모평균에 대한 신뢰구간을 구할 때, 모분산을 안다면 Z 값을 사용할 수 있게 된다.

신뢰수준은 95%로 설정하였으므로 0.025일 때의 Z 값인 1.96을 사용하면 된다.

728x90

+ Recent posts