[통계 기초의 모든것 올인원] 메타코드 강의 후기 - "1강 통계량"
평균의 종류
산술 평균이란 모든 자료의 값을 더한 뒤에, 자료의 수로 나누어 준 값을 의미하며 평상 시에 자주 다루는 평균의 개념에 해당합니다.
산술 평균은 극단값에 영향을 받는다는 특징이 있고 이 부분은 데이터를 분석함에 있어 주의해야 할 부분입니다.
가중평균은 자료의 중요성이 다를 경우, 중요도에 따라 가중치를 부여한 평균을 의미합니다.
가중평균의 경우 분모를 보면, 자료의 갯수가 아닌 가중치의 합인 것을 볼 수 있으며 이 부분이 산술평균과 차이가 있습니다.
기하평균의 개념
기하평균의 경우, 비율에 대한 값을 다룰 때 사용하는 평균의 개념을 말합니다.
수업 때, 예시로서 내가 주식에서 100%의 수익을 달성하고 다음 날에 -100%의 손해를 발생했을 때, 이 비율에 대하여 산술평균으로 접근하면 오류가 생긴다는 상황을 들어주셨습니다.
이 예시를 통해, 보다 쉽게 이 개념을 받아들일 수 있었습니다.
위에서의 평균 개념들과 다르게 곱하고 제곱근을 한다는 특징이 있습니다.
분산, 표본분산
분산의 경우 편차 제곱의 합을 자료의 수로 나눈 값을 의미합니다.
여기에서 편차란 평균과 자료값의 차이를 의미합니다.
강의자료에서는 분모에 (n-1)이 적혀있는데 이는 표본분산인 경우를 의미합니다.
모분산의 경우는 n으로 나누며 시그마로 표시하고, 표본분산의 경우 (n-1)로 나누며 s로 표기합니다.
표준 편차에 식의 두 가지 형태
표준 편차 계산을 위한 수식을 2가지 배웠습니다.
저 두 수식이 왜 같은지에 대해 증명을 하는 과정을 보며, 이해도를 높일 수 있었습니다.
예제를 풀며 왜 두 가지 수식을 알고 있어야 하는지 느낄 수 있었습니다.
다양한 상황에서 데이터를 분석함에 있어서는 같은 개념에 대해서도 여러 가지 형태의 수식을 배워두면 유용할 것임을 배웠습니다.
왜도, 첨도
왜도의 경우 분포의 비대칭도가 어느정도 되는지 나타내는 수치로 영어로는 Skewness라고 합니다.
오른쪽으로 긴 꼬리가 있는 경우를 Positive Skew라고 합니다.
이 때는 양의 값으로 이상치가 있는 경우를 의미하기 때문에 평균이 이에 영향을 받아 중앙값보다 우측으로 위치하는 특징을 보입니다.
반대로 음의 값으로 이상치가 있는 경우는 Negative Skew라고 하며 Positive Skew와는 반대의 상황을 보입니다.
상관성 분석
상관성에 대한 개념과 공분산, 상관계수에 대한 개념을 배웠습니다.
상관계수는 확률변수 간의 변화가 서로 어느 정도로 관계가 있는 정도를 나타내는 값입니다.
절대값이 1에 가까울수록 상관관계가 강함을 의미하며, +1에 가까운 경우는 양의 상관 관계에 해당하고, -1에 가까울 경우에는 음의 상관관계에 해당합니다.
단, 특정 구간을 기준으로 양의 선형관계와 음의 선형관계가 달라지는 자료라면 상관계수 값으로는 0에 가깝게 나오겠지만 제대로 된 분석을 하지는 않을 것이므로 이 수치만을 보고 판단해서는 안된다고 배웠습니다.
'통계 - 메타코드' 카테고리의 다른 글
[통계 기초의 모든것 올인원] 메타코드 강의 후기 - 통계적 추정 (1) | 2024.05.19 |
---|---|
[통계 기초의 모든것 올인원] 메타코드 강의 후기 - 연속확률분포, 통계적 추정 (0) | 2024.05.19 |
[통계 기초의 모든것 올인원] 메타코드 강의 후기 - 연속확률분포 (0) | 2024.05.12 |
[통계 기초의 모든것 올인원] 메타코드 강의 후기 - 이산확률분포 (0) | 2024.05.12 |
[통계 기초의 모든것 올인원] 메타코드 강의 후기 - "2강 확률과 확률변수" (0) | 2024.05.05 |