통계의 이해

통계 개요

통계와 표본조사

통계의 이해

분석하고자 하는 집단에 대해 조사하거나 실험을 통해 얻는 자료 또는 요약된 형태를 말한다.
통계학이란 불확실한 상황에서 효과적인 의사결정을 할 수 있도록 수치자료를 수집하고, 정리하고, 표현하고, 분석하는 이론과 방법을 연구하는 학문이다.
통계분석이란 특정집단을 대상으로 자료를 수집하여 대상집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용하여 의사결정(통계적 추론)을 하는 과정을 말함

표본조사 ⭐️⭐️

어떠한 모집단을 대표할 수 있는 표본집단을 선별하여 표본조사를 실시
표본집단은 반드시 모집단을 대표할 수 있는 집단이어야한다. 이를 표본의 대표성이라 한다.
표본의 대표성을 신뢰할 수 있어야 표본조사를 통한 모집단의 통계분석 또한 신뢰할 수 있다.
따라서 이 표본을 어떻게 추출할 것인지에 관한 방법은 매우 중요

표본추출 방법 ⭐️⭐️

단순 램덤 추출법

표본추출 방법 중 가장 쉽고 단순한 방법
N개의 모집단에서 n개의 데이터를 무작위로 추출하는 방법

계통 추출법

모집단의 원소에 차례대로 번호를 부여한 뒤 일정한 간격을 두고 데이터를 추출하는 방법
N개의 모집단에서 K개씩(K=N/n) n개의 구간으로 나눈다. 첫 구간에서(1, 2, 3…K개의 구간) 하나를 임의 선택하고 K개씩 띄어서 표본을 추출

집락(군집: Cluster) 추출법

데이터를 여러 집락으로 구분한 뒤, 단순 램덤 추출법에 의하여 선택된 집락의 데이터를 표본으로 사용하는 방법
각 집락은 서로 동질적이며, 집락 내 데이터는 서로 이질적이다.

층화 추출법

집락 추출법과 유사하나 반대의 성격을 지닌 추출 방법
데이터를 여러 집락으로 구분하지만 각 집락은 서로 이질적이며, 군집 내 데이터들은 서로 동질적이다.
집락을 나눈 뒤, 각 집락에서 원하는 개수의 데이터를 추출하여 추출된 데이터에 대해 표본조사를 실시
집락별로 추출되는 데이터의 비율을 어떻게 정할 것인지에 따라 비례 층화 추출법과 불비례 층화 추출법으로 나눌 수 있다.

측정과 척도 ⭐️⭐️⭐️

측정과 척도의 개념

측정 - 표본조사를 실시하는 경우 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하게 관측해 자료를 얻는 것
척도 - 관측 대상의 속성을 측정하여 그 값이 숫자로 나타나도록 일정한 규칙을 정하여 바꾸는 도구

척도의 종류

기술통계와 추리통계 ⭐️⭐️

기술통계

표본 자체의 속성이나 특징을 파악하는데 중점을 두는 데이터 분석 통계
자료를 요약하고 조직화, 단순화하는데 그 목적이 있다.
표본조사 이후 표본을 설명해주는 데이터의 최솟값, 최댓값, 중위수 등의 통계량이 바로 기술 통계량이며, 모집단의 톡성을 유추하는데 사용할 수 있다.

추리통계(추론통계)

수집한 데이터를 바탕으로 ‘추론 및 예측’하는 통계 기법
표본에서 얻은 통계치를 바탕으로 오차를 고려하면서 모수를 확률적으로 추정하는 통계 기법
표본에서 얻은 통계치를 가지고 모집단의 특성을 추정하는 데 초점을 두고 가설을 검증하거나 확률적인 가능성을 파악한다. 이를 통해 향후 발생할 수 있는 사건을 예측할 수 있다.

확률과 확률분포

확률

확률 기초 ⭐️⭐️

확률 - 발생 가능한 모든 사건들의 집합 표본공간에서 표본공간의 부분집합인 특정 사건 A가 발생 할 수 있는 비율을 나타내는 값으로, 0과 1 사이의 값이며, 가능한 모든 사건의 확률의 합은 항상 1이다.

조건부 확률 - 특정 사건 A가 발생했다는 것이 사실이라는 전제하에 또 다른 사건 B가 발생할 확률을 나타낸 값으로, 0과 1 사이의 값을 갖는다.

독립사건과 배반사건 ⭐️⭐️⭐️

독립사건 - 서로에게 영향을 주지 않는 두 개의 사건
조건부 확률에서 두 사건 A,B가 독립인 경우에는 A가 발생해도 B의 확률은 변하지 않기에 다음 식이 성립

배반사건 - 두 사건 A와 B에 대하여 교집합, 즉 공통된 부분이 없는 경우
동시에 일어날 수 없는 사건

확률변수와 확률분포 그리고 확률함수 ⭐️⭐️⭐️

확률변수 - 무작위 실험을 했을때 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수
- 동전 앞 뒤를 1과 0으로 표현하는것과 같다
- 확률 변수는 다시 변수의 특성에 따라 이산확률변수와 연속확률변수로 구분된다.
확률분포 - 확률변수의 모든 값과 그에 대응하는 확률이 어떻게 분포하고 있는지가 바로 확률분포
이때 확률변수에 의해 정의된 실수를 확률에 대응시키는 함수를 확률함수라고 한다.
이산확률분포의 확률함수를 ‘확률질량함수’, 연속확률분포의 확률함수를 ‘확률밀도함수’라 한다.

이산확률분포 ⭐️⭐️⭐️

베르누이 분포

확률변수 X가 취할 수 있는 값이 두 개인 경우로 일반적으로 한 번의 시행을 할 때 성공과 실패로 나눌 수 있는 성공할 확률이 p인 분포를 의미한다.
동전을 던져 앞면이 나올 확률

이항 분포

이항 분포는 n번의 베르누이 시행(성공 또는 실패)에서 k번 성공할 확률의 분포
동전을 3번 던져 앞면이 2번 나올 확률

기하 분포

성공 확률이 p인 베르나이 시행에서 처음으로 성공이 나올 때까지 k번 실패할 확률의 분포
동전을 던져서 3번째에 앞면이 나올 확률

다항 분포

이항 분포를 확장한 개념, n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률의 분포
주사위를 n번 던졌을 때 1의 눈이 p1의 확률로 x번, 2의 눈이 p2의 확률로 y번…

포아송 분포

단위 시간 또는 단위 공간 내에서 발생할 수 있는 사건의 발생 횟수에 대한 확률분포
8시간 동안 3번의 장난전화가 왔을 때 1시간 동안 장난전화가 2번 올 확률

이산확률변수

확률변수가 취할 수 있는 실수 값의 수를 셀 수 있는 변수
이산확률변수는 셀 수 있는 실수값을 취한다
서로 배반인 사건들의 합집합의 확률은 각 사건의 확률의 합이다.

연속확률분포 ⭐️⭐️⭐️

균일 분포

연속형 확률변수인 X가 취할 수 있는 모든 값에 대하여 같은 확률을 갖고 있는 분포
얼마나 들어 있는지 모르는 200ml 우유팩 속에 들어 있는 우유의 양
두 개의 균일 분포 모두 면적의 넓이는 확률의 총합인 1이다.

정규분포

가장 대표적인 연속형 확률분포 중 하나로 평균이 μ이고, 표준편차가 σ인 분포를 의미한다.
한 학교의 1학년 수학 점수의 분포, 전국 남성의 키
분포의 모양은 평균값에 가장 많이 몰려 있고 평균에서 멀어질수록 빈도수가 낮은 종 모양의 그래프를 갖는다.

t-분포

자유도가 n인 t 분포는 표준정규분포와 마찬가지로 평균이 0이고 좌우가 대칭인 종 모양의 그래프지만 정규분포보다 두꺼운 꼬리를 갖는다.
표준정규분포를 활용하여 모평균(모수)을 추정하기 위해서는 모표준편차를 사전에 알고 있어야 한다.
그러나 현실적으로 모표준편차를 모르기 때문에 t 분포를 이용하여 모평균 검정 또는 주 집단의 평균이 동일한지 계산하기 위한 검정통계량으로 활용된다.
자유도가 커질수록 t 분포는 표준정규분포에 가까워진다.

카이제곱 분포

표준정규분포를 따르는 확률변수 Z1, Z2, Z3, ..., Zn의 제곱의 합X는 자유도가 n인 카이제곱 분포를 따른다.
카이제곱 분포는 모평균과 모분산을 모르는 두 개 이상의 집단 간 동질성 검정 또는 모분산 검정을 위해 활용된다.

F 분포

연속확률변수

확률변수가 취할 수 있는 실수 값이 어떤 특정 구간 전체에 해당하여 그 수를 셀 수 없는 변수
연속확률변수에서는 확률밀도함수의 아래 면적이 확률을 의미한다.

기댓값, 분산, 표준편차 ⭐️⭐️⭐️

기댓값

특정 사건이 시행되었을 때 확률변수 X가 취할 수 있는 값의 평균 값
확률변수 X의 값과 그 X가 발생할 확률의 곱들의 합으로 구할 수 있다.
곽측될 것이라고 기대되는 관측값에 대한 평균이므로 기댓값이라고 하며, 확률변수의 평균, 즉 모평균은 통계분석에서 중요한 추론의 대상

분산

분산 - 데이터들이 중심에서 얼마나 떨어져 있는지를 알아보기 위한 측도.
- 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 난눠서 구함.
- 즉, 차이값의 제곱의 평균
확률변수의 분산 - 확률변수가 취할 수 있는 값들이 그 중심(모평균)에서 얼마나 떨어져 있는지를 측정하는 측도
- 값이 크면 클수록 확률 X값이 기댓값에서 멀리 떨어져 있을 수 있다.
확률변수의 분산은 확률변수의 평균과 마찬가지로 이미 측정되어 있는 값에 대한 것이 아니고 앞으로 측정 또는 관측될 가능성이 있는 값들에 대한 측도

표준편차

자료의 산포도를 나타내는 수치로, 분산의 양의 제곱근으로 정의
분산과 같이 값이 클수록 기댓값으로부터 멀리 떨어져 있다는 의미
표준편차의 사용 목적은 기존 자료와의 단위 통일

꼭 알아두어야 하는 통계 개념

첨도와 왜도

첨도 - 확률분포의 뾰족한 정도를 나타내는 측도로서 값이 3에 가까울수록 정규분포 모양을 갖는다.
첨도값은 3을 기준으로 뾰족한 정도를 나타내지만 정규분포의 첨도를 0으로 나타내기 위해 첨도값에서 3을 빼서 사용하기도 한다.

왜도 - 확률분포의 비대칭 정도를 나타내는 측도로, 왜도값이 0인 경우에는 정규분포와 유사한 모습으로 평균, 중앙값, 최빈값이 모두 같다.

공분산

두 확률변수 X, Y의 상관 정도를 나타내느 값으로, 하나의 확률변수가 증가 할 때 다른 확률변수가 증가하는지 혹은 감소하는지를 알 수 있다.
공부산이 양수면 X가 증가할 때 Y도 증가하며, 음수면 X가 증가할 때 Y는 감소
그러나 공분산에는 문제점이 있다. 공분산 값이 100이라는 양숫값을 갖는다면 X, Y의 두 확률분포가 어느 정도의 선형성을 갖는지 알 수 없다는 것이다.

상관계수

공분산의 문제를 해결한 값으로, -1과 1 사이의 값을 가지며 공분산을 X의 표준편차와 Y의 표준편차 모두로 나눈 값이다.

추정과 가설검정

추정

모수의 추정

통계적 방법론에서 궁극적으로 알고 싶은 것은 모집단의 확률분포 및 특성을 알려주는 모평균과 모분산과 같은 값들인 모수라고 한다.
우리가 원하는 것은 모수이지만, 현실적으로 모집단 전체를 대상으로 조사하는 것은 거의 불가능하거나 쉬운 일이 아니기 때문에 대부분 표본조사를 실시하여 모수를 추정

점추정

모집단의 모수, 특히 모평균을 추정할 때 모평균을 하나의 특정한 값이라고 예측하는 것이다. 모평균을 추정하기 위한 불편추정량은 표본집단의 평균값이 표본평균이 대표적이다.
불편추정량 - 모수를 추정할 때 추정하는 값과 실제 모수 값의 차이의 기댓값이 0으로 어느 한쪽으로 편향되지 않아 모수를 추정하기에 이상적인 값을 의미. 불편추정량 중에서 최소의 분산을 가진 추정량이 가장 좋은 추정량이다.

구간추정

점추정은 모수가 특정한 값일 것이라 예상하는 반면, 구간추정은 모수가 특정한 구간 안에 존재할 것이라 예상하는 것
구간추정은 모수(μ)가 특정 구간 안에 포함될 확률인 신뢰도(신뢰수준)가 필요하다. 신뢰도(신뢰수준)로는 95%와 99%를 가장 많이 사용한다.

가설검정 ⭐️⭐️⭐️

가설검정의 개념

통계적 가설검정은 모집단의 특성에 대한 주장 또는 가설을 세우고 표본에서 얻은 정보를 이용해 가설이 옳은지를 판정하는 과정
통계적 가설은 귀무가설과 대립가설로 구분할 수 있다.

귀무가설(null hypothesis)

모집단이 어떠한 특징을 지닐 것으로 여겨지는 가설로서 일반적으로 ‘차이가 없다’, ‘같다’(=) 기호를 사용하여 나타낼 수 있는 가설로 흔히 $H_o$로 나타낸다.
귀무가설은 실험, 연구를 통해 기각하고자 하는 어떤 가설로, $H_0$로 표시한다. 대립가설과 상반되며 귀무가설의 기각을 통해 입증하고자 하는 주장을 관철할 수 있다.

대립가설(alternative hypothesis)

귀무가설에 반대되는 가설로 귀무가설이 틀렸다고 판단될 경우 채택되는 가설로 $H_1$로 나타낸다.
대립가설은 실험, 연구를 통해 증명하고자 하는 새로운 아이디어 혹은 가설에 해당한다.

제1종 오류와 제2종 오류 ⭐️⭐️⭐️

제1종 오류 - 귀무가설($H_o$)이 사살인데 귀무가설($H_o$)이 틀렸다고 결정하는 오류
제2종 오류 - 귀무가설($H_o$)이 사실이 아님에도 불구하고 귀무가설($H_o$)이 옳다고 결정하는 오류

검정통계량(test statistic)

귀무가설의 채택 여부를 판단하기 위하여 표본조사를 실시하였을 때 특정 수식에 의하여 표본들로부터 얻을 수 있는 값
귀무가설의 옳고 그름을 판단할 수 있는 값

기각역

귀무가설을 기각하게 될 검정통계량의 영역으로, 검정통계량이 기각역 내에 있으면 귀무가설을 기각한다.
반대로 검정통계량이 기각역 밖의 채택역에 있으면 귀무가설을 기각할 수 없다.
기각역의 경계값을 임계값(critical value)이라고 한다.

유의수준(significance level, $a$)

귀무가설이 참인데도 이를 잘못 기각하는 오류를 범할 확률의 최대 허용 한계로, 1%와 5%를 주로 사용하며 가설검정을 수행하는 환경에 맞게 조절할 수 있다.
가설검정을 수행하는 데 있어 제1종 오류와 제2종 오류 모두를 줄일 수 있다면 아주 이상적. 하지만 제1종 오류와 제2종 오류는 서로 반비례 관계로 하나를 낮추면 다른 하나가 커지기 때문에 제1종 오류를 허용할 수 있는 최대 확률 유의수준(a)을 설정하여 가설검정을 수행

유의확률(significance probability)

유의확률 또는 p-value는 귀무가설을 지지하는 정도를 나타낸 확률값으로 p-value가 유의수준 a보다 작은 경우에는 귀무가설이 참임을 가정했을 때 이러한 결과가 나올 확률이 매우 적다고 해석 할 수 있다. 따라서 귀무가설을 기각하고 대립가설을 채택한다.
반면 p-value가 유의수준 a보다 큰 경우에는 대립가설을 기각하고 귀무가설을 채택하게 된다.

비모수 검정

모수검정 vs 비모수 검정

모수검정 - 표본이 정규성을 갖는다는 모수적 특성을 이용한 통계 방법
- 따라서 표본의 정규성이 반드시 확보되어야 한다.
비모수 검정 - 정규성 검정에서 정규분포를 따르지 않는다고 증명되거나 표본 군집당 10명 미만의 소규모 실험에서와 같이 정규분포임을 가정할 수 없는 경우에 사용
정규분포를 따르지 않는 경우 자료를 크기순으로 배열하여 순위를 매긴 다음 순위의 합을 통해 차이를 비교하는 순위합검정을 적용할 수 있는데 이런 방법들은 모수의 특성을 이용하지 않는다고 하여 비모수 검정이라 한다.
숫자로는 표현되지만 수량화할 수 없고 평균을 낼 수도 없는 서열척도의 경우에는 비록 연속형 자료는 아니지만, 순위의 합을 이용하는 비모수적 방법을 적용하는 것은 가능
비모수 검정은 분포에 대해 어떠한 가정(정규분포)도 하지 않는 검정
이상치로 인해 평균보다 중앙값이 더 바람직한 경우, 표본의 크기가 작은 경우, 순위와 같은 서수 데이터인 경우 사용

통계의 이해

통계 개요​

통계와 표본조사​

통계의 이해​

표본조사 ⭐️⭐️​

표본추출 방법 ⭐️⭐️​

단순 램덤 추출법​

계통 추출법​

집락(군집: Cluster) 추출법​

층화 추출법​

측정과 척도 ⭐️⭐️⭐️​

측정과 척도의 개념​

척도의 종류​

기술통계와 추리통계 ⭐️⭐️​

기술통계​

추리통계(추론통계)​

확률과 확률분포​

확률​

확률 기초 ⭐️⭐️​

독립사건과 배반사건 ⭐️⭐️⭐️​

확률변수와 확률분포 그리고 확률함수 ⭐️⭐️⭐️​

이산확률분포 ⭐️⭐️⭐️​

베르누이 분포​

이항 분포​

기하 분포​

다항 분포​

포아송 분포​

이산확률변수​

연속확률분포 ⭐️⭐️⭐️​

균일 분포​

정규분포​

t-분포​

카이제곱 분포​

F 분포​

연속확률변수​

기댓값, 분산, 표준편차 ⭐️⭐️⭐️​

기댓값​

분산​

표준편차​

꼭 알아두어야 하는 통계 개념​

첨도와 왜도​

공분산​

상관계수​

추정과 가설검정​

추정​

모수의 추정​

점추정​

구간추정​

가설검정 ⭐️⭐️⭐️​

가설검정의 개념​

귀무가설(null hypothesis)​

대립가설(alternative hypothesis)​

제1종 오류와 제2종 오류 ⭐️⭐️⭐️​

검정통계량(test statistic)​

기각역​

유의수준(significance level, $a$)​

유의확률(significance probability)​

비모수 검정​

모수검정 vs 비모수 검정​

통계 개요

통계와 표본조사

통계의 이해

표본조사 ⭐️⭐️

표본추출 방법 ⭐️⭐️

단순 램덤 추출법

계통 추출법

집락(군집: Cluster) 추출법

층화 추출법

측정과 척도 ⭐️⭐️⭐️

측정과 척도의 개념

척도의 종류

기술통계와 추리통계 ⭐️⭐️

기술통계

추리통계(추론통계)

확률과 확률분포

확률

확률 기초 ⭐️⭐️

독립사건과 배반사건 ⭐️⭐️⭐️

확률변수와 확률분포 그리고 확률함수 ⭐️⭐️⭐️

이산확률분포 ⭐️⭐️⭐️

베르누이 분포

이항 분포

기하 분포

다항 분포

포아송 분포

이산확률변수

연속확률분포 ⭐️⭐️⭐️

균일 분포

정규분포

t-분포

카이제곱 분포

F 분포

연속확률변수

기댓값, 분산, 표준편차 ⭐️⭐️⭐️

기댓값

분산

표준편차

꼭 알아두어야 하는 통계 개념

첨도와 왜도

공분산

상관계수

추정과 가설검정

추정

모수의 추정

점추정

구간추정

가설검정 ⭐️⭐️⭐️

가설검정의 개념

귀무가설(null hypothesis)

대립가설(alternative hypothesis)

제1종 오류와 제2종 오류 ⭐️⭐️⭐️

검정통계량(test statistic)

기각역

유의수준(significance level, $a$)

유의확률(significance probability)

비모수 검정

모수검정 vs 비모수 검정