본문으로 건너뛰기

통계의 이해

통계 개요

통계와 표본조사

통계의 이해

  • 분석하고자 하는 집단에 대해 조사하거나 실험을 통해 얻는 자료 또는 요약된 형태를 말한다.
  • 통계학이란 불확실한 상황에서 효과적인 의사결정을 할 수 있도록 수치자료를 수집하고, 정리하고, 표현하고, 분석하는 이론과 방법을 연구하는 학문이다.
  • 통계분석이란 특정집단을 대상으로 자료를 수집하여 대상집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용하여 의사결정(통계적 추론)을 하는 과정을 말함

표본조사 ⭐️⭐️

  • 어떠한 모집단을 대표할 수 있는 표본집단을 선별하여 표본조사를 실시
  • 표본집단은 반드시 모집단을 대표할 수 있는 집단이어야한다. 이를 표본의 대표성이라 한다.
  • 표본의 대표성을 신뢰할 수 있어야 표본조사를 통한 모집단의 통계분석 또한 신뢰할 수 있다.
  • 따라서 이 표본을 어떻게 추출할 것인지에 관한 방법은 매우 중요

표본추출 방법 ⭐️⭐️

단순 램덤 추출법

  • 표본추출 방법 중 가장 쉽고 단순한 방법
  • N개의 모집단에서 n개의 데이터를 무작위로 추출하는 방법

계통 추출법

  • 모집단의 원소에 차례대로 번호를 부여한 뒤 일정한 간격을 두고 데이터를 추출하는 방법
  • N개의 모집단에서 K개씩(K=N/n) n개의 구간으로 나눈다. 첫 구간에서(1, 2, 3…K개의 구간) 하나를 임의 선택하고 K개씩 띄어서 표본을 추출

집락(군집: Cluster) 추출법

  • 데이터를 여러 집락으로 구분한 뒤, 단순 램덤 추출법에 의하여 선택된 집락의 데이터를 표본으로 사용하는 방법
  • 각 집락은 서로 동질적이며, 집락 내 데이터는 서로 이질적이다.

층화 추출법

  • 집락 추출법과 유사하나 반대의 성격을 지닌 추출 방법
  • 데이터를 여러 집락으로 구분하지만 각 집락은 서로 이질적이며, 군집 내 데이터들은 서로 동질적이다.
  • 집락을 나눈 뒤, 각 집락에서 원하는 개수의 데이터를 추출하여 추출된 데이터에 대해 표본조사를 실시
  • 집락별로 추출되는 데이터의 비율을 어떻게 정할 것인지에 따라 비례 층화 추출법과 불비례 층화 추출법으로 나눌 수 있다.

측정과 척도 ⭐️⭐️⭐️

측정과 척도의 개념

  • 측정 - 표본조사를 실시하는 경우 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하게 관측해 자료를 얻는 것
  • 척도 - 관측 대상의 속성을 측정하여 그 값이 숫자로 나타나도록 일정한 규칙을 정하여 바꾸는 도구

척도의 종류


기술통계와 추리통계 ⭐️⭐️

기술통계

  • 표본 자체의 속성이나 특징을 파악하는데 중점을 두는 데이터 분석 통계
  • 자료를 요약하고 조직화, 단순화하는데 그 목적이 있다.
  • 표본조사 이후 표본을 설명해주는 데이터의 최솟값, 최댓값, 중위수 등의 통계량이 바로 기술 통계량이며, 모집단의 톡성을 유추하는데 사용할 수 있다.

추리통계(추론통계)

  • 수집한 데이터를 바탕으로 ‘추론 및 예측’하는 통계 기법
  • 표본에서 얻은 통계치를 바탕으로 오차를 고려하면서 모수를 확률적으로 추정하는 통계 기법
  • 표본에서 얻은 통계치를 가지고 모집단의 특성을 추정하는 데 초점을 두고 가설을 검증하거나 확률적인 가능성을 파악한다. 이를 통해 향후 발생할 수 있는 사건을 예측할 수 있다.

확률과 확률분포

확률

확률 기초 ⭐️⭐️

  • 확률 - 발생 가능한 모든 사건들의 집합 표본공간에서 표본공간의 부분집합인 특정 사건 A가 발생 할 수 있는 비율을 나타내는 값으로, 0과 1 사이의 값이며, 가능한 모든 사건의 확률의 합은 항상 1이다.
  • 조건부 확률 - 특정 사건 A가 발생했다는 것이 사실이라는 전제하에 또 다른 사건 B가 발생할 확률을 나타낸 값으로, 0과 1 사이의 값을 갖는다.

독립사건과 배반사건 ⭐️⭐️⭐️

  • 독립사건 - 서로에게 영향을 주지 않는 두 개의 사건
  • 조건부 확률에서 두 사건 A,B가 독립인 경우에는 A가 발생해도 B의 확률은 변하지 않기에 다음 식이 성립
  • 배반사건 - 두 사건 A와 B에 대하여 교집합, 즉 공통된 부분이 없는 경우
  • 동시에 일어날 수 없는 사건

확률변수와 확률분포 그리고 확률함수 ⭐️⭐️⭐️

  • 확률변수 - 무작위 실험을 했을때 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수
    • 동전 앞 뒤를 1과 0으로 표현하는것과 같다
    • 확률 변수는 다시 변수의 특성에 따라 이산확률변수와 연속확률변수로 구분된다.
  • 확률분포 - 확률변수의 모든 값과 그에 대응하는 확률이 어떻게 분포하고 있는지가 바로 확률분포
  • 이때 확률변수에 의해 정의된 실수를 확률에 대응시키는 함수를 확률함수라고 한다.
  • 이산확률분포의 확률함수를 ‘확률질량함수’, 연속확률분포의 확률함수를 ‘확률밀도함수’라 한다.

이산확률분포 ⭐️⭐️⭐️

베르누이 분포

  • 확률변수 X가 취할 수 있는 값이 두 개인 경우로 일반적으로 한 번의 시행을 할 때 성공과 실패로 나눌 수 있는 성공할 확률이 p인 분포를 의미한다.
  • 동전을 던져 앞면이 나올 확률

이항 분포

  • 이항 분포는 n번의 베르누이 시행(성공 또는 실패)에서 k번 성공할 확률의 분포
  • 동전을 3번 던져 앞면이 2번 나올 확률

기하 분포

  • 성공 확률이 p인 베르나이 시행에서 처음으로 성공이 나올 때까지 k번 실패할 확률의 분포
  • 동전을 던져서 3번째에 앞면이 나올 확률

다항 분포

  • 이항 분포를 확장한 개념, n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률의 분포
  • 주사위를 n번 던졌을 때 1의 눈이 p1의 확률로 x번, 2의 눈이 p2의 확률로 y번…

포아송 분포

  • 단위 시간 또는 단위 공간 내에서 발생할 수 있는 사건의 발생 횟수에 대한 확률분포
  • 8시간 동안 3번의 장난전화가 왔을 때 1시간 동안 장난전화가 2번 올 확률

이산확률변수

  • 확률변수가 취할 수 있는 실수 값의 수를 셀 수 있는 변수
  • 이산확률변수는 셀 수 있는 실수값을 취한다
  • 서로 배반인 사건들의 합집합의 확률은 각 사건의 확률의 합이다.

연속확률분포 ⭐️⭐️⭐️

균일 분포

  • 연속형 확률변수인 X가 취할 수 있는 모든 값에 대하여 같은 확률을 갖고 있는 분포
  • 얼마나 들어 있는지 모르는 200ml 우유팩 속에 들어 있는 우유의 양
  • 두 개의 균일 분포 모두 면적의 넓이는 확률의 총합인 1이다.

정규분포

  • 가장 대표적인 연속형 확률분포 중 하나로 평균이 μ이고, 표준편차가 σ인 분포를 의미한다.
  • 한 학교의 1학년 수학 점수의 분포, 전국 남성의 키
  • 분포의 모양은 평균값에 가장 많이 몰려 있고 평균에서 멀어질수록 빈도수가 낮은 종 모양의 그래프를 갖는다.

t-분포

  • 자유도가 n인 t 분포는 표준정규분포와 마찬가지로 평균이 0이고 좌우가 대칭인 종 모양의 그래프지만 정규분포보다 두꺼운 꼬리를 갖는다.
  • 표준정규분포를 활용하여 모평균(모수)을 추정하기 위해서는 모표준편차를 사전에 알고 있어야 한다.
  • 그러나 현실적으로 모표준편차를 모르기 때문에 t 분포를 이용하여 모평균 검정 또는 주 집단의 평균이 동일한지 계산하기 위한 검정통계량으로 활용된다.
  • 자유도가 커질수록 t 분포는 표준정규분포에 가까워진다.

카이제곱 분포

  • 표준정규분포를 따르는 확률변수 Z1, Z2, Z3, ..., Zn의 제곱의 합X는 자유도가 n인 카이제곱 분포를 따른다.
  • 카이제곱 분포는 모평균과 모분산을 모르는 두 개 이상의 집단 간 동질성 검정 또는 모분산 검정을 위해 활용된다.

F 분포

연속확률변수

  • 확률변수가 취할 수 있는 실수 값이 어떤 특정 구간 전체에 해당하여 그 수를 셀 수 없는 변수
  • 연속확률변수에서는 확률밀도함수의 아래 면적이 확률을 의미한다.

기댓값, 분산, 표준편차 ⭐️⭐️⭐️

기댓값

  • 특정 사건이 시행되었을 때 확률변수 X가 취할 수 있는 값의 평균 값
  • 확률변수 X의 값과 그 X가 발생할 확률의 곱들의 합으로 구할 수 있다.
  • 곽측될 것이라고 기대되는 관측값에 대한 평균이므로 기댓값이라고 하며, 확률변수의 평균, 즉 모평균은 통계분석에서 중요한 추론의 대상

분산

  • 분산 - 데이터들이 중심에서 얼마나 떨어져 있는지를 알아보기 위한 측도.
    • 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 난눠서 구함.
    • 즉, 차이값의 제곱의 평균
  • 확률변수의 분산 - 확률변수가 취할 수 있는 값들이 그 중심(모평균)에서 얼마나 떨어져 있는지를 측정하는 측도
    • 값이 크면 클수록 확률 X값이 기댓값에서 멀리 떨어져 있을 수 있다.
  • 확률변수의 분산은 확률변수의 평균과 마찬가지로 이미 측정되어 있는 값에 대한 것이 아니고 앞으로 측정 또는 관측될 가능성이 있는 값들에 대한 측도

표준편차

  • 자료의 산포도를 나타내는 수치로, 분산의 양의 제곱근으로 정의
  • 분산과 같이 값이 클수록 기댓값으로부터 멀리 떨어져 있다는 의미
  • 표준편차의 사용 목적은 기존 자료와의 단위 통일

꼭 알아두어야 하는 통계 개념

첨도와 왜도

  • 첨도 - 확률분포의 뾰족한 정도를 나타내는 측도로서 값이 3에 가까울수록 정규분포 모양을 갖는다.
  • 첨도값은 3을 기준으로 뾰족한 정도를 나타내지만 정규분포의 첨도를 0으로 나타내기 위해 첨도값에서 3을 빼서 사용하기도 한다.
  • 왜도 - 확률분포의 비대칭 정도를 나타내는 측도로, 왜도값이 0인 경우에는 정규분포와 유사한 모습으로 평균, 중앙값, 최빈값이 모두 같다.

공분산

  • 두 확률변수 X, Y의 상관 정도를 나타내느 값으로, 하나의 확률변수가 증가 할 때 다른 확률변수가 증가하는지 혹은 감소하는지를 알 수 있다.
  • 공부산이 양수면 X가 증가할 때 Y도 증가하며, 음수면 X가 증가할 때 Y는 감소
  • 그러나 공분산에는 문제점이 있다. 공분산 값이 100이라는 양숫값을 갖는다면 X, Y의 두 확률분포가 어느 정도의 선형성을 갖는지 알 수 없다는 것이다.

상관계수

  • 공분산의 문제를 해결한 값으로, -1과 1 사이의 값을 가지며 공분산을 X의 표준편차와 Y의 표준편차 모두로 나눈 값이다.

추정과 가설검정

추정

모수의 추정

  • 통계적 방법론에서 궁극적으로 알고 싶은 것은 모집단의 확률분포 및 특성을 알려주는 모평균과 모분산과 같은 값들인 모수라고 한다.
  • 우리가 원하는 것은 모수이지만, 현실적으로 모집단 전체를 대상으로 조사하는 것은 거의 불가능하거나 쉬운 일이 아니기 때문에 대부분 표본조사를 실시하여 모수를 추정

점추정

  • 모집단의 모수, 특히 모평균을 추정할 때 모평균을 하나의 특정한 값이라고 예측하는 것이다. 모평균을 추정하기 위한 불편추정량은 표본집단의 평균값이 표본평균이 대표적이다.
  • 불편추정량 - 모수를 추정할 때 추정하는 값과 실제 모수 값의 차이의 기댓값이 0으로 어느 한쪽으로 편향되지 않아 모수를 추정하기에 이상적인 값을 의미. 불편추정량 중에서 최소의 분산을 가진 추정량이 가장 좋은 추정량이다.

구간추정

  • 점추정은 모수가 특정한 값일 것이라 예상하는 반면, 구간추정은 모수가 특정한 구간 안에 존재할 것이라 예상하는 것
  • 구간추정은 모수(μ)가 특정 구간 안에 포함될 확률인 신뢰도(신뢰수준)가 필요하다. 신뢰도(신뢰수준)로는 95%와 99%를 가장 많이 사용한다.

가설검정 ⭐️⭐️⭐️

가설검정의 개념

  • 통계적 가설검정은 모집단의 특성에 대한 주장 또는 가설을 세우고 표본에서 얻은 정보를 이용해 가설이 옳은지를 판정하는 과정
  • 통계적 가설은 귀무가설과 대립가설로 구분할 수 있다.

귀무가설(null hypothesis)

  • 모집단이 어떠한 특징을 지닐 것으로 여겨지는 가설로서 일반적으로 ‘차이가 없다’, ‘같다’(=) 기호를 사용하여 나타낼 수 있는 가설로 흔히 $H_o$로 나타낸다.
  • 귀무가설은 실험, 연구를 통해 기각하고자 하는 어떤 가설로, $H_0$로 표시한다. 대립가설과 상반되며 귀무가설의 기각을 통해 입증하고자 하는 주장을 관철할 수 있다.

대립가설(alternative hypothesis)

  • 귀무가설에 반대되는 가설로 귀무가설이 틀렸다고 판단될 경우 채택되는 가설로 $H_1$로 나타낸다.
  • 대립가설은 실험, 연구를 통해 증명하고자 하는 새로운 아이디어 혹은 가설에 해당한다.

제1종 오류와 제2종 오류 ⭐️⭐️⭐️

  • 제1종 오류 - 귀무가설($H_o$)이 사살인데 귀무가설($H_o$)이 틀렸다고 결정하는 오류
  • 제2종 오류 - 귀무가설($H_o$)이 사실이 아님에도 불구하고 귀무가설($H_o$)이 옳다고 결정하는 오류

검정통계량(test statistic)

  • 귀무가설의 채택 여부를 판단하기 위하여 표본조사를 실시하였을 때 특정 수식에 의하여 표본들로부터 얻을 수 있는 값
  • 귀무가설의 옳고 그름을 판단할 수 있는 값

기각역

  • 귀무가설을 기각하게 될 검정통계량의 영역으로, 검정통계량이 기각역 내에 있으면 귀무가설을 기각한다.
  • 반대로 검정통계량이 기각역 밖의 채택역에 있으면 귀무가설을 기각할 수 없다.
  • 기각역의 경계값을 임계값(critical value)이라고 한다.

유의수준(significance level, $a$)

  • 귀무가설이 참인데도 이를 잘못 기각하는 오류를 범할 확률의 최대 허용 한계로, 1%와 5%를 주로 사용하며 가설검정을 수행하는 환경에 맞게 조절할 수 있다.
  • 가설검정을 수행하는 데 있어 제1종 오류와 제2종 오류 모두를 줄일 수 있다면 아주 이상적. 하지만 제1종 오류와 제2종 오류는 서로 반비례 관계로 하나를 낮추면 다른 하나가 커지기 때문에 제1종 오류를 허용할 수 있는 최대 확률 유의수준(a)을 설정하여 가설검정을 수행

유의확률(significance probability)

  • 유의확률 또는 p-value는 귀무가설을 지지하는 정도를 나타낸 확률값으로 p-value가 유의수준 a보다 작은 경우에는 귀무가설이 참임을 가정했을 때 이러한 결과가 나올 확률이 매우 적다고 해석 할 수 있다. 따라서 귀무가설을 기각하고 대립가설을 채택한다.
  • 반면 p-value가 유의수준 a보다 큰 경우에는 대립가설을 기각하고 귀무가설을 채택하게 된다.

비모수 검정

모수검정 vs 비모수 검정

  • 모수검정 - 표본이 정규성을 갖는다는 모수적 특성을 이용한 통계 방법
    • 따라서 표본의 정규성이 반드시 확보되어야 한다.
  • 비모수 검정 - 정규성 검정에서 정규분포를 따르지 않는다고 증명되거나 표본 군집당 10명 미만의 소규모 실험에서와 같이 정규분포임을 가정할 수 없는 경우에 사용
  • 정규분포를 따르지 않는 경우 자료를 크기순으로 배열하여 순위를 매긴 다음 순위의 합을 통해 차이를 비교하는 순위합검정을 적용할 수 있는데 이런 방법들은 모수의 특성을 이용하지 않는다고 하여 비모수 검정이라 한다.
  • 숫자로는 표현되지만 수량화할 수 없고 평균을 낼 수도 없는 서열척도의 경우에는 비록 연속형 자료는 아니지만, 순위의 합을 이용하는 비모수적 방법을 적용하는 것은 가능
  • 비모수 검정은 분포에 대해 어떠한 가정(정규분포)도 하지 않는 검정
  • 이상치로 인해 평균보다 중앙값이 더 바람직한 경우, 표본의 크기가 작은 경우, 순위와 같은 서수 데이터인 경우 사용