ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 2024 ADsP 데이터분석 준전문가 시험공부 9일차/20
    CERTIFICATION/ADsP 2024. 5. 1. 16:00
    728x90
    반응형

    [03과목-02장]

    01 통계의 이해

    1. 통계 개요

    (1) 통계와 표본조사

    ① 통계의 이해 

    - 통계 : 분석하고자 하는 집단에 대해서 조사하거나 실험을 통해서 얻는 자료 또는 이익 요약된 형태

    - 통계학 : 불확실한 상황에서 효과적인 의사결정을 할 수 있도록 수치자료를 수집하고, 정리하고, 표현하고, 분석하는 이론과 방법을 연구하는 학문 

    - 통계분석 : 특정집단을 대상으로 자료를 수집하여 대상집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용하여 의사결을(통계적 추론)을 하는 과정

     

    ② 표본조사

    - ex) 모집단 : '한국의 대학생' ← 규모가 매우 큼, 전수조사 거의 불가능

    - 표본집단을 선별하여 표본조사 실시 필요 (한국의 대학생을 대표할 수 있어야 함 : 표본의 대표성)

     

    + 신뢰수준 & 오차범위

    - ex) '성인 남녀 1000명을 대상으로 한 여론조사에서 A 후보 지지율 60%, B 후보 지지율 30%, 신뢰수준 95%, 오차범위 ±3%포인트' 

    - 신뢰수준 95% : 95% 신뢰할 수 있다는 말이 아닌, 만약 100번 조사했을 때 오차 범위 내(±3%포인트)에서 동일한 결과가 95번 나온다는 의미 

    - 오차범위 ±3%포인트 : A후보 지지율 오차범위 57~63%, B후보 지지율 오차범위 27~33% 의미

     

    (2) 표본추출 방법

    ① 단순 랜덤 추출법

    : N개의 모집단에서 n개의 데이터를 무작위로 추출하는 방법

    - 가장 쉽고 단순한 방법, 사타리 타기 혹은 제비뽑기

     

    ② 계통 추출법

    : 모집단의 원소에 차례대로 번호를 부여한 뒤 일정한 간격을 두고 데이터를 추출하는 방법

    - 1. N개의 모집단에서 K개씩(K=N/n) n개의 구간으로 나눈다

    - 2. 첫 구간에서(1, 2, 3..., K개의 구간) 하나를 임의로 선택하고 K개씩 띄어서 표본 추출

     

    ③ 집락(군집 : Cluster) 추출법

    : 데이터를 여러 집락으로 구분한 뒤, 단순 랜덤 추출법에 의하여 선택된 집락의 데이터를 표본으로 사용하는 방법

    - 각 집락은 서로 동질적이며, 집락 내 데이터는 서로 이질적

     

    ④ 층화 추출법

    : 집락 추출법과 유사하나 반대의 성격을 지닌 추출 방법

    - 데이터를 여러 집락으로 구분하지만 각 집락은 서로 이질적이며, 집락 내 데이터는 서로 동질적

    비례 층화 추출법 : 전체 데이터의 분포를 반영하여 각 군집별 데이터를 추출하는 방법
    - ex) 1학년 200명, 2학년 300명, 3학년 500명인 학교에서 표본을 추출한다면 각 군집별로 추출되는 데이터의 개수는 전체 데이터 분포의 비율과 동일하게 1학년 : 2학년 : 3학년 = 2 : 3 : 5를 유지해서 표본 추출
    불비례 층화 추출법 : 전체 데이터의 분포를 반영하지 않고 각 군집에서 원하는 개수의 데이터를 추출하는 방법
    - 원하는 군집에서 원하는 표본의 개수 추출

     

    + 복원 추출과 비복원 추출

    복원 추출 표본으로 뽑힌 데이터가 다시 모집단으로 들어가 한 번 더 추출될 수 있는 것을 의미
    비복원 추출 한번 뽑힌 데이터는 모집단에서 제외되어 다시 추출될 수 없는 것을 의미

     

    - 계통 추출법과 같이 각 데이터에 번호를 부여하여 일정한 간격을 두고 뽑는 것은 중복된 데이터가 발생할 수 없으므로 비복원 추출 방법의 일종으로 볼 수 있으며, 그 외 단순 랜덤 추출법, 집락 추출법, 층화 추출법은 복원, 비복원 결정 필요

     

    (3) 측정과 척도

    ① 측정과 척도의 개념

    - 측정 : 표본조사를 실시하는 경우 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하게 관측해 자료를 얻는 것

    - 척도 : 관측 대상의 속성을 측정하여 그 값이 숫자로 나타나도록 일정한 규칙을 정하여 바꾸는 도구

     

    ② 척도의 종류

    구분 특징 예시
    질적 척도 명목척도 측정 대상이 어느 집단에 속하는지 나타내는 자료 성별, 지역 등
    순서척도
    (서열척도)
    측정 대상이 명목척도이면서 서열 관계를 갖는 자료 선호도, 신용도, 학년 등
    양적 척도 구간척도
    (등간척도)
    측정 대상이 가지고 있는 속성의 양을 측정할 수 있으며
    두 구간 사이에 의미가 있는 자료
    온도, 지수 등
    비율척도 측정 대상이 구간척도이면서 절대적 기준 0이 존재하여
    사칙연산이 가능한 자료
    신장, 무게, 점수, 가격 등

     

    (4) 기술통계와 추리통계

    ① 기술통계

    : 표본 자체의 속성이나 특징을 파악하는 데 중점을 두는 데이터 분석 통계

    - 목적 : 자료 요약 및 조직화, 단순화

    - 표본조사 이후 표본을 설명해주는 데이터의 최솟값, 최댓값, 중위수 등의 통계량이 바로 기술 통계량이며,

    모집단의 특성을 유추하는 데 사용 가능

     

    ② 추리통계(추론통계)

    : 수집한 데이터를 바탕으로 '추론 및 예측'하는 통계 기법

    - 표본에서 얻은 통계치를 바탕으로 오차를 고려하면서 모수를 확률적으로 추정하는 통계 기법

    - 표본에서 얻은 통계치를 가지고 모집단의 특성을 추정하는 데 초점을 두고 가설을 검증하거나 확률적인 가능성 파악, 이를 통해 향후 발생할 수 있는 사건 예측 가능

    2. 확률과 확률분포

    (1) 확률

    ① 확률 기초

    - 확률 : 발생 가능한 모든 사건들의 집합 표본공간에서 표본공간의 부분집합인 특정 사건 A가 발생할 수 있는 비율을 나타내는 값, 0과 1 사이의 값이며 가능한 모든 사건의 확률의 합은 항상 1

    - 조건부 확률 : 특정 사건 A가 발생했다는 것이 사실이라는 전제하에 또 다른 사건 B가 발생할 확률을 나타낸 값, 0과 1 사이의 값

     

    ② 독립사건과 배반사건  

    - 독립사건 : 서로에게 영향을 주지 않는 두 개의 사건.

    - A와 B가 독립인 경우 : 아래 식 성립

    - 배반사건 : 두 사건 A와 B에 대하여 교집합, 즉 공통된 부분이 없는 경우 즉, 동시에 일어날 수 없는 사건

     

    ③ 확률변수와 확률분포 그리고 확률함수

    - 확률변수 : 무작위 실험을 했을 때 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수

    - 확률분포 : 확률변수의 모든 값과 그에 대응하는 확률이 어떻게 분포하고 있는지

    - 이산확률분포의 확률함수를 '확률질량함수', 연속확률분포의 확률함수를 '확률밀도함수'라 함

     

    (2) 이산확률분포

    ① 베르누이 분포

    : 확률변수 X가 취할 수 있는 값이 두 개인 경우로 일반적으로 한 번의 시행을 할 때 성공과 실패로 나눌 수 있는 성공할 확률이 p인 분포를 의미

    - ex) 하나의 동전을 던져서 앞면이 나올 확률, 시험 합격 or 불합격 확률, 제비뽑기 당첨 확률

    ② 이항 분포

    : n번의 베르누이 시행(성공 또는 실패)에서 k번 성공할 확률의 분포를 의미

    - ex) 하나의 동전을 3번 던져서 앞면이 2번 나올 확률, 3번의 제비뽑기에서 1번 당첨될 확률

    ③ 기하 분포

    : 성공 확률이 p인 베르누이 시행에서 처음으로 성공이 나올 때까지 k번 실패할 확률의 분포를 의미

    - ex) 동전을 던져서 3번째에 앞면이 나올 확률, 주사위를 던져서 4번째에 1이 나올 확률

    ④ 다항 분포

    : n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률의 분포를 의미. 이항 분포를 확장한 개념

    - ex) 주사위를 n번 던졌을 때 1의 눈이 p1의 확률로 x번, 2의 눈이 p2의 확률로 y번 ···

    ⑤ 포아송 분포

    : 단위 시간 또는 단위 공간 내에서 발생할 수 있는 사건의 발생 횟수에 대한 확률분포를 의미

    - ex) 8시간 동안 3번의 장난전화가 왔을 때 1시간 동안 장난전화가 2번 올 확률

    ⑥ 이산확률변수

    : 확률변수가 취할 수 있는 실수 값의 수를 셀 수 있는 변수

    - 셀 수 있는 실수값을 취함, 서로 배반인 사건들의 합집합의 확률은 각 사건의 확률의 합

    (3) 연속확률분포 

    ① 균일 분포

    : 연속형 확률변수인 X가 취할 수 있는 모든 값에 대하여 같은 확률을 갖고 있는 분포를 의미

    - ex) 얼마나 들어 있는지 모르는 200ml 우유팩 속에 들어 있는 우유의 양

    위키피디아 - 연속 균등 분포

    ② 정규분포

    : 가장 대표적인 연속형 확률분포 중 하나로 평균이 μ이고, 표준편차가 σ인 분포를 의미 N(μ,σ)

    - 분포의 모양은 평균값에 가장 많이 몰려 있고 평균에서 멀어질수록 빈도수가 낮은 종 모양의 그래프를 가짐

    정규분포
    확률밀도함수

    ③ t-분포

    - 자유도가 n인 t 분포는 표준정규분포와 마찬가지로 평균이 0이고 좌우가 대칭인 종 모양의 그래프지만 정규분포보다 꼬리가 두꺼움

    - 자유도가 커질수록 t 분포는 표준정규분포에 가까워짐

    - 자유도 : 표본자료들이 모집단에 대한 정보를 주는 독립적인 자료의 개수

    t 분포

     

    ④ 카이제곱 분포

    - 표준정규분포를 따르는 확률변수 Z1, Z2, Z3, ···, Zn의 제곱의 합 X는 자유도가 n인 카이제곱 분포를 따름

    - 모평균과 모분산을 모르는 두 개 이상의 집단 간 동질성 검정 또는 모분산 검정을 위해 활용

    카이제곱 분포

    + 동질성 검정

    : 두 집단의 내부 구성비를 비교하는 것

    - ex) 속이 보이지 않는 두 개의 모금함이 있고, 도둑이 모금함에서 돈을 꺼냈을 때 

    모금함 1 : 100원 x4, 500원 x4

    모금함 2 : 100원 x7, 500원 x1

    ==> 모금함 1에 500원이 더 많이 있을 것이라 유추하고 모금함 1을 목표로 설정 

     

    ⑤ F 분포

    - 서로 독립인 두 카이제곱 분포를 따르는 확률변수 V1~ x^2 (k1),V2~ x^2 (k2)를 각각의 자유도로 나누었을 때 서로의 비율 X는 자유도가 k1, k2인 F 분포를 따름

    - 등분산 검정 및 분산분석을 위해 활용

    F 분포

    + 등분산 검정

    : 두 모집단에 대하여 분산이 같은지 다른지를 검정하기 위한 가설검정

    - 가설검정을 수행하는 환경에 따라 두 모집단에 대한 평균을 비교할 때 분산의 동등 여부는 중요하며, 두 모집단의 분산이 같은 경우와 다른 경우의 모평균을 비교하는 방법이 다름

     

    ⑥ 연속확률변수

    : 확률변수가 취할 수 있는 실수 값이 어떤 특정 구간 전체에 해당하여 그 수를 셀 수 없는 변수

    - 연속확률변수에서는 확률밀도함수의 아래 면적이 확률을 의미

    - ex) 신생아의 몸무게, 태풍으로 내린 강우량, 심장발작 이후 생존기간 등

     

    (4) 기댓값, 분산, 표준편차

    ① 기댓값

    : 특정 사건이 시행되었을 때 확률변수 X가 취할 수 있는 평균 값

    - 확률변수 X의 값과 그 X가 발생할 확률의 곱들의 합으로 구함

    - 관측될 것이라고 기대되는 관측값에 대한 평균, 확률변수의 평균, 즉 모평균은 통계분석에서 중요한 추론의 대상임

     

    ② 분산

    : 데이터들이 중심에서 얼마나 떨어져 있는지를 알아보기 위한 측도

    - 관측값에서 평균을 뺀 값을 제곱하고, 모두 더한 후 전체 개수로 나눔. 즉, 차이값의 제곱의 평균

    - 확률변수의 분산 : 확률변수가 취할 수 있는 값들이 그 중심(모평균)에서 얼마나 떨어져 있는지를 측정하는 측도. 값이 크면 클수록 확률 X값이 기댓값에서 멀리 떨어져 있을 수 있음

    - 확률변수의 분산은 앞으로 측정 또는 관측될 가능성이 있는 값들에 대한 측도

     

    ③ 표준편차

    : 자료의 산포도를 나타내는 수치로, 분산의 양의 제곱근

    - 값이 클수록 기댓값으로부터 멀리 떨어져 있다는 의미

    - 사용 목적 : 기존 자료와의 단위 통일

     

    (5) 꼭 알아두어야 하는 통계 개념

    ① 첨도와 왜도

    - 첨도(kurtosis) : 확률분포의 뾰족한 정도를 나타내는 측도. 값이 3에 가까울수록 정규분포 모양

    - 첨도값은 3을 기준으로 뾰족한 정도를 나타내지만 정규분포의 첨도를 0으로 나타내기 위해 첨도값에서 3을 빼서 사용하기도 함

     

    - 왜도(skewness) : 확률분포의 비대칭 정도를 나타내는 측도

    - 왜도값이 0인 경우에는 정규 분포와 유사한 모습으로 평균, 중앙값, 최빈값이 모두 같음

     

    ② 공분산(Covariance)

    : 두 확률변수 X, Y의 상관 정도를 나타내는 값

    - 하나의 확률변수가 증가할 때 다른 확률변수가 증가 or 감소하는지 파악 가능

    - 공분산이 양수면 X가 증가할 때 Y도 증가, 음수면 X가 증가할 때 Y감소

    - 문제점 : 공분산 값이 100이면 X, Y의 두 확률 분포가 어느 정도의 선형성을 갖는지 파악 불가

     

    ③ 상관계수(Correlation)

    : -1과 1 사이의 값을 가지며 공분산을 X의 표준편차와 Y의 표준편차 모두로 나눈 값

    - 공분산의 문제를 해결한 것

    3. 추정과 가설검정

    (1) 추정

    ① 모수의 추정

    - 모수 : 모집단의 확률분포 및 특성을 알려주는 모평균과 모분산과 같은 값들

    - 현실적으로 모집단 전체를 대상으로 조사하는 것은 불가능, 대부분 표본조사를 실시하여 모수를 추정

     

    ② 점추정

    : 모집단의 모수, 특히 모평균을 추정할 때 모평균을 하나의 특정한 값이라고 예측하는 것

    - 모평균을 추정하기 위한 불편추정량은 표본집단의 평균값인 표본평균이 대표적

    - 불편(unbiased)추정량 : 모수를 측정할 때 추정하는 값과 실제 모수 값의 차이의 기댓값이 0으로 어느 한쪽으로 편향되지 않아 모수를 추정하기에 이상적인 값을 의미 (최소의 분산을 가진 추정량이 가장 좋음)

     

    ③ 구간추정

    : 점추정은 모수가 특정한 값일 것이라 예상하는 반면, 구간추정은 모수가 특정한 구간 안에 존재할 것이라 예상하는 것

    - 모수가 특정 구간 안에 포함될 확률인 신뢰도(신뢰수준)가 필요, 신뢰도로는 95%와 99% 가장 많이 사용

     

    (2) 가설검정

    ① 가설검정의 개념

    - 통계적 가설검정 : 모집단의 특성에 대한 주장 또는 가설을 세우고 표본에서 얻은 정보를 이용해 가설이 옳은지를 판정하는 과정

    - 귀무가설과 대립가설로 구분

     

    ② 귀무가설(null hupothesis)

    : 모집단이 어떠한 특징을 지닐 것으로 여겨지는 가설. 일반적으로 '같다'(=)를 사용하여 나타낼 수 있는 가설

    - 실험, 연구를 통해 기각하고자 하는 어떤 가설로, H0로 표시, 대립가설과 상반되며 귀무가설의 기각을 통해 입증하고자 하는 주장을 관철할 수 있음

     

    ③ 대립가설(alternative hypothesis)

    : 귀무가설에 반대되는 가설로 귀무가설이 틀렸다고 판단될 경우 채택되는 가설로 H1로 표시

    - 실험, 연구를 통해 증명하고자 하는 새로운 아이디어 혹은 가설에 해당

     

    ④ 제1종 오류와 제2종 오류

    - 제1종 오류 : 귀무가설(H0)이 사실인데 귀무가설(H0)이 틀렸다고 결정하는 오류

    - 제2종 오류 : 귀무가설(H0)이 사실이 아님에도 불구하고 귀무가설(H0)이 옳다고 결정하는 오류

      H0 채택(H1 기각) H0 기각(H1 채택)
    H0 사실 올바른 결정 제1종 오류
    H0 거짓 제2종 오류 올바른 결정

     

    ⑤ 검정통계량(test statistic)

    : 귀무가설의 채택 여부를 판단하기 위하여 표본조사를 실시하였을 때 특정 수식에 의하여 표본들로부터 얻을 수 있는 값

    - 귀무가설의 옳고 그름을 판단할 수 있는 값

     

    ⑥ 기각역

    : 귀무가설을 기각하게 될 검정통계량의 영역으로, 검정통계량이 기각역 내에 있으면 귀무가설을 기각함

    - 반대로 검정통계량이 기각역 밖의 채택역에 있으면 귀무가설 기각 불가

    - 임곗값(critical value) : 기각역의 경곗값

     

    ⑦ 유의수준(significance level, α)

    : 귀무가설이 참인데도 이를 잘못 기각하는 오류를 범할 확률의 최대 허용 한계로, 1%(0.01)와 5%(0.05)를 주로 사용하며 가설검정을 수행하는 환경에 맞게 조절 가능

    - 제1종 오류와 제2종 오류 모두 줄이는 게 좋지만 서로 반비레 관계라, 제1종 오류를 허용할 수 있는 최대 확률 유의수준(α)을 설정하여 가설검정을 수행

     

    ⑧ 유의확률(significance probability, p-value)

    : 귀무가설을 지지하는 정도를 나타낸 확률값

    - p-value가 유의수준 α보다 작은 경우에는 귀무가설이 참임을 가정했을 때 이러한 결과가 나올 확률이 매우 적다고 해석 가능 (따라서 귀무가설을 기각하고 대립가설 채택)

    - 반면 p-value가 유의수준 α보다 큰 경우에는 대립가설을 기각하고 귀무가설을 채택

     

    + 유의수준과 유의확률

    유의수준 유의확률
    - 귀무가설이 사실일 때, 이를 기각하는 확률
    - 제 1종 오류가 발생할 수 있는 최대의 확률
    - 가설검정을 수행하는 자가 환경에 맞게 값을 설정할 수 있지만, 통상적으로 0.05를 많이 사용
    - 귀무가설을 지지하는 정도로 검정통계량으로부터 얻는 값
    - 귀무가설을 기각할 때 그 결정이 잘못되었을 확률
    유의확률(p-value) < 유의수준(0.05)
    ==> 귀무가설 기각 가능
    유의확률(p-value) > 유의수준(0.05)
    ==> 귀무가설 기각 불가능

    가설검정 절차

     

    (3) 비모수 검정

    ① 모수검정 vs. 비모수 검정

    - 모수검정 : 표본이 정규성을 갖는다는 모수적 특성을 이용하는 통계 방법, 표본의 정규성 반드시 확보

     

    - 비모수 검정 : 정규성 검정에서 정규분포를 따르지 않는다고 증명되거나 표본 군집당 10명 미만의 소규모 실험에서와 같이 정규분포임을 가정할 수 없는 경우에 사용 (e.g., 순위합검정)

    - 숫자로는 표현되지만 수량화할 수 없고 평균을 낼 수도 없는 서열척도의 경우에는 비록 연속형 자료는 아니지만, 순위의 합을 이용하는 비모수적 방법을 적용하는 것 가능

    - 비모수 검정은 모수의 분포에 대해 어떠한 가정(정규분포)도 하지 않는 검정

    - 이상치로 인해 평균보다 중앙값이 더 바람직한 경우, 표본의 크기가 작은 경우, 순위와 같은 서수 데이터인 경우 사용

     

    ② 모수검정과 비모수 검정의 차이

    모수검정(parametric test) 비모수 검정(nonparametric test)
    등간척도, 비율척도 명목척도, 서열척도
    평균 중앙값
    피어슨 상관계수 스피어만 순위상관계수
    one sample t-test, two sample t-test, paired t-test,
    one way anova
    부호 검정, Wilcoxon 부호 순위 검정, Mann-Vhitney 검정,
    Kruskal Wallis 검정

     

    + 비모수 검정의 종류

    - 연속성 검정(Wald-Wofowitz runs test)

    - 부호 순위 검정(Wilcoxon signed-rank test)

    - 순위 합 검정(Wilcoxon rank sum test, Mann-Whitney U test)

    - 크러스컬-월리스 검정(Kruskal-Wallis one-way analysis of variance)

    - 스피어만 서열상관분석(Spearman's rank correlation analysis)

    - 부호 검정(binomial sign test)

    - 프리드만 검정(Friedman test)

    728x90
    반응형
Designed by Tistory.