2024 ADsP 데이터분석 준전문가 시험공부 9일차/20

자격증/ADsP 2024. 5. 1. 16:00

728x90

[03과목-02장]

01 통계의 이해

1. 통계 개요

(1) 통계와 표본조사

① 통계의 이해

- 통계 : 분석하고자 하는 집단에 대해서 조사하거나 실험을 통해서 얻는 자료 또는 이익 요약된 형태

- 통계학 : 불확실한 상황에서 효과적인 의사결정을 할 수 있도록 수치자료를 수집하고, 정리하고, 표현하고, 분석하는 이론과 방법을 연구하는 학문

- 통계분석 : 특정집단을 대상으로 자료를 수집하여 대상집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용하여 의사결을(통계적 추론)을 하는 과정

② 표본조사 ★★

- ex) 모집단 : '한국의 대학생' ← 규모가 매우 큼, 전수조사 거의 불가능

- 표본집단을 선별하여 표본조사 실시 필요 (한국의 대학생을 대표할 수 있어야 함 : 표본의 대표성)

+ 신뢰수준 & 오차범위

- ex) '성인 남녀 1000명을 대상으로 한 여론조사에서 A 후보 지지율 60%, B 후보 지지율 30%, 신뢰수준 95%, 오차범위 ±3%포인트'

- 신뢰수준 95% : 95% 신뢰할 수 있다는 말이 아닌, 만약 100번 조사했을 때 오차 범위 내(±3%포인트)에서 동일한 결과가 95번 나온다는 의미

- 오차범위 ±3%포인트 : A후보 지지율 오차범위 57~63%, B후보 지지율 오차범위 27~33% 의미

(2) 표본추출 방법 ★★

① 단순 랜덤 추출법

: N개의 모집단에서 n개의 데이터를 무작위로 추출하는 방법

- 가장 쉽고 단순한 방법, 사타리 타기 혹은 제비뽑기

② 계통 추출법

: 모집단의 원소에 차례대로 번호를 부여한 뒤 일정한 간격을 두고 데이터를 추출하는 방법

- 1. N개의 모집단에서 K개씩(K=N/n) n개의 구간으로 나눈다

- 2. 첫 구간에서(1, 2, 3..., K개의 구간) 하나를 임의로 선택하고 K개씩 띄어서 표본 추출

③ 집락(군집 : Cluster) 추출법

: 데이터를 여러 집락으로 구분한 뒤, 단순 랜덤 추출법에 의하여 선택된 집락의 데이터를 표본으로 사용하는 방법

- 각 집락은 서로 동질적이며, 집락 내 데이터는 서로 이질적

④ 층화 추출법

: 집락 추출법과 유사하나 반대의 성격을 지닌 추출 방법

- 데이터를 여러 집락으로 구분하지만 각 집락은 서로 이질적이며, 집락 내 데이터는 서로 동질적

비례 층화 추출법	: 전체 데이터의 분포를 반영하여 각 군집별 데이터를 추출하는 방법 - ex) 1학년 200명, 2학년 300명, 3학년 500명인 학교에서 표본을 추출한다면 각 군집별로 추출되는 데이터의 개수는 전체 데이터 분포의 비율과 동일하게 1학년 : 2학년 : 3학년 = 2 : 3 : 5를 유지해서 표본 추출
불비례 층화 추출법	: 전체 데이터의 분포를 반영하지 않고 각 군집에서 원하는 개수의 데이터를 추출하는 방법 - 원하는 군집에서 원하는 표본의 개수 추출

+ 복원 추출과 비복원 추출

복원 추출	표본으로 뽑힌 데이터가 다시 모집단으로 들어가 한 번 더 추출될 수 있는 것을 의미
비복원 추출	한번 뽑힌 데이터는 모집단에서 제외되어 다시 추출될 수 없는 것을 의미

- 계통 추출법과 같이 각 데이터에 번호를 부여하여 일정한 간격을 두고 뽑는 것은 중복된 데이터가 발생할 수 없으므로 비복원 추출 방법의 일종으로 볼 수 있으며, 그 외 단순 랜덤 추출법, 집락 추출법, 층화 추출법은 복원, 비복원 결정 필요

(3) 측정과 척도 ★★★

① 측정과 척도의 개념

- 측정 : 표본조사를 실시하는 경우 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하게 관측해 자료를 얻는 것

- 척도 : 관측 대상의 속성을 측정하여 그 값이 숫자로 나타나도록 일정한 규칙을 정하여 바꾸는 도구

② 척도의 종류

구분		특징	예시
질적 척도	명목척도	측정 대상이 어느 집단에 속하는지 나타내는 자료	성별, 지역 등
질적 척도	순서척도 (서열척도)	측정 대상이 명목척도이면서 서열 관계를 갖는 자료	선호도, 신용도, 학년 등
양적 척도	구간척도 (등간척도)	측정 대상이 가지고 있는 속성의 양을 측정할 수 있으며 두 구간 사이에 의미가 있는 자료	온도, 지수 등
양적 척도	비율척도	측정 대상이 구간척도이면서 절대적 기준 0이 존재하여 사칙연산이 가능한 자료	신장, 무게, 점수, 가격 등

(4) 기술통계와 추리통계 ★★

① 기술통계

: 표본 자체의 속성이나 특징을 파악하는 데 중점을 두는 데이터 분석 통계

- 목적 : 자료 요약 및 조직화, 단순화

- 표본조사 이후 표본을 설명해주는 데이터의 최솟값, 최댓값, 중위수 등의 통계량이 바로 기술 통계량이며,

모집단의 특성을 유추하는 데 사용 가능

② 추리통계(추론통계)

: 수집한 데이터를 바탕으로 '추론 및 예측'하는 통계 기법

- 표본에서 얻은 통계치를 바탕으로 오차를 고려하면서 모수를 확률적으로 추정하는 통계 기법

- 표본에서 얻은 통계치를 가지고 모집단의 특성을 추정하는 데 초점을 두고 가설을 검증하거나 확률적인 가능성 파악, 이를 통해 향후 발생할 수 있는 사건 예측 가능

2. 확률과 확률분포

(1) 확률

① 확률 기초 ★★

- 확률 : 발생 가능한 모든 사건들의 집합 표본공간에서 표본공간의 부분집합인 특정 사건 A가 발생할 수 있는 비율을 나타내는 값, 0과 1 사이의 값이며 가능한 모든 사건의 확률의 합은 항상 1

- 조건부 확률 : 특정 사건 A가 발생했다는 것이 사실이라는 전제하에 또 다른 사건 B가 발생할 확률을 나타낸 값, 0과 1 사이의 값

② 독립사건과 배반사건 ★★★

- 독립사건 : 서로에게 영향을 주지 않는 두 개의 사건.

- A와 B가 독립인 경우 : 아래 식 성립

- 배반사건 : 두 사건 A와 B에 대하여 교집합, 즉 공통된 부분이 없는 경우 즉, 동시에 일어날 수 없는 사건

③ 확률변수와 확률분포 그리고 확률함수 ★★★

- 확률변수 : 무작위 실험을 했을 때 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수

- 확률분포 : 확률변수의 모든 값과 그에 대응하는 확률이 어떻게 분포하고 있는지

- 이산확률분포의 확률함수를 '확률질량함수', 연속확률분포의 확률함수를 '확률밀도함수'라 함

(2) 이산확률분포 ★★★

① 베르누이 분포

: 확률변수 X가 취할 수 있는 값이 두 개인 경우로 일반적으로 한 번의 시행을 할 때 성공과 실패로 나눌 수 있는 성공할 확률이 p인 분포를 의미

- ex) 하나의 동전을 던져서 앞면이 나올 확률, 시험 합격 or 불합격 확률, 제비뽑기 당첨 확률

② 이항 분포

: n번의 베르누이 시행(성공 또는 실패)에서 k번 성공할 확률의 분포를 의미

- ex) 하나의 동전을 3번 던져서 앞면이 2번 나올 확률, 3번의 제비뽑기에서 1번 당첨될 확률

③ 기하 분포

: 성공 확률이 p인 베르누이 시행에서 처음으로 성공이 나올 때까지 k번 실패할 확률의 분포를 의미

- ex) 동전을 던져서 3번째에 앞면이 나올 확률, 주사위를 던져서 4번째에 1이 나올 확률

④ 다항 분포

: n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률의 분포를 의미. 이항 분포를 확장한 개념

- ex) 주사위를 n번 던졌을 때 1의 눈이 p1의 확률로 x번, 2의 눈이 p2의 확률로 y번 ···

⑤ 포아송 분포

: 단위 시간 또는 단위 공간 내에서 발생할 수 있는 사건의 발생 횟수에 대한 확률분포를 의미

- ex) 8시간 동안 3번의 장난전화가 왔을 때 1시간 동안 장난전화가 2번 올 확률

⑥ 이산확률변수

: 확률변수가 취할 수 있는 실수 값의 수를 셀 수 있는 변수

- 셀 수 있는 실수값을 취함, 서로 배반인 사건들의 합집합의 확률은 각 사건의 확률의 합

(3) 연속확률분포 ★★★

① 균일 분포

: 연속형 확률변수인 X가 취할 수 있는 모든 값에 대하여 같은 확률을 갖고 있는 분포를 의미

- ex) 얼마나 들어 있는지 모르는 200ml 우유팩 속에 들어 있는 우유의 양

② 정규분포

: 가장 대표적인 연속형 확률분포 중 하나로 평균이 μ이고, 표준편차가 σ인 분포를 의미 N(μ,σ)

- 분포의 모양은 평균값에 가장 많이 몰려 있고 평균에서 멀어질수록 빈도수가 낮은 종 모양의 그래프를 가짐

③ t-분포

- 자유도가 n인 t 분포는 표준정규분포와 마찬가지로 평균이 0이고 좌우가 대칭인 종 모양의 그래프지만 정규분포보다 꼬리가 두꺼움

- 자유도가 커질수록 t 분포는 표준정규분포에 가까워짐

- 자유도 : 표본자료들이 모집단에 대한 정보를 주는 독립적인 자료의 개수

④ 카이제곱 분포

- 표준정규분포를 따르는 확률변수 Z1, Z2, Z3, ···, Zn의 제곱의 합 X는 자유도가 n인 카이제곱 분포를 따름

- 모평균과 모분산을 모르는 두 개 이상의 집단 간 동질성 검정 또는 모분산 검정을 위해 활용

+ 동질성 검정

: 두 집단의 내부 구성비를 비교하는 것

- ex) 속이 보이지 않는 두 개의 모금함이 있고, 도둑이 모금함에서 돈을 꺼냈을 때

모금함 1 : 100원 x4, 500원 x4

모금함 2 : 100원 x7, 500원 x1

==> 모금함 1에 500원이 더 많이 있을 것이라 유추하고 모금함 1을 목표로 설정

⑤ F 분포

- 서로 독립인 두 카이제곱 분포를 따르는 확률변수 V1~ x^2 (k1),V2~ x^2 (k2)를 각각의 자유도로 나누었을 때 서로의 비율 X는 자유도가 k1, k2인 F 분포를 따름

- 등분산 검정 및 분산분석을 위해 활용

+ 등분산 검정

: 두 모집단에 대하여 분산이 같은지 다른지를 검정하기 위한 가설검정

- 가설검정을 수행하는 환경에 따라 두 모집단에 대한 평균을 비교할 때 분산의 동등 여부는 중요하며, 두 모집단의 분산이 같은 경우와 다른 경우의 모평균을 비교하는 방법이 다름

⑥ 연속확률변수

: 확률변수가 취할 수 있는 실수 값이 어떤 특정 구간 전체에 해당하여 그 수를 셀 수 없는 변수

- 연속확률변수에서는 확률밀도함수의 아래 면적이 확률을 의미

- ex) 신생아의 몸무게, 태풍으로 내린 강우량, 심장발작 이후 생존기간 등

(4) 기댓값, 분산, 표준편차 ★★★

① 기댓값

: 특정 사건이 시행되었을 때 확률변수 X가 취할 수 있는 평균 값

- 확률변수 X의 값과 그 X가 발생할 확률의 곱들의 합으로 구함

- 관측될 것이라고 기대되는 관측값에 대한 평균, 확률변수의 평균, 즉 모평균은 통계분석에서 중요한 추론의 대상임

② 분산

: 데이터들이 중심에서 얼마나 떨어져 있는지를 알아보기 위한 측도

- 관측값에서 평균을 뺀 값을 제곱하고, 모두 더한 후 전체 개수로 나눔. 즉, 차이값의 제곱의 평균

- 확률변수의 분산 : 확률변수가 취할 수 있는 값들이 그 중심(모평균)에서 얼마나 떨어져 있는지를 측정하는 측도. 값이 크면 클수록 확률 X값이 기댓값에서 멀리 떨어져 있을 수 있음

- 확률변수의 분산은 앞으로 측정 또는 관측될 가능성이 있는 값들에 대한 측도

③ 표준편차

: 자료의 산포도를 나타내는 수치로, 분산의 양의 제곱근

- 값이 클수록 기댓값으로부터 멀리 떨어져 있다는 의미

- 사용 목적 : 기존 자료와의 단위 통일

(5) 꼭 알아두어야 하는 통계 개념

① 첨도와 왜도

- 첨도(kurtosis) : 확률분포의 뾰족한 정도를 나타내는 측도. 값이 3에 가까울수록 정규분포 모양

- 첨도값은 3을 기준으로 뾰족한 정도를 나타내지만 정규분포의 첨도를 0으로 나타내기 위해 첨도값에서 3을 빼서 사용하기도 함

- 왜도(skewness) : 확률분포의 비대칭 정도를 나타내는 측도

- 왜도값이 0인 경우에는 정규 분포와 유사한 모습으로 평균, 중앙값, 최빈값이 모두 같음

② 공분산(Covariance)

: 두 확률변수 X, Y의 상관 정도를 나타내는 값

- 하나의 확률변수가 증가할 때 다른 확률변수가 증가 or 감소하는지 파악 가능

- 공분산이 양수면 X가 증가할 때 Y도 증가, 음수면 X가 증가할 때 Y감소

- 문제점 : 공분산 값이 100이면 X, Y의 두 확률 분포가 어느 정도의 선형성을 갖는지 파악 불가

③ 상관계수(Correlation)

: -1과 1 사이의 값을 가지며 공분산을 X의 표준편차와 Y의 표준편차 모두로 나눈 값

- 공분산의 문제를 해결한 것

3. 추정과 가설검정

(1) 추정

① 모수의 추정

- 모수 : 모집단의 확률분포 및 특성을 알려주는 모평균과 모분산과 같은 값들

- 현실적으로 모집단 전체를 대상으로 조사하는 것은 불가능, 대부분 표본조사를 실시하여 모수를 추정

② 점추정

: 모집단의 모수, 특히 모평균을 추정할 때 모평균을 하나의 특정한 값이라고 예측하는 것

- 모평균을 추정하기 위한 불편추정량은 표본집단의 평균값인 표본평균이 대표적

- 불편(unbiased)추정량 : 모수를 측정할 때 추정하는 값과 실제 모수 값의 차이의 기댓값이 0으로 어느 한쪽으로 편향되지 않아 모수를 추정하기에 이상적인 값을 의미 (최소의 분산을 가진 추정량이 가장 좋음)

③ 구간추정

: 점추정은 모수가 특정한 값일 것이라 예상하는 반면, 구간추정은 모수가 특정한 구간 안에 존재할 것이라 예상하는 것

- 모수가 특정 구간 안에 포함될 확률인 신뢰도(신뢰수준)가 필요, 신뢰도로는 95%와 99% 가장 많이 사용

(2) 가설검정 ★★★

① 가설검정의 개념

- 통계적 가설검정 : 모집단의 특성에 대한 주장 또는 가설을 세우고 표본에서 얻은 정보를 이용해 가설이 옳은지를 판정하는 과정

- 귀무가설과 대립가설로 구분

② 귀무가설(null hupothesis)

: 모집단이 어떠한 특징을 지닐 것으로 여겨지는 가설. 일반적으로 '같다'(=)를 사용하여 나타낼 수 있는 가설

- 실험, 연구를 통해 기각하고자 하는 어떤 가설로, H0로 표시, 대립가설과 상반되며 귀무가설의 기각을 통해 입증하고자 하는 주장을 관철할 수 있음

③ 대립가설(alternative hypothesis)

: 귀무가설에 반대되는 가설로 귀무가설이 틀렸다고 판단될 경우 채택되는 가설로 H1로 표시

- 실험, 연구를 통해 증명하고자 하는 새로운 아이디어 혹은 가설에 해당

④ 제1종 오류와 제2종 오류 ★★★

- 제1종 오류 : 귀무가설(H0)이 사실인데 귀무가설(H0)이 틀렸다고 결정하는 오류

- 제2종 오류 : 귀무가설(H0)이 사실이 아님에도 불구하고 귀무가설(H0)이 옳다고 결정하는 오류

	H0 채택(H1 기각)	H0 기각(H1 채택)
H0 사실	올바른 결정	제1종 오류
H0 거짓	제2종 오류	올바른 결정

⑤ 검정통계량(test statistic)

: 귀무가설의 채택 여부를 판단하기 위하여 표본조사를 실시하였을 때 특정 수식에 의하여 표본들로부터 얻을 수 있는 값

- 귀무가설의 옳고 그름을 판단할 수 있는 값

⑥ 기각역

: 귀무가설을 기각하게 될 검정통계량의 영역으로, 검정통계량이 기각역 내에 있으면 귀무가설을 기각함

- 반대로 검정통계량이 기각역 밖의 채택역에 있으면 귀무가설 기각 불가

- 임곗값(critical value) : 기각역의 경곗값

⑦ 유의수준(significance level, α)

: 귀무가설이 참인데도 이를 잘못 기각하는 오류를 범할 확률의 최대 허용 한계로, 1%(0.01)와 5%(0.05)를 주로 사용하며 가설검정을 수행하는 환경에 맞게 조절 가능

- 제1종 오류와 제2종 오류 모두 줄이는 게 좋지만 서로 반비레 관계라, 제1종 오류를 허용할 수 있는 최대 확률 유의수준(α)을 설정하여 가설검정을 수행

⑧ 유의확률(significance probability, p-value)

: 귀무가설을 지지하는 정도를 나타낸 확률값

- p-value가 유의수준 α보다 작은 경우에는 귀무가설이 참임을 가정했을 때 이러한 결과가 나올 확률이 매우 적다고 해석 가능 (따라서 귀무가설을 기각하고 대립가설 채택)

- 반면 p-value가 유의수준 α보다 큰 경우에는 대립가설을 기각하고 귀무가설을 채택

+ 유의수준과 유의확률

유의수준	유의확률
- 귀무가설이 사실일 때, 이를 기각하는 확률 - 제 1종 오류가 발생할 수 있는 최대의 확률 - 가설검정을 수행하는 자가 환경에 맞게 값을 설정할 수 있지만, 통상적으로 0.05를 많이 사용	- 귀무가설을 지지하는 정도로 검정통계량으로부터 얻는 값 - 귀무가설을 기각할 때 그 결정이 잘못되었을 확률
유의확률(p-value) < 유의수준(0.05) ==> 귀무가설 기각 가능	유의확률(p-value) > 유의수준(0.05) ==> 귀무가설 기각 불가능

(3) 비모수 검정

① 모수검정 vs. 비모수 검정

- 모수검정 : 표본이 정규성을 갖는다는 모수적 특성을 이용하는 통계 방법, 표본의 정규성 반드시 확보

- 비모수 검정 : 정규성 검정에서 정규분포를 따르지 않는다고 증명되거나 표본 군집당 10명 미만의 소규모 실험에서와 같이 정규분포임을 가정할 수 없는 경우에 사용 (e.g., 순위합검정)

- 숫자로는 표현되지만 수량화할 수 없고 평균을 낼 수도 없는 서열척도의 경우에는 비록 연속형 자료는 아니지만, 순위의 합을 이용하는 비모수적 방법을 적용하는 것 가능

- 비모수 검정은 모수의 분포에 대해 어떠한 가정(정규분포)도 하지 않는 검정

- 이상치로 인해 평균보다 중앙값이 더 바람직한 경우, 표본의 크기가 작은 경우, 순위와 같은 서수 데이터인 경우 사용

② 모수검정과 비모수 검정의 차이 ★★

모수검정(parametric test)	비모수 검정(nonparametric test)
등간척도, 비율척도	명목척도, 서열척도
평균	중앙값
피어슨 상관계수	스피어만 순위상관계수
one sample t-test, two sample t-test, paired t-test, one way anova	부호 검정, Wilcoxon 부호 순위 검정, Mann-Vhitney 검정, Kruskal Wallis 검정

+ 비모수 검정의 종류

- 연속성 검정(Wald-Wofowitz runs test)

- 부호 순위 검정(Wilcoxon signed-rank test)

- 순위 합 검정(Wilcoxon rank sum test, Mann-Whitney U test)

- 크러스컬-월리스 검정(Kruskal-Wallis one-way analysis of variance)

- 스피어만 서열상관분석(Spearman's rank correlation analysis)

- 부호 검정(binomial sign test)

- 프리드만 검정(Friedman test)

728x90

'자격증 > ADsP' 카테고리의 다른 글

2024 ADsP 데이터분석 준전문가 시험공부 11일차/20 (0)	2024.05.04
2024 ADsP 데이터분석 준전문가 시험공부 10일차/20 (0)	2024.05.02
2024 ADsP 데이터분석 준전문가 시험공부 8일차/20 (1)	2024.04.26
2024 ADsP 데이터분석 준전문가 시험공부 7일차/20 (0)	2024.04.25
2024 ADsP 데이터분석 준전문가 시험공부 6일차/20 (0)	2024.04.24

ABOUT ME

ALOHOMORA ALOHOMORA

01 통계의 이해

1. 통계 개요

2. 확률과 확률분포

3. 추정과 가설검정

'자격증 > ADsP' 카테고리의 다른 글

티스토리툴바

ABOUT ME

01 통계의 이해

1. 통계 개요

2. 확률과 확률분포

3. 추정과 가설검정

'자격증 > ADsP' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바