-
2024 ADsP 데이터분석 준전문가 시험공부 9일차/20CERTIFICATION/ADsP 2024. 5. 1. 16:00728x90반응형
[03과목-02장]
01 통계의 이해
1. 통계 개요
(1) 통계와 표본조사
① 통계의 이해
- 통계 : 분석하고자 하는 집단에 대해서 조사하거나 실험을 통해서 얻는 자료 또는 이익 요약된 형태
- 통계학 : 불확실한 상황에서 효과적인 의사결정을 할 수 있도록 수치자료를 수집하고, 정리하고, 표현하고, 분석하는 이론과 방법을 연구하는 학문
- 통계분석 : 특정집단을 대상으로 자료를 수집하여 대상집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용하여 의사결을(통계적 추론)을 하는 과정
② 표본조사 ★★
- ex) 모집단 : '한국의 대학생' ← 규모가 매우 큼, 전수조사 거의 불가능
- 표본집단을 선별하여 표본조사 실시 필요 (한국의 대학생을 대표할 수 있어야 함 : 표본의 대표성)
+ 신뢰수준 & 오차범위
- ex) '성인 남녀 1000명을 대상으로 한 여론조사에서 A 후보 지지율 60%, B 후보 지지율 30%, 신뢰수준 95%, 오차범위 ±3%포인트'
- 신뢰수준 95% : 95% 신뢰할 수 있다는 말이 아닌, 만약 100번 조사했을 때 오차 범위 내(±3%포인트)에서 동일한 결과가 95번 나온다는 의미
- 오차범위 ±3%포인트 : A후보 지지율 오차범위 57~63%, B후보 지지율 오차범위 27~33% 의미
(2) 표본추출 방법 ★★
① 단순 랜덤 추출법
: N개의 모집단에서 n개의 데이터를 무작위로 추출하는 방법
- 가장 쉽고 단순한 방법, 사타리 타기 혹은 제비뽑기
② 계통 추출법
: 모집단의 원소에 차례대로 번호를 부여한 뒤 일정한 간격을 두고 데이터를 추출하는 방법
- 1. N개의 모집단에서 K개씩(K=N/n) n개의 구간으로 나눈다
- 2. 첫 구간에서(1, 2, 3..., K개의 구간) 하나를 임의로 선택하고 K개씩 띄어서 표본 추출
③ 집락(군집 : Cluster) 추출법
: 데이터를 여러 집락으로 구분한 뒤, 단순 랜덤 추출법에 의하여 선택된 집락의 데이터를 표본으로 사용하는 방법
- 각 집락은 서로 동질적이며, 집락 내 데이터는 서로 이질적
④ 층화 추출법
: 집락 추출법과 유사하나 반대의 성격을 지닌 추출 방법
- 데이터를 여러 집락으로 구분하지만 각 집락은 서로 이질적이며, 집락 내 데이터는 서로 동질적
비례 층화 추출법 : 전체 데이터의 분포를 반영하여 각 군집별 데이터를 추출하는 방법
- ex) 1학년 200명, 2학년 300명, 3학년 500명인 학교에서 표본을 추출한다면 각 군집별로 추출되는 데이터의 개수는 전체 데이터 분포의 비율과 동일하게 1학년 : 2학년 : 3학년 = 2 : 3 : 5를 유지해서 표본 추출불비례 층화 추출법 : 전체 데이터의 분포를 반영하지 않고 각 군집에서 원하는 개수의 데이터를 추출하는 방법
- 원하는 군집에서 원하는 표본의 개수 추출+ 복원 추출과 비복원 추출
복원 추출 표본으로 뽑힌 데이터가 다시 모집단으로 들어가 한 번 더 추출될 수 있는 것을 의미 비복원 추출 한번 뽑힌 데이터는 모집단에서 제외되어 다시 추출될 수 없는 것을 의미 - 계통 추출법과 같이 각 데이터에 번호를 부여하여 일정한 간격을 두고 뽑는 것은 중복된 데이터가 발생할 수 없으므로 비복원 추출 방법의 일종으로 볼 수 있으며, 그 외 단순 랜덤 추출법, 집락 추출법, 층화 추출법은 복원, 비복원 결정 필요
(3) 측정과 척도 ★★★
① 측정과 척도의 개념
- 측정 : 표본조사를 실시하는 경우 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하게 관측해 자료를 얻는 것
- 척도 : 관측 대상의 속성을 측정하여 그 값이 숫자로 나타나도록 일정한 규칙을 정하여 바꾸는 도구
② 척도의 종류
구분 특징 예시 질적 척도 명목척도 측정 대상이 어느 집단에 속하는지 나타내는 자료 성별, 지역 등 순서척도
(서열척도)측정 대상이 명목척도이면서 서열 관계를 갖는 자료 선호도, 신용도, 학년 등 양적 척도 구간척도
(등간척도)측정 대상이 가지고 있는 속성의 양을 측정할 수 있으며
두 구간 사이에 의미가 있는 자료온도, 지수 등 비율척도 측정 대상이 구간척도이면서 절대적 기준 0이 존재하여
사칙연산이 가능한 자료신장, 무게, 점수, 가격 등 (4) 기술통계와 추리통계 ★★
① 기술통계
: 표본 자체의 속성이나 특징을 파악하는 데 중점을 두는 데이터 분석 통계
- 목적 : 자료 요약 및 조직화, 단순화
- 표본조사 이후 표본을 설명해주는 데이터의 최솟값, 최댓값, 중위수 등의 통계량이 바로 기술 통계량이며,
모집단의 특성을 유추하는 데 사용 가능
② 추리통계(추론통계)
: 수집한 데이터를 바탕으로 '추론 및 예측'하는 통계 기법
- 표본에서 얻은 통계치를 바탕으로 오차를 고려하면서 모수를 확률적으로 추정하는 통계 기법
- 표본에서 얻은 통계치를 가지고 모집단의 특성을 추정하는 데 초점을 두고 가설을 검증하거나 확률적인 가능성 파악, 이를 통해 향후 발생할 수 있는 사건 예측 가능
2. 확률과 확률분포
(1) 확률
① 확률 기초 ★★
- 확률 : 발생 가능한 모든 사건들의 집합 표본공간에서 표본공간의 부분집합인 특정 사건 A가 발생할 수 있는 비율을 나타내는 값, 0과 1 사이의 값이며 가능한 모든 사건의 확률의 합은 항상 1
- 조건부 확률 : 특정 사건 A가 발생했다는 것이 사실이라는 전제하에 또 다른 사건 B가 발생할 확률을 나타낸 값, 0과 1 사이의 값
② 독립사건과 배반사건 ★★★
- 독립사건 : 서로에게 영향을 주지 않는 두 개의 사건.
- A와 B가 독립인 경우 : 아래 식 성립
- 배반사건 : 두 사건 A와 B에 대하여 교집합, 즉 공통된 부분이 없는 경우 즉, 동시에 일어날 수 없는 사건
③ 확률변수와 확률분포 그리고 확률함수 ★★★
- 확률변수 : 무작위 실험을 했을 때 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수
- 확률분포 : 확률변수의 모든 값과 그에 대응하는 확률이 어떻게 분포하고 있는지
- 이산확률분포의 확률함수를 '확률질량함수', 연속확률분포의 확률함수를 '확률밀도함수'라 함
(2) 이산확률분포 ★★★
① 베르누이 분포
: 확률변수 X가 취할 수 있는 값이 두 개인 경우로 일반적으로 한 번의 시행을 할 때 성공과 실패로 나눌 수 있는 성공할 확률이 p인 분포를 의미
- ex) 하나의 동전을 던져서 앞면이 나올 확률, 시험 합격 or 불합격 확률, 제비뽑기 당첨 확률
② 이항 분포
: n번의 베르누이 시행(성공 또는 실패)에서 k번 성공할 확률의 분포를 의미
- ex) 하나의 동전을 3번 던져서 앞면이 2번 나올 확률, 3번의 제비뽑기에서 1번 당첨될 확률
③ 기하 분포
: 성공 확률이 p인 베르누이 시행에서 처음으로 성공이 나올 때까지 k번 실패할 확률의 분포를 의미
- ex) 동전을 던져서 3번째에 앞면이 나올 확률, 주사위를 던져서 4번째에 1이 나올 확률
④ 다항 분포
: n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률의 분포를 의미. 이항 분포를 확장한 개념
- ex) 주사위를 n번 던졌을 때 1의 눈이 p1의 확률로 x번, 2의 눈이 p2의 확률로 y번 ···
⑤ 포아송 분포
: 단위 시간 또는 단위 공간 내에서 발생할 수 있는 사건의 발생 횟수에 대한 확률분포를 의미
- ex) 8시간 동안 3번의 장난전화가 왔을 때 1시간 동안 장난전화가 2번 올 확률
⑥ 이산확률변수
: 확률변수가 취할 수 있는 실수 값의 수를 셀 수 있는 변수
- 셀 수 있는 실수값을 취함, 서로 배반인 사건들의 합집합의 확률은 각 사건의 확률의 합
(3) 연속확률분포 ★★★
① 균일 분포
: 연속형 확률변수인 X가 취할 수 있는 모든 값에 대하여 같은 확률을 갖고 있는 분포를 의미
- ex) 얼마나 들어 있는지 모르는 200ml 우유팩 속에 들어 있는 우유의 양
② 정규분포
: 가장 대표적인 연속형 확률분포 중 하나로 평균이 μ이고, 표준편차가 σ인 분포를 의미 N(μ,σ)
- 분포의 모양은 평균값에 가장 많이 몰려 있고 평균에서 멀어질수록 빈도수가 낮은 종 모양의 그래프를 가짐
정규분포 확률밀도함수 ③ t-분포
- 자유도가 n인 t 분포는 표준정규분포와 마찬가지로 평균이 0이고 좌우가 대칭인 종 모양의 그래프지만 정규분포보다 꼬리가 두꺼움
- 자유도가 커질수록 t 분포는 표준정규분포에 가까워짐
- 자유도 : 표본자료들이 모집단에 대한 정보를 주는 독립적인 자료의 개수
t 분포 ④ 카이제곱 분포
- 표준정규분포를 따르는 확률변수 Z1, Z2, Z3, ···, Zn의 제곱의 합 X는 자유도가 n인 카이제곱 분포를 따름
- 모평균과 모분산을 모르는 두 개 이상의 집단 간 동질성 검정 또는 모분산 검정을 위해 활용
카이제곱 분포 + 동질성 검정
: 두 집단의 내부 구성비를 비교하는 것
- ex) 속이 보이지 않는 두 개의 모금함이 있고, 도둑이 모금함에서 돈을 꺼냈을 때
모금함 1 : 100원 x4, 500원 x4
모금함 2 : 100원 x7, 500원 x1
==> 모금함 1에 500원이 더 많이 있을 것이라 유추하고 모금함 1을 목표로 설정
⑤ F 분포
- 서로 독립인 두 카이제곱 분포를 따르는 확률변수 V1~ x^2 (k1),V2~ x^2 (k2)를 각각의 자유도로 나누었을 때 서로의 비율 X는 자유도가 k1, k2인 F 분포를 따름
- 등분산 검정 및 분산분석을 위해 활용
F 분포 + 등분산 검정
: 두 모집단에 대하여 분산이 같은지 다른지를 검정하기 위한 가설검정
- 가설검정을 수행하는 환경에 따라 두 모집단에 대한 평균을 비교할 때 분산의 동등 여부는 중요하며, 두 모집단의 분산이 같은 경우와 다른 경우의 모평균을 비교하는 방법이 다름
⑥ 연속확률변수
: 확률변수가 취할 수 있는 실수 값이 어떤 특정 구간 전체에 해당하여 그 수를 셀 수 없는 변수
- 연속확률변수에서는 확률밀도함수의 아래 면적이 확률을 의미
- ex) 신생아의 몸무게, 태풍으로 내린 강우량, 심장발작 이후 생존기간 등
(4) 기댓값, 분산, 표준편차 ★★★
① 기댓값
: 특정 사건이 시행되었을 때 확률변수 X가 취할 수 있는 평균 값
- 확률변수 X의 값과 그 X가 발생할 확률의 곱들의 합으로 구함
- 관측될 것이라고 기대되는 관측값에 대한 평균, 확률변수의 평균, 즉 모평균은 통계분석에서 중요한 추론의 대상임
② 분산
: 데이터들이 중심에서 얼마나 떨어져 있는지를 알아보기 위한 측도
- 관측값에서 평균을 뺀 값을 제곱하고, 모두 더한 후 전체 개수로 나눔. 즉, 차이값의 제곱의 평균
- 확률변수의 분산 : 확률변수가 취할 수 있는 값들이 그 중심(모평균)에서 얼마나 떨어져 있는지를 측정하는 측도. 값이 크면 클수록 확률 X값이 기댓값에서 멀리 떨어져 있을 수 있음
- 확률변수의 분산은 앞으로 측정 또는 관측될 가능성이 있는 값들에 대한 측도
③ 표준편차
: 자료의 산포도를 나타내는 수치로, 분산의 양의 제곱근
- 값이 클수록 기댓값으로부터 멀리 떨어져 있다는 의미
- 사용 목적 : 기존 자료와의 단위 통일
(5) 꼭 알아두어야 하는 통계 개념
① 첨도와 왜도
- 첨도(kurtosis) : 확률분포의 뾰족한 정도를 나타내는 측도. 값이 3에 가까울수록 정규분포 모양
- 첨도값은 3을 기준으로 뾰족한 정도를 나타내지만 정규분포의 첨도를 0으로 나타내기 위해 첨도값에서 3을 빼서 사용하기도 함
- 왜도(skewness) : 확률분포의 비대칭 정도를 나타내는 측도
- 왜도값이 0인 경우에는 정규 분포와 유사한 모습으로 평균, 중앙값, 최빈값이 모두 같음
② 공분산(Covariance)
: 두 확률변수 X, Y의 상관 정도를 나타내는 값
- 하나의 확률변수가 증가할 때 다른 확률변수가 증가 or 감소하는지 파악 가능
- 공분산이 양수면 X가 증가할 때 Y도 증가, 음수면 X가 증가할 때 Y감소
- 문제점 : 공분산 값이 100이면 X, Y의 두 확률 분포가 어느 정도의 선형성을 갖는지 파악 불가
③ 상관계수(Correlation)
: -1과 1 사이의 값을 가지며 공분산을 X의 표준편차와 Y의 표준편차 모두로 나눈 값
- 공분산의 문제를 해결한 것
3. 추정과 가설검정
(1) 추정
① 모수의 추정
- 모수 : 모집단의 확률분포 및 특성을 알려주는 모평균과 모분산과 같은 값들
- 현실적으로 모집단 전체를 대상으로 조사하는 것은 불가능, 대부분 표본조사를 실시하여 모수를 추정
② 점추정
: 모집단의 모수, 특히 모평균을 추정할 때 모평균을 하나의 특정한 값이라고 예측하는 것
- 모평균을 추정하기 위한 불편추정량은 표본집단의 평균값인 표본평균이 대표적
- 불편(unbiased)추정량 : 모수를 측정할 때 추정하는 값과 실제 모수 값의 차이의 기댓값이 0으로 어느 한쪽으로 편향되지 않아 모수를 추정하기에 이상적인 값을 의미 (최소의 분산을 가진 추정량이 가장 좋음)
③ 구간추정
: 점추정은 모수가 특정한 값일 것이라 예상하는 반면, 구간추정은 모수가 특정한 구간 안에 존재할 것이라 예상하는 것
- 모수가 특정 구간 안에 포함될 확률인 신뢰도(신뢰수준)가 필요, 신뢰도로는 95%와 99% 가장 많이 사용
(2) 가설검정 ★★★
① 가설검정의 개념
- 통계적 가설검정 : 모집단의 특성에 대한 주장 또는 가설을 세우고 표본에서 얻은 정보를 이용해 가설이 옳은지를 판정하는 과정
- 귀무가설과 대립가설로 구분
② 귀무가설(null hupothesis)
: 모집단이 어떠한 특징을 지닐 것으로 여겨지는 가설. 일반적으로 '같다'(=)를 사용하여 나타낼 수 있는 가설
- 실험, 연구를 통해 기각하고자 하는 어떤 가설로, H0로 표시, 대립가설과 상반되며 귀무가설의 기각을 통해 입증하고자 하는 주장을 관철할 수 있음
③ 대립가설(alternative hypothesis)
: 귀무가설에 반대되는 가설로 귀무가설이 틀렸다고 판단될 경우 채택되는 가설로 H1로 표시
- 실험, 연구를 통해 증명하고자 하는 새로운 아이디어 혹은 가설에 해당
④ 제1종 오류와 제2종 오류 ★★★
- 제1종 오류 : 귀무가설(H0)이 사실인데 귀무가설(H0)이 틀렸다고 결정하는 오류
- 제2종 오류 : 귀무가설(H0)이 사실이 아님에도 불구하고 귀무가설(H0)이 옳다고 결정하는 오류
H0 채택(H1 기각) H0 기각(H1 채택) H0 사실 올바른 결정 제1종 오류 H0 거짓 제2종 오류 올바른 결정 ⑤ 검정통계량(test statistic)
: 귀무가설의 채택 여부를 판단하기 위하여 표본조사를 실시하였을 때 특정 수식에 의하여 표본들로부터 얻을 수 있는 값
- 귀무가설의 옳고 그름을 판단할 수 있는 값
⑥ 기각역
: 귀무가설을 기각하게 될 검정통계량의 영역으로, 검정통계량이 기각역 내에 있으면 귀무가설을 기각함
- 반대로 검정통계량이 기각역 밖의 채택역에 있으면 귀무가설 기각 불가
- 임곗값(critical value) : 기각역의 경곗값
⑦ 유의수준(significance level, α)
: 귀무가설이 참인데도 이를 잘못 기각하는 오류를 범할 확률의 최대 허용 한계로, 1%(0.01)와 5%(0.05)를 주로 사용하며 가설검정을 수행하는 환경에 맞게 조절 가능
- 제1종 오류와 제2종 오류 모두 줄이는 게 좋지만 서로 반비레 관계라, 제1종 오류를 허용할 수 있는 최대 확률 유의수준(α)을 설정하여 가설검정을 수행
⑧ 유의확률(significance probability, p-value)
: 귀무가설을 지지하는 정도를 나타낸 확률값
- p-value가 유의수준 α보다 작은 경우에는 귀무가설이 참임을 가정했을 때 이러한 결과가 나올 확률이 매우 적다고 해석 가능 (따라서 귀무가설을 기각하고 대립가설 채택)
- 반면 p-value가 유의수준 α보다 큰 경우에는 대립가설을 기각하고 귀무가설을 채택
+ 유의수준과 유의확률
유의수준 유의확률 - 귀무가설이 사실일 때, 이를 기각하는 확률
- 제 1종 오류가 발생할 수 있는 최대의 확률
- 가설검정을 수행하는 자가 환경에 맞게 값을 설정할 수 있지만, 통상적으로 0.05를 많이 사용- 귀무가설을 지지하는 정도로 검정통계량으로부터 얻는 값
- 귀무가설을 기각할 때 그 결정이 잘못되었을 확률유의확률(p-value) < 유의수준(0.05)
==> 귀무가설 기각 가능유의확률(p-value) > 유의수준(0.05)
==> 귀무가설 기각 불가능가설검정 절차 (3) 비모수 검정
① 모수검정 vs. 비모수 검정
- 모수검정 : 표본이 정규성을 갖는다는 모수적 특성을 이용하는 통계 방법, 표본의 정규성 반드시 확보
- 비모수 검정 : 정규성 검정에서 정규분포를 따르지 않는다고 증명되거나 표본 군집당 10명 미만의 소규모 실험에서와 같이 정규분포임을 가정할 수 없는 경우에 사용 (e.g., 순위합검정)
- 숫자로는 표현되지만 수량화할 수 없고 평균을 낼 수도 없는 서열척도의 경우에는 비록 연속형 자료는 아니지만, 순위의 합을 이용하는 비모수적 방법을 적용하는 것 가능
- 비모수 검정은 모수의 분포에 대해 어떠한 가정(정규분포)도 하지 않는 검정
- 이상치로 인해 평균보다 중앙값이 더 바람직한 경우, 표본의 크기가 작은 경우, 순위와 같은 서수 데이터인 경우 사용
② 모수검정과 비모수 검정의 차이 ★★
모수검정(parametric test) 비모수 검정(nonparametric test) 등간척도, 비율척도 명목척도, 서열척도 평균 중앙값 피어슨 상관계수 스피어만 순위상관계수 one sample t-test, two sample t-test, paired t-test,
one way anova부호 검정, Wilcoxon 부호 순위 검정, Mann-Vhitney 검정,
Kruskal Wallis 검정+ 비모수 검정의 종류
- 연속성 검정(Wald-Wofowitz runs test)
- 부호 순위 검정(Wilcoxon signed-rank test)
- 순위 합 검정(Wilcoxon rank sum test, Mann-Whitney U test)
- 크러스컬-월리스 검정(Kruskal-Wallis one-way analysis of variance)
- 스피어만 서열상관분석(Spearman's rank correlation analysis)
- 부호 검정(binomial sign test)
- 프리드만 검정(Friedman test)
728x90반응형'CERTIFICATION > ADsP' 카테고리의 다른 글
2024 ADsP 데이터분석 준전문가 시험공부 11일차/20 (0) 2024.05.04 2024 ADsP 데이터분석 준전문가 시험공부 10일차/20 (0) 2024.05.02 2024 ADsP 데이터분석 준전문가 시험공부 8일차/20 (1) 2024.04.26 2024 ADsP 데이터분석 준전문가 시험공부 7일차/20 (0) 2024.04.25 2024 ADsP 데이터분석 준전문가 시험공부 6일차/20 (0) 2024.04.24