ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 2024 ADsP 데이터분석 준전문가 시험공부 10일차/20
    자격증/ADsP 2024. 5. 2. 16:00
    728x90
    반응형

    02 기초통계

    1. t-검정

    (1) 일(단일) 표본 t-검정(one sample t-test)

    ① 일 표본 t-검정의 개념

    : 가설검정의 일종으로, 하나의 모집단의 평균(n)값을 특정값과 비교하는 경우 사용하는 통계적 분석 방법

     

    ② 일 표본 단축 t-검정

    : 모수에 대한 검정을 할 때 모수값이 '~보다 크다' 혹은 '~보다 작다'와 같이 한쪽으로의 방향성을 갖는 경우 수행되는 검정 방법

    - ex) 'oo 공장에서 생산되는 지우개의 평균 중량은 50g 이하다'라는 귀무가설을 수립, t-검정 수행

    > weights <- runif(10, min = 49, max = 52) # 49g에서 52g 사이의 값 생성
    > t.test(weights, mu = 50, alternative = 'greater') # 반대 방향은 'less'사용
    
    	One Sample t-test
    
    data:  weights
    t = 1.9951, df = 9, p-value = 0.03858
    # 대립 가설 : 지우개의 평균 중량은 50g보다 크다.
    alternative hypothesis: true mean is greater than 50
    95 percent confidence interval:
     50.05104      Inf
    sample estimates:
    mean of x 
     50.62849

    - 결과 : 검정통계량(t) = 1.9951, 자유도(df) = 9, p-value가 유의수준 0.05보다 작으므로 귀무가설 기각 가능

     

    - 따라서 'oo 공장에서 생산되는 지우개의 평균 중량은 50g 이하다'라는 귀무가설은 기각되고,

    대립가설인 'oo 공장에서 생산되는 지우개의 평균 중량은 50g보다 크다'라는 대립가설 채택!

     

    ③ 일 표본 양측 t-검정

    : 단측 검정처럼 방향성을 갖지 않고 모수값이 '~이다' 혹은 '~이 아니다'와 같이 방향성이 없는 경우 수행되는 검정 방법

    - ex) '대한민국 남성의 평균 몸무게는 70kg이다'라는 귀무가설을 수립, t-검정 수행

    # 일 표본 양측 t-검정을 위한 40kg ~ 100kg 사이 남성 100명의 표본을 추출
    > weights <- runif(100, min = 40, max = 100)
    > t.test(weights, mu = 70, alternative = 'two.sided')
    
    	One Sample t-test
    
    data:  weights
    t = 0.95734, df = 99, p-value = 0.3407
    # 대립 가설 : 대한민국 남성의 평균 몸무게는 70kg가 아니다. 
    alternative hypothesis: true mean is not equal to 70
    95 percent confidence interval:
     68.16408 75.25913
    sample estimates:
    mean of x 
     71.71161

    - 결과 : 검정통계량(t) = 0.95734, 자유도(df) = 99, p-value가 유의수준 0.05보다 작지 않으므로 귀무가설 기각 불가능

     

    - 따라서 '대한민국 남성의 평균 몸무게는 70kg이다'라는 귀무가설은 기각되지 않고 채택!

     

    (2) 이(독립) 표본 t-검정(independent sample t-test)

    ① 이 표본 t-검정의 개념

    : 가설검정의 일종으로 서로 독립적인 두 개의 집단에 대하여 모수(모평균)의 값이 같은 값을 갖는지 통계적으로 검정하는 방법

    - 독립표본 t-검정이라고도 함

    - 여기서 독립이란 두 모집단에서 각각 추출된 두 표본이 서로 관계가 없다는 것을 의미

    -  두 모집단의 분산이 같음을 의미하는 등분산성을 만족해야 함. 따라서 이 표본 t-검정을 수행하기 전에 등분산 검정(F 검정)을 먼저 수행해야 함

     

    ② 이 표본 단축 t-검정

    :두 집단에 대하여 모수 비교를 할 때 '~이 ~보다 크다' 혹은 '~이 ~보다 작다'와 같이 두 집단 사이에 대소가 있는 경우 수행되는 검정 방법

    - ex) 'A회사의 급여가 B회사의 급여보다 같거나 많다'라는 귀무가설을 수립, t-검정 수행

    # 이 표본 단측 t-검정을 위한 표본을 추출
    > salaryA <- runif(100, min = 250, max = 380)
    > salaryB <- runif(100, min = 200, max = 400)
    > t.test(salaryA, salaryB, alternative = 'less')
    
    	Welch Two Sample t-test
    
    data:  salaryA and salaryB
    t = 1.2308, df = 177.74, p-value = 0.89
    # 대립 가설 : A회사의 급여가 B회사의 급여보다 적다.
    alternative hypothesis: true difference in means is less than 0
    95 percent confidence interval:
         -Inf 20.17761
    sample estimates:
    mean of x mean of y 
     314.4731  305.8626

    - 결과 : 검정통계량(t) = 1.2308, 자유도(df) = 177.74, p-value가 유의수준 0.05보다 크므로 귀무가설 기각 불가능

     

    - 따라서 A회사의 급여가 B회사의 급여보다 같거나 많다고 할 수 있음!

     

    ③ 이 표본 양측 t-검정

    : 두 집단에 모수 비교를 할 때 '두 집단이 같다' 혹은 '두 집단이 다르다'와 같이 두 집단 사이에 대소가 없는 경우 수행되는 검정 방법

    - ex) 'K와 L의 달리기 속도는 같다'라는 귀무가설을 수립, t-검정 수행

    # 이 표본 양측 t-검정을 위한 표본을 추출
    > speedK <- runif(10, min = 30, max = 40)
    > speedL <- runif(10, min = 25, max = 35)
    > t.test(speedK, speedL, alternative = 'two.sided')
    
    	Welch Two Sample t-test
    
    data:  speedK and speedL
    t = 3.2704, df = 17.141, p-value = 0.00447
    # 대립 가설 : 두 집단의 평균의 차이가 0이 아니다.
    alternative hypothesis: true difference in means is not equal to 0
    95 percent confidence interval:
     1.898386 7.559732
    sample estimates:
    mean of x mean of y 
     35.27884  29.54978

    - 결과 : 검정통계량(t) = 3.2704, 자유도(df) = 17.141, p-value가 유의수준 0.05보다 작으므로 귀무가설 기각 가능

     

    - 따라서 K와 L의 달리기 속도는 같다고 할 수 없음!

     

    (3) 대응 표본 t-검정(paired t-test)

    ① 대응 표본 t-검정의 개념

    - 동일한 대상에 대해 두 가지 관측치가 있는 경우 이를 비교하여 차이가 있는지 검정할 때 사용

    - 주로 실험 전후의 효과를 비교하기 위해 사용

    - ex) 두 집단에 신약 투약 이후의 전후 수치 비교, 새로운 정책이 시행된 후의 부동산 가격의 전후 변화 등

     

    ② 대응 표본 t-검정

    - ex) '새로운 운동법으로 체중 감량의 효과는 없다'라는 귀무가설을 수립, t-검정 수행

    # 대응 표본 t-검정을 위한 표본을 추출
    > before <- runif(10, min = 60, max = 80)
    > after <- before + rnorm(10, mean = -3, sd = 2)
    > t.test(before, after, alternative = 'greater', paired = TRUE)
    
    	Paired t-test
    
    data:  before and after
    t = 3.9996, df = 9, p-value = 0.001556
    # 대립 가설 : 두 집단의 평균의 차이는 0보다 크다.
    alternative hypothesis: true difference in means is greater than 0
    95 percent confidence interval:
     1.395479      Inf
    sample estimates:
    mean of the differences 
                   2.576236

    - 결과 : 검정통계량(t) = 3.996, 자유도(df) = 9, p-value가 유의수준 0.05보다 작으므로 귀무가설 기각 가능

     

    - 따라서 '두 집단의 평균의 차이는 0보다 크다!' (새로운 운동법으로 인한 체중 감량의 효과 있음)

    2. 분산분석(ANOVA)

    (1) 분산분석

    ① 분산분석 개요

    - 분산분석 : 세 개 이상의 모집단이 있을 경우에 여러 집단 사이의 평균을 비교하는 검정 방법

    - 분산분석의 귀무가설은 항상 'H0 : 모든 집단 간 평균은 같다'

    - 수행 시 필요한 가정사항

    1. 정규성 : 각 집단의 표본들은 정규분포를 따라야 한다.

    2. 등분산성 : 각 집단은 동일한 분산을 가져야 한다.

    3. 독립성 : 각 집단은 서로에게 영향을 주지 않는다.

     

    - 단점 : 귀무가설을 기각할 경우 어느 집단 간 평균이 같은지, 혹은 어느 집단 간의 평균이 얼마나 다른지 알 수 없음

    => 사후검정 방법(Scheffe, Tukey, Duncan, Fisher's LSD, Dunnett, Bonferroni, ...) 사용

     

    - 독립변수 : 범주형 데이터

    - 종속변수 : 연속형

     

    - '(집단 간 분산) ÷ (집단 내 분산)'으로 계산되는 F-value 사용

    - 평균을 비교하는 분산분석에 '분산'의 개념을 사용하는 이유는 집단 간 평균의 분산이 클수록 각 집단의 평균은 서로 멀리 떨어져 있기 때문 

    => 집단 간 차이 비교 쉬움

     

    ② 일원분산분석(one-way Anova)

    - 셋 이상의 집단 간 평균을 비교하는 상황에서 하나의 집단에 속하는 독립변수와 종속변수 모두 한 개 일때 사용

    - ex) 연령대별 유튜브 시청 시간의 차이가 있는지 알고싶다!

    독립변수 종속변수
    (연령별) (시청 시간)
    청소년 일평균 1시간
    성인 일평균 30분
    노인 일평균 10분
    요인 제곱합 자유도 제곱평균 F비
    처리 SSR a = 집단 수 - 1 MSR = SSR / a F = MSR / MSE
    잔차 SSE b = 전체 데이터 - 집단 수 MSE = SSE / b
    SST = SSR + SSE a + b (= 전체 데이터 - 1) - -

     

    + 용어

    - SSE(Sum Squared Errors) : 잔차들이 자신의 표본평균으로부터 벗어난 편차의 제곱

    - SSR(Sum Squared Regression) : 표본평균과 종속변수값 중 독립변수에 의해 설명된 부분과의 차이를 제곱하여 합한 값

    - SST(Total Sum of Squared) : 종속변수의 관측값과 표본의 평균의 차이(편차)를 제곱하여 합한 값

    - SST = SSR + SSE

     

    ③ 일원분산분석 R 실습

    - ex) 신형 핸드폰 A, B, C의 속도 차이가 있는지 여부

    - 귀무가설(H0) : A, B, C라는 세 대의 신형 핸드폰 간의 속도 차이는 없다.

    - 대립가설(H1) : 집단 간 평균의 차이가 존재한다.

    # 분산분석을 위한 데이터 생성
    > phoneSpeed <- runif(45, min = 75, max = 100)
    > telecom <- rep(c('A', 'B', 'C'), 15)
    > phoneData <- data.frame(phoneSpeed, telecom)
    # 분산분석 수행
    > result <- aov(data = phoneData,phoneSpeed ~ telecom)
    > summary(result)
    
                Df Sum Sq Mean Sq F value Pr(>F)
    telecom      2   82.2   41.09   0.715  0.495
    Residuals   42 2412.4   57.44

    - 결과 : p-value가 0.495로 유의수준 0.05보다 작지 않으므로 귀무가설 기각 불가능

     

    - 따라서 세 대의 신형 핸드폰 간의 속도 차이는 없다고 할 수 있음!

     

    ④ 이원분산분석(two-way Anova)

    - 일원분산분석 수행 시 독립변수의 수가 두 개 이상일 때 사용

    - IF 일원분산분석 사례에서 독립변수가 두 개 이상이 되는 상황을 가정한다면?

    - 이원분산분석은 독립변수 간 교호작용이 있다고 판단될 때는 '반복이 있는 실험' 진행,

    교호작용이 없다고 판단될 때, 즉 두 독립변수가 독립인 경우에는 '반복이 없는 실험' 진행

    * 교호작용 : 독립변수끼리 서로 영향을 미치는 경우

     

    - IF 집단 간의 평균 차이를 검증할 때 종속변수가 2개 이상이라면 '다변량분산분석' 수행(다원분산분석)

    독립변수
    종속변수
    (연령별) (성별) (시청 시간)
    청소년 남성 일평균 1시간
    여성 일평균 1시간 30분
    성인 남성 일평균 30분
    여성 일평균 50분
    노인 남성 일평균 10분
    여성 일평균 5분

     

    [교호작용이 있을 때 → 반복이 있는 이원분산분석표(p, q는 집단의 수, r은 반복횟수)]

    요인 제곱합 자유도 제곱평균 F
    A SSA p - 1 MSA = SSA / p - 1 MSA / MSE
    B SSB q - 1 MSB = SSB / q - 1 MSB / MSE
    A * B SSAB (p - 1)(q - 1) MSAB = SSAB / (p - 1)(q - 1) MSAB / MSE
    오차 SSE pq(r - 1) MSE = SSE / pq(r - 1)  
    SST pqr - 1    

     

    [교호작용이 없을 때 → 반복이 없는 이원분산분석표(p, q는 집단의 수)]

    요인 제곱합 자유도 제곱평균 F
    A SSA p - 1 MSA = SSA / p - 1 MSA / MSE
    B SSB q - 1 MSB = SSB / q - 1 MSB / MSE
    오차 SSE (p - 1)(q - 1) MSE = SSE / (p - 1)(q - 1)  
    SST pq - 1    

    3. 교차분석

    (1) 교차분석

    ① 교차분석의 개념

    : 범주형 자료(명목, 서열) 간의 관계를 알아보고자 할 때 사용되는 분석방법

    - 카이제곱(x^2) 검정통계량을 이용

    - 적합도 검정, 독립성 검정, 동질성 검정에 사용

     

    ② 교차분석표

    : 두 범주형 변수를 교차하여 데이터의 빈도를 표 형태로 나타낸 것

    - ex) 지역별 전자제품 브랜드 선호도 (지역별로 선호도가 다름)

      A사 B사 C사
    한국 30 55 15 100
    미국 40 60 20 120
    유럽 40 35 15 90
    110 150 50 300

     

    (2) 적합도 검정

    ① 적합도 검정의 개념

    : 실험결과 얻어진 관측값이 예상값과 일치하는지 여부를 검정하는 방법

    - 관측도수 : 실험 데이터, 기대도수 : 예측값

    - 즉, 모집단 분포에 대한 가정(예측값, 기대도수)이 옳게 됐는지 관측값(관측도수)과 비교하여 검정하는 것

    - 실험 결과 관측도수 = 기대도수, 실제 분포와 예측 분포 간에 차이가 없다고 봄

     

    ② 적합도 검정에서의 가설

    - H0 : 실제 분포와 예측 분포 간에는 차이가 없다. = 두 분포가 일치한다.

    - H1 : 실제 분포와 예측 분포 간에 차이가 있다. = 두 분포가 일치하지 않는다.

     

    ③ 적합도 검정

    - 유의수준은 보통 α = 0.05로 정함

    - 기각값은 카이제곱 분포표에서 유의수준 α = 0.05일 때 자유도 df = 범주 수 - 1에 해당하는 X α, df

     

    (3) 독립성 검정

    : 모집단이 두 개의 변수에 의해 범주화됐을 때 그 두 변수들 사이의 관계가 독립적인지 아닌지 검정하는 것을 의미

    - 변수들 사이의 관계가 독립적이라면 변수들 사이에 유의한 관계가 없다고 판단, 반대면 있다고 판단

    - 카이제곱 검정에 의한 독립성 검정 결과는 두 범주형 변수 간에 관계 여부만 나타낼 뿐, 강도는 알 수 없음

    => 유의한 관계 파악 후 상관관계의 강도를 알기 위해 상관분석을 실시해 수치 파악 필요

     

    (4) 동질성 검정

    : 관측값들이 정해진 범주 내에서 서로 비슷하게 나타나고 있는지를 검정하는 것

    - 두 집단의 분포가 동일한 모집단에 추출된 것인지 검정(부모집단별로 요인에 대한 차이가 있는지..)

    - 동질성 검정통계량을 계산할 때는 교차표를 활용, 계산 및 검증법은 독립성 검정과 동일

     

    + 중심극한정리

    : 모집단의 분포와 상관없이 표본의 개수 n이 커질수록 표본평균의 분포는 정규분포에 가까워지는 현상

    - 추리통계의 이론적 근거를 제시!

    - 표본의 통계량을 이용하여 모집단의 모수 추정 가능 

    4. 상관분석

    (1) 상관분석의 개념

    ① 상관분석의 개념

    : 두 변수 간의 선형적 관계가 존재하는지 알아보는 분석 방법으로, 상관계수 활용

    - 상관계수는 -1과 +1 사이의 값, -1에 가까우면 강한 음의 상관관계, +1에 가까우면 강한 양의 상관관계,

    0에 가까우면 상관관계 존재 x

    - 변수 간에 상관관계가 존재하다고 반드시 인과관계가 있다는 말은 아님

     

    ② 산점도 행렬

    - R, mtcars 데이터셋 산점도 확인 **생략

     

    ③ 상관분석 귀무가설

    - 상관분석의 귀무가설은 'H0: γxy = 0(두 변수는 아무 상관관계가 없다)'

    - p-value가 유의수준보다 작아 귀무가설을 기각할 수 있다면 두 변수 간에 유의한 상관관가 있다고 말할 수 있음

     

    (2) 상관분석의 종류

    ① 피어슨 상관분석(선형적 상관관계)

    : 모수적 방법의 하나로 두 변수가 모두 정규분포를 따른다는 가정 필요

    > X <- c(1, 2, 3, 4, 5)
    > Y <- c(3, 6, 4, 9, 8)
    > cor(X, Y, method = 'pearson')
    
    [1] 0.8062258

     

    ② 스피어만 상관분석(비선형적 상관관계)

    : 측정된 두 변수들이 서열척도일 때 사용하는 상관계수

    - 스피어만 상관계수는 비모수적 방법으로 관측값의 순위에 대하여 상관계수를 계산하는 방법

    > X <- c(1, 2, 3, 4, 5)
    > Y <- c(3, 6, 4, 9, 8)
    > cor(X, Y, method = 'spearman')
    
    [1] 0.8

     

    (3) 상관분석 실습

    - ex) 아래와 같은 데이터가 주어졌을 때, 학습 시간과 시험 점수 사이에 상관관계가 존재하는지 알아보자

    time 학습 시간(시간) 8 6 7 3 2 4 2 7 2 3
    score 점수(점) 33 22 18 6 23 10 9 30 11 13
    > time <- c(8, 6, 7, 3, 2, 4, 2, 7, 2, 3)
    > score <- c(33, 22, 18, 6, 23, 10, 9, 30, 11, 13)
    > cor.test(time, score)
    
    	Pearson's product-moment correlation
    
    data:  time and score
    t = 3.0733, df = 8, p-value = 0.01527
    alternative hypothesis: true correlation is not equal to 0
    95 percent confidence interval:
     0.1978427 0.9331309
    sample estimates:
          cor 
    0.7358112

    - p-value 값 0.01527이 유의수준 0.05보다 작으므로 귀무가설 기각 

    - 두 변수의 상관계수 추정치(cor)는 0.7358112

     

    - 두 변수 간(time, score) 상관관계가 있다고 통계적으로 말할 수 있음!

    728x90
    반응형
Designed by Tistory.