-
2024 ADsP 데이터분석 준전문가 시험공부 8일차/20CERTIFICATION/ADsP 2024. 4. 26. 16:00728x90반응형
02 데이터 마트
1. 데이터 마트의 이해
(1) 데이터 마트 ★
: 데이터 웨어하우스로부터 특정 사용자가 관심을 갖는 데이터들을 주제별, 부서별로 추출하여 모은 비교적 작은 규모의 데이터 웨어하우스
- 데이터 마트 개발 : 분석 목적별, 주제별, 부서별로 데이터를 수집하고 변형하여 한 곳에 모으는 작업
(2) 데이터 전처리
- 데이터 마트에 사용자가 원하는 데이터를 수집하고 변형하여 적재했다면(데이터 마트를 개발했다면), 이제 전처리 단계를 거쳐야 함
- 데이터 정제 과정 + 분석 변수 처리 과정
- 데이터 정제 과정 : 결측값 처리 + 이상값 처리
- 분석 변수 처리 과정 : 변수 선택, 차원 축소, 파생변수 생성, 변수 변환, 클래스 불균형(불균형 데이터 처리) 등
+ 요약변수와 파생변수
- 요약변수 : 원래의 데이터로부터 기본적인 통계 자료를 추출한 변수. 총 합계, 평균, 횟수, 성별 구분 등 분석에 활용되는 기본적인 변수들로 재활용성이 높음 (ex 기초적인 통계자료)
- 파생변수 : 범용으로 활용되는 기본적인 통계자료가 아닌, 특정한 목적을 갖고 조건을 만족하는 변수들을 새롭게 생성한 것. 예를 들어 단순하게 합계를 구해 새로운 변수로 만들었다면 요약변수지만, 특정한 매장의 월별 합계 혹은 특정 기간 남성 고객의 구매 총액 등과 같이 목적 및 조건을 만족하는 변수를 생성했다면 파생변수. 따라서 파생변수는 주관적일 수 있으므로 논리적 타당성 필요
2. 데이터 마트 개발을 위한 R 패키지 활용
(1) reshape 패키지
- melt 함수 : 데이터를 특정 변수를 기준으로 녹여서 나머지 변수에 대한 세분화된 데이터 생성
- cast 함수 : melt에 의해 녹은 데이터를 요약을 위해 새롭게 가공할 수 있게 도움
(2) sqldf 패키지
: 표준 SQL 문장을 활용하여 R에서 데이터프레임을 다루는 것을 가능하게 해주는 패키지
ex) sqldf('select * from score')
(3) plyr 패키지
: apply 함수를 기반으로 데이터를 분리하고 다시 결합하는 가장 필수적인 데이터 처리 기능을 제공
- ddply 함수 : 입력, 출력 데이터 구조 = 데이터프레임
(4) data.table 패키지 ★
: 데이터프레임과 유사하지만 특정 칼럼별로 주솟값을 갖는 인덱스를 생성하여 연산 및 검색을 빠르게 수행할 수 있는 데이터 구조
03 데이터 탐색
1. 탐색적 데이터 분석(EDA)
(1) 탐색적 데이터 분석(EDA : Exploratory Data Analysis)
: 데이터를 이해하고 의미 있는 관계를 찾아내기 위해 데이터의 통곗값과 분포 등을 시각화하고 분석하는 것
- 데이터 특성을 이해하고 이를 토대로 분석 모델 구축 가능
(2) 붓꽃(IRIS) 데이터를 이용한 탐색적 데이터 분석의 예
- 세 가지 붓꽃 종에 따른 꽃받침 길이, 꽃받침 폭, 꽃잎 길이, 꽃잎 폭을 기록한 데이터
2. 결측값
(1) 결측값
: 존재하지 않는 데이터. NA(Not Available)로 표현하지만 데이터를 수집하는 환경에 따라 null, 공백, -1로 표현
- 대표적인 패키지 : Amelia, DMwR2
(2) 결측값 대치 방법 ★★
① 단순 대치법
: 결측값이 존재하는 데이터를 삭제하는 방법
- 가장 쉬운 처리 방법이지만 결측값이 많은 경우 대량의 데이터 손실이 발생
- complete.cases 함수 : 하나의 열에 결측값이 존재하면 FALSE, 존재하지 않으면 TRUE 반환
② 평균 대치법
: 관측 또는 실험으로 얻은 데이터를 대표할 수 있는 평균 혹은 중앙값으로 결측값을 대치하여 불완전한 자료를 완전한 자료로 만드는 방법
- 비조건부 평균 대치법 : 데이터의 평균값으로 결측값 대치
- 조건부 평균 대치법 : 실제 값들을 분석하여 회귀분석을 활용하는 대치 방법
③ 단순 확률 대치법
: 평균 대치법에서 추정량 표준 오차의 과소 추정 문제를 보완하고자 고안된 방법
- K-Nearest Neighbor 방법 : K 최근접 이웃 알고리즘으로 주변 K개의 데이터 중 가장 많은 데이터로 대치하는 방법
④ 다중 대치법
: 여러 번의 대치를 통해 n개의 임의 완전자료를 만드는 방법
- 결측값 대치, 분석, 결합의 세 단계로 구성
3. 이상값
(1) 이상값
: 값이 존재하지 않는 결측값과 달리 다른 데이터와 비교하였을 때 극단적으로 크거나 극단적으로 작은 값을 의미
- 이상값은 데이터를 입력하는 과정에서 입력자의 실수로 입력되거나 설문응답자의 악의적인 의도에 의해 입력 될 수 있음. 결측값과 마찬가지로 이상값도 제거하는 것이 일반적이지만 의미를 갖는 경우도 있으므로 목적이나 종류에 따라 사용자의 적절한 판단 필요
(2) 이상값 판단 ★★★
① ESD(Extreme Studentized Deviation)
: 평균으로부터 '표준편차 3'만큼 떨어진 값들을 이상값으로 인식하는 방법
② 사분위수
: 25%에 해당하는 값(Q1)과 75%에 해당하는 값(Q3)을 활용하여 이상치를 판단하는 방법
- 일반적으로 사분범위에서 1.5분위수를 벗어나는 경우 이상치로 판단
(Q1 - 1.5 x IQR(하한 최솟값)보다 작거나 Q3 + 1.5 x IQR(상한 최댓값)보다 큰 값)
728x90반응형'CERTIFICATION > ADsP' 카테고리의 다른 글
2024 ADsP 데이터분석 준전문가 시험공부 10일차/20 (0) 2024.05.02 2024 ADsP 데이터분석 준전문가 시험공부 9일차/20 (2) 2024.05.01 2024 ADsP 데이터분석 준전문가 시험공부 7일차/20 (0) 2024.04.25 2024 ADsP 데이터분석 준전문가 시험공부 6일차/20 (0) 2024.04.24 2024 ADsP 데이터분석 준전문가 시험공부 5일차/20 (0) 2024.04.23