CERTIFICATION/ADsP

2024 ADsP 데이터분석 준전문가 시험공부 3일차/20

nimoes._. 2024. 4. 19. 16:00
728x90
반응형

[02과목-01장]

01 분석 기획과 분석 방법론

1. 분석 기획

(1) 분석 기획의 정의와 특징

① 분석 기획의 정의

- 분석 기획 : 실제 분석을 수행하기 전 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 관리하는 방안을 사전에 계획하는 작업을 의미

- 분석을 직접 수행하는 것은 아니지만 어떠한 목표(What)를 달성하기 위하여 어떠한 데이터를 가지고 어떠한 방식(How)으로 수행할지에 대한 일련의 계획을 수립하는 중요한 사전작업

 

② 분석 기획의 특징

- 수학/통계학적 지식, 분석 도구인 데이터 및 프로그래밍 기술, 해당 비즈니스에 대한 이해와 전문성에 대한 고른 역량과 시각 요구

 

③ 분석 대상과 그 방법에  따른 4가지 분석 주제

  분석의 대상
WHAT
분석의 방법
HOW
  Known Unknown
Known 최적화
Optimization
통찰력
Insight
Unknown 해결책
Solution
발견
Discovery

 

④ 목표 시점별 분석 기획

  당면한 분석 주제 해결
(과제 단위)
지속적 분석 문화 내재화
(마스터플랜 단위)
목적 빠르게 해결하는 것이 목적 지속적으로 해결하는 것이 목적
1차 목표 Speed & Test Accuracy & Deploy
과제 유형 Quick & Win Long Term View
접근 방식 Problem Solving Problem Definition

 

(2) 분석 기획 시 고려사항

① 가용 데이터 고려

- 분석할 데이터가 확보될 수 있는지

- 데이터가 존재하더라도 유형에 따라 분석 방법 다름 -> 유형 분석 선행적으로 필요!

 

② 적절한 활용 방안과 유스케이스의 탐색

- 유사 시나리오 및 솔루션을 최대한 활용

- 과거의 실패를 반복하지 않고 성공적인 분석을 위한 가이드로서 참조

 

③ 장애요소에 대한 사전 계획 수립

2. 분석 방법론 개요

(1) 분석 방법론 개요

① 분석 방법론이란?

: 주어진 과제를 해결하기 위해 조직이 어떠한 절차로 작업을 수행해 나갈 것인지 일련의 절차를 정의한 것

 

분석 방법론의 필요성

- 데이터 분석 프로젝트는 개인의 역량 혹은 우연한 성공에 기인해서는 안 되고, 일정한 수준의 품질을 갖춘 산출물과 프로젝트의 성공 가능성을 확보하고 제시할 수 있어야 함

 

+ 방법론 구성 요소의 이해

- 상세한 절차 : 작업을 수행하기 위한 절차를 의미

- 방법 : 해당 절차를 수행하기 위한 방법. ex) 전문가에게 자문 요구, 고개의 요구사항 파악을 위한 대면조사

- 도구와 기법 : 작업을 수행하는 데 필요한 것을 의미. ex) R, 파이썬, 파워포인트, 엑셀, 하둡, 플럼

- 템플릿과 산출물 : 템플릿이란 어떤 작업을 수행하기 위해 문서를 작성할 때 참고할 수 있는 일종의 양식, 문서 또는 프로그램이 될 수 있으며, 산출물이란 해당 작업이 종료된 이후 작성되는 문서 또는 프로그램을 의미

 

+ 기업의 합리적 의사결정 방해요소

- 고정관념

- 편향된 생각

- 프레이밍 효과 : 동일한 사건이나 상황을 두고도 개인의 판단이나 선택이 달라질 수 있는 현상

 

③ 분석 방법론의 생성 과정

 

(2) 분석 방법론이 적용되는 업무 특성에 따른 모델

① 폭포수 모델

- 단계를 거쳐 순차적으로 진행하는 방법

- 하향식 방식 (현재 단계가 완료되어야 다음 단계로 진행)

- 문제나 개선사항이 발견될 경우 이전 단계로 돌아가 피드백 과정을 수행할 수도 있음

 

② 프로토타입 모델

- 사용자 중심의 개발 방법

- 고객의 요구를 완전히 이해하지 못할 경우 프로토타입 모델 적용

- 일부분을 먼저 개발하고, 그 이후 사용자의 요구 분석, 정당성 점검, 성능 평가 등의 과정을 통해 개선 작업 시행

==> 점진적으로 시스템을 개발해 나가는 접근 방식

 

③ 나선형 모델

- 반복을 통해 점증적으로 개발하는 측면에서 프로토타입 모델과 유사

- 벗, 사용자의 요구에 초점을 맞추기보다 위험요소를 사전에 제거한다는 것에 초점

- 처음 시도하는 프로젝트에는 적용이 용이하지만 관리 체계를 효과적으로 갖추지 못하면 복잡도가 상승

 

④ 계층적 프로세스 모델

- 일반적으로 분석 방법론은 계층적 프로세스 모델의 형태로 구성

- 최상의 계층인 몇 개의 단계로 구성되어 있고 하나의 단계는 여러 개의 태스크로 구성되고 하나의 태스크는 여러 개의 스템으로 구성

단계(Phase) 프로세스 그룹을 통해 완성된 단계별 산출물 생성, 버전 관리 등을 통한 통제 필요
태스크(Task) 단계를 구성하는 단위 활동, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음
스텝(Step) WBS의 워크패키지에 해당, 입력 자료 · 처리 및 도구 · 출력 자료로 구성된 단위 프로세스

3. 전통적인 분석 방법론 두 가지

(1) KDD 분석 방법론

① KDD 분석 방법론

- KDD(Knowledge Discovery in Database) : 데이터로부터 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 데이터 마이닝 프로세스

- DB에서 의미 있는 지식을 탐색하는 데이터 마이닝부터, 기계학습, 인공지능, 패턴인식, 시각화 등에서 응용 가능한 구조

 

② KDD 분석 방법론 프로세스

[1단계]
데이터셋 선택
- 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수
- 분석에 필요한 데이터를 선택 -> 타깃 데이터 생성
[2단계]
데이터 전처리
- 잡음, 이상치, 결측치를 파악하여 제거하거나 의미 있는 데이터로 재가공
- 추가로 요구되는 데이터셋이 있다면 데이터 선택 프로세스를 다시 실행
[3단계]
데이터 변환
- 변수를 생성/선택하고 데이터의 차원을 축소
- 학습용 데이터와 검증용 데이터를 분리 
[4단계]
데이터 마이닝
- 학습용 데이터를 이용하여 분석 목적에 맞는 데이터 마이닝 기법을 선택하고 적절한 알고리즘 적용
- 필요에 따라 전처리와 변환 프로세스도 추가
[5단계]
해석과 평가
- 분석 목적과의 일치성을 확인하고 평가
- 발견한 지식을 업무에 활용하기 위한 방안 마련

 

(2) CRISP-DM 분석 방법론

① CRISP-DM 분석 방법론

- CRISP-DM(Cross Industry Standard Process for Data mining) : 계층적 프로세스 모델

- KDD 분석 방법론과 비슷하나, 약간 더 세분화

- 다른 계층적 프로세스 모델 : 단계 - 태스크 - 스텝

- CRISP-DM : 단계 - 일반화 태스크 - 세분화 태스크 - 프로세스 실행

 

② CRISP-DM 분석 방법론 프로세스

[1단계]
업무이해
업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
[2단계]
데이터 이해
초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
[3단계]
데이터 준비
분석용 데이터셋 선택, 데이터 정제, 분석용 데이터셋 편성, 데이터 통합, 데이터 포매팅
[4단계]
모델링
모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가
[5단계]
평가
분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가
[6단계]
전개
전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰

4. 빅데이터 분석 방법론

(1) 빅데이터 분석 방법론 개요

① 빅데이터 분석 방법론

- 완벽한 계층적 프로세스 모델로서 단계, 태스크, 스텝의 3계층 레벨과 5단계로 구성

- 5개의 단계들을 프로세스 그룹이라 하며, 각 단계는 여러 개의 태스크로 구성, 각 태스크는 물리적 또는 논리적으로 품질 검토의 항목이 될 수 있음

- 마지막 계층인 스텝은 입력자료, 출력 및 도구, 출력자료 등으로 구성된 단위 프로세스

 

② 빅데이터 분석 방법론의 계층적 프로세스

단계(Phase) 태스크(Task) 스텝(Step)
[1단계]
분석 기획
비즈니스 이해 및 범위 설정 - 비즈니스 이해
- 프로젝트 범위 설정
프로젝트 정의 및 계획 수립 - 데이터 분석 프로젝트 정의
- 프로젝트 수행 계획 수립
프로젝트 위험 계획 수립
(회피, 전이 완화, 수용)
- 데이터 분석 위험 식별
- 위험 대응 계획 수립
[2단계]
데이터 준비
필요 데이터 정의 - 데이터 정의
- 데이터 획득 방안 수립
데이터 스토어 설계 - 정형 데이터 스토어 설계
- 비정형 데이터 스토어 설계
데이터 수집 및 정합성 검정 - 데이터 수집 및 저장
- 데이터 정합성 검정
[3단계]
데이터 분석
분석용 데이터 준비 - 비즈니스 룰 확인
- 분석용 데이터셋 준비
텍스트 분석 - 텍스트 데이터 확인 및 추출
- 텍스트 데이터 분석
탐색적 분석 - 탐색적 데이터 분석
- 데이터 시각화
모델링 - 데이터 분할
- 데이터 모델링
- 모델 적용 및 운영 방안
모델 평가 및 검증 - 모델 평가
- 모델 검증
[4단계]
시스템 구현
설계 및 구현 - 시스템 분석 및 설계
- 시스템 구현
시스템 테스트 및 운영 - 시스템 테스트
- 시스템 운영 계획
[5단계]
평가 및 전개
모델 발전 계획 - 모델 발전 계획
프로젝트 평가 및 보고 - 프로젝트 성과 평가
- 프로젝트 종료

 

(2) 빅데이터 분석 방법론 단계별 수행 프로세스

① [1단계] 분석 기획

- 태스크 #1_비즈니스 이해 및 범위 설정

스텝 내용 입력자료 프로세스 및 도구 출력자료
비즈니스 이해 분석 대상인 업무
도메인에 대한 이해
업무 매뉴얼
업무 전문가의 지식
자료 수집 및
비즈니스 이해
비즈니스 이해
도메인 문제점
pj 범위 설정 pj 목적에 부합
하는 범위를 설정
중장기 계획서
빅데이터 분석 
pj 지시서
자료 수집
비즈니스 이해
SOW 작성 절차
프로젝트 범위
정의서(SOW)

 

- 태스크 #2_비즈니스 정의 및 계획 수립

스텝 내용 입력자료 프로세스 및 도구 출력자료
데이터분석 pj 정의 pj 목표를 명확히
하기 위한 평가
기준을 설정
SOW
빅데이터 분석 SOW
pj 목표 구체화
모델 운영 이미지
설계
pj 정의서
모델 운영 이미지
설계서
pj 수행 계획 수립 pj 목적, 기대효과
pj 관리방안 등 pj
수행계획서 작성
프로젝트 정의서
모델 운영 이미지
설계서 모델 평가 기준
pj 수행 계획 작성
WBS 작성 도구
일정계획 수립 도구
pj 수행 계획서
WBS

 

- 태스크 #3_프로젝트 위험 계획 수립

스텝 내용 입력자료 프로세스 및 도구 출력자료
데이터 분석
위험 식별
빅데이터 분석 pj를
진행하면서 발생
가능한 위험 식별
SOW
pj 수행 계획서
선행 pj 산출물
위험 식별 절차
위험영향도 및
발생가능성 분석
위험 우선순위 판단
식별된 위험 목록
위험 대응 계획 수립 식별된 위험에 대한
분석을 통하여 대응
방안을 수립
식별된 위험 목록
pj 정의서
pj 수행 계획서
위험 정량적 분석
위험 정성적 분석
위험관리계획서

 

② [2단계] 데이터 준비

- 태스크 #1_필요 데이터 정의

스텝 내용 입력자료 프로세스 및 도구 출력자료
데이터 정의 다양한 데이터 소스
로부터 필요 데이터
정의
pj 수행 계획서
시스템 설계서
ERD
메타데이터 정의서
내외부 데이터 정의
정형.비정형.반정형
데이터 정의
데이터 정의서
데이터 획득
방안 수립
데이터를 수집하기
위한 구체적 방안 수립
데이터 정의서
시스템 설계서
ERD
메타데이터 정의서
데이터 획득 방안 수립 데이터 획득 계획서

 

- 태스크 #2_데이터 스토어 설계

스텝 내용 입력자료 프로세스 및 도구 출력자료
정형 데이터
스토어 설계
데이터의 효율적인 저장과 활용을 위한 데이터 스토어 설계 데이터 정의서
데이터 획득 계획서
DB 논리설계
DB 물리설계
데이터 매핑
정형 데이터
스토어 설계서
데이터 매핑 정의서
비정형 데이터
스토어 설계
하둡, NoSQL 등을 활용해 반정형 데이터 저장 데이터 스토어 설계 데이터 정의서
데이터 획득 계획서
비.반정형 데이터
논리.물리설계
비정형 데이터
스토어 설계서
데이터 매핑 정의서

 

- 태스크 #3_데이터 수집 및 정합성 검정

스텝 내용 입력자료 프로세스 및 도구 출력자료
데이터 수집 및
저장
수집된 데이터를 설
계된 스토어에 저장
데이터 정의서
데이터 획득 계획서
데이터 스토어 설계서
데이터 크롤링 도구
ETL 도구
데이터 수집 스크립트
수집된 분석용
데이터
데이터 정합성
점검
데이터 품질 점검을 통해 데이터의 정합성을 확보 수집된 분석용 데이터 데이터 품질 확인
데이터 정합성 점검
리스트
데이터 정합성 점검
보고서

 

③ [3단계] 데이터 분석

- 태스크 #1_분석용 데이터 준비

스텝 내용 입력자료 프로세스 및 도구 출력자료
비즈니스 롤 확인 pj 목표 인식
세부적인 비즈니스
룰과 필요 데이터
범위 확인
pj 정의서
pj 수행 계획서
데이터 정의서
데이터 스토어
pj 목표 확인
비즈니스 룰 확인
비즈니스 룰 분석에
필요한 데이터 범위
분석용 데이터 셋
준비
데이터 스토어로부터 분석에 필요한 데이터 추출 데이터 정의서
데이터 스토어
데이터 선정
데이터 변환
ETL 도구
분석용 데이터셋

 

- 태스크 #2_텍스트 분석

스텝 내용 입력자료 프로세스 및 도구 출력자료
텍스트 데이터
확인 및 추출
텍스트 분석에 필요한 데이터 확인 및 데이터 추출 비정형 데이터 스토어 분석용 텍스트 데이터 확인
텍스트 데이터 추출
분석용 텍스트
데이터
텍스트 데이터 
분석
추출된 텍스트 데이터를 분석 도구로 적재하여 다양한 기법으로 분석 및 모델 구축 분석용 텍스트 데이터 
용어사전
분류체계 설계
형태소 분석
키워드 추출
감성 분석
텍스트 분석 보고서

 

- 태스크 #3_탐색적 분석

스텝 내용 입력자료 프로세스 및 도구 출력자료
탐색적 데이터
분석
다양한 관점에서 데이터
분포 및 특성 확인
분석용 데이터셋 EDA 도구
통계 분석
변수 간 연관성 분석
데이터 분포 확인
데이터 탐색 보고서
데이터 시각화 탐색적 데이터 분석을 위해 활용 분석용 데이터셋 시각화 도구 및 패키지
인포그래픽
시각화 방법론
데이터 시각화 보고서

 

- 태스크 #4_모델링

스텝 내용 입력자료 프로세스 및 도구 출력자료
데이터 분할 모델의 과적합 문제 해결과 모델의 검증력을 테스트하기 위한 데이터 분할 분석용 데이터셋 데이터 분할 패키지 훈련용 데이터
테스트용
데이터
데이터 모델링 기계학습 등을 이용한 분류, 예측, 군집 등의 모델 구축 분석용 데이터셋 통계 모델링 기법
기계학습
모델 테스트
모델링 결과
보고서
모델 적용 및
운영 방안
모델 적용을 위한 상세한 알고리즘 설명 작성과 모델의 운영 모니터링 방안 수립 모델링 결과
보고서
모니터링 방안 수립
알고리즘 설명서 작성
모니터링 방안

 

- 태스크 #5_모델 평가 및 검증

스텝 내용 입력자료 프로세스 및 도구 출력자료
모델 평가 모델 평가 기준에 따른 모델의 객관적인 평가 진행 모델링 결과 보고서
평가용 데이터
모델 평가
모델 품질관리
모델 개선작업
모델 평가 보고서
모델 검증 모델의 적용성 검증 작업과 실제 모델 품질을 최종 검증 모델링 결과 보고서
모델 평가 보고서
검증용 데이터
모델 검증 모델 검증 보고서

 

④ [4단계] 시스템 구현

- 태스크 #1_설계 및 구현

스텝 내용 입력자료 프로세스 및 도구 출력자료
시스템 분석 및 설계 가동 중인 시스템 분석 및 구축 설계 프로세스 진행 알고리즘 설명서
운영 중인 시스템
설계
정보시스템
개발방법론
시스템 분석 및
설계서
시스템 구현 새로운 시스템 구축 및 가동 중인 운영 시스템의 커스터마이징을 통해 설계된 모델을 구현 시스템 분석 및 설계서
알고리즘 설명서
시스템 통합개발도구
프로그래밍 언어
패키지
구현 시스템

 

- 태스크 #2_시스템 테스트 및 운영

스텝 내용 입력자료 프로세스 및 도구 출력자료
시스템 테스트 구축된 시스템의 검증을 위해 단위 테스트, 통합 테스트, 시스템 테스트 등을 실시 구현 시스템
시스템 테스트
계획서
품질관리 활동 시스템 테스트
결과보고서
시스템 운영 계획 구현된 시스템의 지속적인 활용을 위한 시스템 운영자, 사용자 교육 실시 및 시스템 운영 계획 수립 시스템 분석 및 설계서
구현 시스템
운영계획 수립
운영자 및 사용자 교육
운영자 매뉴얼
사용자 매뉴얼
시스템 운영 계획서

 

⑤ [5단계] 평가 및 전개

- 태스크 #1_모델 발전 계획 수립

스텝 내용 입력자료 프로세스 및 도구 출력자료
모델 발전 계획 지속적인 운영과 기능
향상을 위한 발전 계획 수립
구현 시스템
프로젝트 산출물
모델 발전 계획 수립 모델 발전 계획서

 

- 태스크 #2_시스템 테스트 및 운영

스텝 내용 입력자료 프로세스 및 도구 출력자료
pj 성과 평가 pj의 정량적 성과와 정성적 성과로 나눠 성과 평가서 작성 pj 산출물
품질관리 산출물
pj 정의서
pj 수행 계획서
pj 평가 기준
pj 정량적 평가
pj 정성적 평가
pj 성과
평가서
pj 종료 pj 과정 간 모든 산출물 및 pj를 지식 자산화하고 최종 보고서를 작성 pj 산출물
품질관리 산출물
pj 정의서
pj 수행 계획서
pj 지식자산화 작업
pj 종료
pj 최종
보고
728x90
반응형