2024 ADsP 데이터분석 준전문가 시험공부 3일차/20
[02과목-01장]
01 분석 기획과 분석 방법론
1. 분석 기획
(1) 분석 기획의 정의와 특징
① 분석 기획의 정의
- 분석 기획 : 실제 분석을 수행하기 전 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 관리하는 방안을 사전에 계획하는 작업을 의미
- 분석을 직접 수행하는 것은 아니지만 어떠한 목표(What)를 달성하기 위하여 어떠한 데이터를 가지고 어떠한 방식(How)으로 수행할지에 대한 일련의 계획을 수립하는 중요한 사전작업
② 분석 기획의 특징
- 수학/통계학적 지식, 분석 도구인 데이터 및 프로그래밍 기술, 해당 비즈니스에 대한 이해와 전문성에 대한 고른 역량과 시각 요구
③ 분석 대상과 그 방법에 따른 4가지 분석 주제 ★★★
분석의 대상 WHAT |
|||
분석의 방법 HOW |
Known | Unknown | |
Known | 최적화 Optimization |
통찰력 Insight |
|
Unknown | 해결책 Solution |
발견 Discovery |
④ 목표 시점별 분석 기획 ★★★
당면한 분석 주제 해결 (과제 단위) |
지속적 분석 문화 내재화 (마스터플랜 단위) |
|
목적 | 빠르게 해결하는 것이 목적 | 지속적으로 해결하는 것이 목적 |
1차 목표 | Speed & Test | Accuracy & Deploy |
과제 유형 | Quick & Win | Long Term View |
접근 방식 | Problem Solving | Problem Definition |
(2) 분석 기획 시 고려사항 ★★★
① 가용 데이터 고려
- 분석할 데이터가 확보될 수 있는지
- 데이터가 존재하더라도 유형에 따라 분석 방법 다름 -> 유형 분석 선행적으로 필요!
② 적절한 활용 방안과 유스케이스의 탐색
- 유사 시나리오 및 솔루션을 최대한 활용
- 과거의 실패를 반복하지 않고 성공적인 분석을 위한 가이드로서 참조
③ 장애요소에 대한 사전 계획 수립
2. 분석 방법론 개요
(1) 분석 방법론 개요
① 분석 방법론이란?
: 주어진 과제를 해결하기 위해 조직이 어떠한 절차로 작업을 수행해 나갈 것인지 일련의 절차를 정의한 것
② 분석 방법론의 필요성
- 데이터 분석 프로젝트는 개인의 역량 혹은 우연한 성공에 기인해서는 안 되고, 일정한 수준의 품질을 갖춘 산출물과 프로젝트의 성공 가능성을 확보하고 제시할 수 있어야 함
+ 방법론 구성 요소의 이해
- 상세한 절차 : 작업을 수행하기 위한 절차를 의미
- 방법 : 해당 절차를 수행하기 위한 방법. ex) 전문가에게 자문 요구, 고개의 요구사항 파악을 위한 대면조사
- 도구와 기법 : 작업을 수행하는 데 필요한 것을 의미. ex) R, 파이썬, 파워포인트, 엑셀, 하둡, 플럼
- 템플릿과 산출물 : 템플릿이란 어떤 작업을 수행하기 위해 문서를 작성할 때 참고할 수 있는 일종의 양식, 문서 또는 프로그램이 될 수 있으며, 산출물이란 해당 작업이 종료된 이후 작성되는 문서 또는 프로그램을 의미
+ 기업의 합리적 의사결정 방해요소 ★★
- 고정관념
- 편향된 생각
- 프레이밍 효과 : 동일한 사건이나 상황을 두고도 개인의 판단이나 선택이 달라질 수 있는 현상
③ 분석 방법론의 생성 과정 ★
(2) 분석 방법론이 적용되는 업무 특성에 따른 모델 ★★
① 폭포수 모델
- 단계를 거쳐 순차적으로 진행하는 방법
- 하향식 방식 (현재 단계가 완료되어야 다음 단계로 진행)
- 문제나 개선사항이 발견될 경우 이전 단계로 돌아가 피드백 과정을 수행할 수도 있음
② 프로토타입 모델
- 사용자 중심의 개발 방법
- 고객의 요구를 완전히 이해하지 못할 경우 프로토타입 모델 적용
- 일부분을 먼저 개발하고, 그 이후 사용자의 요구 분석, 정당성 점검, 성능 평가 등의 과정을 통해 개선 작업 시행
==> 점진적으로 시스템을 개발해 나가는 접근 방식
③ 나선형 모델
- 반복을 통해 점증적으로 개발하는 측면에서 프로토타입 모델과 유사
- 벗, 사용자의 요구에 초점을 맞추기보다 위험요소를 사전에 제거한다는 것에 초점
- 처음 시도하는 프로젝트에는 적용이 용이하지만 관리 체계를 효과적으로 갖추지 못하면 복잡도가 상승
④ 계층적 프로세스 모델
- 일반적으로 분석 방법론은 계층적 프로세스 모델의 형태로 구성
- 최상의 계층인 몇 개의 단계로 구성되어 있고 하나의 단계는 여러 개의 태스크로 구성되고 하나의 태스크는 여러 개의 스템으로 구성
단계(Phase) | 프로세스 그룹을 통해 완성된 단계별 산출물 생성, 버전 관리 등을 통한 통제 필요 |
태스크(Task) | 단계를 구성하는 단위 활동, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음 |
스텝(Step) | WBS의 워크패키지에 해당, 입력 자료 · 처리 및 도구 · 출력 자료로 구성된 단위 프로세스 |
3. 전통적인 분석 방법론 두 가지
(1) KDD 분석 방법론 ★
① KDD 분석 방법론
- KDD(Knowledge Discovery in Database) : 데이터로부터 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 데이터 마이닝 프로세스
- DB에서 의미 있는 지식을 탐색하는 데이터 마이닝부터, 기계학습, 인공지능, 패턴인식, 시각화 등에서 응용 가능한 구조
② KDD 분석 방법론 프로세스
[1단계] 데이터셋 선택 |
- 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수 - 분석에 필요한 데이터를 선택 -> 타깃 데이터 생성 |
[2단계] 데이터 전처리 |
- 잡음, 이상치, 결측치를 파악하여 제거하거나 의미 있는 데이터로 재가공 - 추가로 요구되는 데이터셋이 있다면 데이터 선택 프로세스를 다시 실행 |
[3단계] 데이터 변환 |
- 변수를 생성/선택하고 데이터의 차원을 축소 - 학습용 데이터와 검증용 데이터를 분리 |
[4단계] 데이터 마이닝 |
- 학습용 데이터를 이용하여 분석 목적에 맞는 데이터 마이닝 기법을 선택하고 적절한 알고리즘 적용 - 필요에 따라 전처리와 변환 프로세스도 추가 |
[5단계] 해석과 평가 |
- 분석 목적과의 일치성을 확인하고 평가 - 발견한 지식을 업무에 활용하기 위한 방안 마련 |
(2) CRISP-DM 분석 방법론 ★★★
① CRISP-DM 분석 방법론
- CRISP-DM(Cross Industry Standard Process for Data mining) : 계층적 프로세스 모델
- KDD 분석 방법론과 비슷하나, 약간 더 세분화
- 다른 계층적 프로세스 모델 : 단계 - 태스크 - 스텝
- CRISP-DM : 단계 - 일반화 태스크 - 세분화 태스크 - 프로세스 실행
② CRISP-DM 분석 방법론 프로세스
[1단계] 업무이해 |
업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립 |
[2단계] 데이터 이해 |
초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인 |
[3단계] 데이터 준비 |
분석용 데이터셋 선택, 데이터 정제, 분석용 데이터셋 편성, 데이터 통합, 데이터 포매팅 |
[4단계] 모델링 |
모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가 |
[5단계] 평가 |
분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가 |
[6단계] 전개 |
전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰 |
4. 빅데이터 분석 방법론
(1) 빅데이터 분석 방법론 개요
① 빅데이터 분석 방법론
- 완벽한 계층적 프로세스 모델로서 단계, 태스크, 스텝의 3계층 레벨과 5단계로 구성
- 5개의 단계들을 프로세스 그룹이라 하며, 각 단계는 여러 개의 태스크로 구성, 각 태스크는 물리적 또는 논리적으로 품질 검토의 항목이 될 수 있음
- 마지막 계층인 스텝은 입력자료, 출력 및 도구, 출력자료 등으로 구성된 단위 프로세스
② 빅데이터 분석 방법론의 계층적 프로세스 ★
단계(Phase) | 태스크(Task) | 스텝(Step) |
[1단계] 분석 기획 |
비즈니스 이해 및 범위 설정 | - 비즈니스 이해 - 프로젝트 범위 설정 |
프로젝트 정의 및 계획 수립 | - 데이터 분석 프로젝트 정의 - 프로젝트 수행 계획 수립 |
|
프로젝트 위험 계획 수립 (회피, 전이 완화, 수용) |
- 데이터 분석 위험 식별 - 위험 대응 계획 수립 |
|
[2단계] 데이터 준비 |
필요 데이터 정의 | - 데이터 정의 - 데이터 획득 방안 수립 |
데이터 스토어 설계 | - 정형 데이터 스토어 설계 - 비정형 데이터 스토어 설계 |
|
데이터 수집 및 정합성 검정 | - 데이터 수집 및 저장 - 데이터 정합성 검정 |
|
[3단계] 데이터 분석 |
분석용 데이터 준비 | - 비즈니스 룰 확인 - 분석용 데이터셋 준비 |
텍스트 분석 | - 텍스트 데이터 확인 및 추출 - 텍스트 데이터 분석 |
|
탐색적 분석 | - 탐색적 데이터 분석 - 데이터 시각화 |
|
모델링 | - 데이터 분할 - 데이터 모델링 - 모델 적용 및 운영 방안 |
|
모델 평가 및 검증 | - 모델 평가 - 모델 검증 |
|
[4단계] 시스템 구현 |
설계 및 구현 | - 시스템 분석 및 설계 - 시스템 구현 |
시스템 테스트 및 운영 | - 시스템 테스트 - 시스템 운영 계획 |
|
[5단계] 평가 및 전개 |
모델 발전 계획 | - 모델 발전 계획 |
프로젝트 평가 및 보고 | - 프로젝트 성과 평가 - 프로젝트 종료 |
(2) 빅데이터 분석 방법론 단계별 수행 프로세스
① [1단계] 분석 기획
- 태스크 #1_비즈니스 이해 및 범위 설정
스텝 | 내용 | 입력자료 | 프로세스 및 도구 | 출력자료 |
비즈니스 이해 | 분석 대상인 업무 도메인에 대한 이해 |
업무 매뉴얼 업무 전문가의 지식 |
자료 수집 및 비즈니스 이해 |
비즈니스 이해 도메인 문제점 |
pj 범위 설정 | pj 목적에 부합 하는 범위를 설정 |
중장기 계획서 빅데이터 분석 pj 지시서 |
자료 수집 비즈니스 이해 SOW 작성 절차 |
프로젝트 범위 정의서(SOW) |
- 태스크 #2_비즈니스 정의 및 계획 수립
스텝 | 내용 | 입력자료 | 프로세스 및 도구 | 출력자료 |
데이터분석 pj 정의 | pj 목표를 명확히 하기 위한 평가 기준을 설정 |
SOW 빅데이터 분석 SOW |
pj 목표 구체화 모델 운영 이미지 설계 |
pj 정의서 모델 운영 이미지 설계서 |
pj 수행 계획 수립 | pj 목적, 기대효과 pj 관리방안 등 pj 수행계획서 작성 |
프로젝트 정의서 모델 운영 이미지 설계서 모델 평가 기준 |
pj 수행 계획 작성 WBS 작성 도구 일정계획 수립 도구 |
pj 수행 계획서 WBS |
- 태스크 #3_프로젝트 위험 계획 수립
스텝 | 내용 | 입력자료 | 프로세스 및 도구 | 출력자료 |
데이터 분석 위험 식별 |
빅데이터 분석 pj를 진행하면서 발생 가능한 위험 식별 |
SOW pj 수행 계획서 선행 pj 산출물 |
위험 식별 절차 위험영향도 및 발생가능성 분석 위험 우선순위 판단 |
식별된 위험 목록 |
위험 대응 계획 수립 | 식별된 위험에 대한 분석을 통하여 대응 방안을 수립 |
식별된 위험 목록 pj 정의서 pj 수행 계획서 |
위험 정량적 분석 위험 정성적 분석 |
위험관리계획서 |
② [2단계] 데이터 준비
- 태스크 #1_필요 데이터 정의
스텝 | 내용 | 입력자료 | 프로세스 및 도구 | 출력자료 |
데이터 정의 | 다양한 데이터 소스 로부터 필요 데이터 정의 |
pj 수행 계획서 시스템 설계서 ERD 메타데이터 정의서 |
내외부 데이터 정의 정형.비정형.반정형 데이터 정의 |
데이터 정의서 |
데이터 획득 방안 수립 |
데이터를 수집하기 위한 구체적 방안 수립 |
데이터 정의서 시스템 설계서 ERD 메타데이터 정의서 |
데이터 획득 방안 수립 | 데이터 획득 계획서 |
- 태스크 #2_데이터 스토어 설계
스텝 | 내용 | 입력자료 | 프로세스 및 도구 | 출력자료 |
정형 데이터 스토어 설계 |
데이터의 효율적인 저장과 활용을 위한 데이터 스토어 설계 | 데이터 정의서 데이터 획득 계획서 |
DB 논리설계 DB 물리설계 데이터 매핑 |
정형 데이터 스토어 설계서 데이터 매핑 정의서 |
비정형 데이터 스토어 설계 |
하둡, NoSQL 등을 활용해 반정형 데이터 저장 데이터 스토어 설계 | 데이터 정의서 데이터 획득 계획서 |
비.반정형 데이터 논리.물리설계 |
비정형 데이터 스토어 설계서 데이터 매핑 정의서 |
- 태스크 #3_데이터 수집 및 정합성 검정
스텝 | 내용 | 입력자료 | 프로세스 및 도구 | 출력자료 |
데이터 수집 및 저장 |
수집된 데이터를 설 계된 스토어에 저장 |
데이터 정의서 데이터 획득 계획서 데이터 스토어 설계서 |
데이터 크롤링 도구 ETL 도구 데이터 수집 스크립트 |
수집된 분석용 데이터 |
데이터 정합성 점검 |
데이터 품질 점검을 통해 데이터의 정합성을 확보 | 수집된 분석용 데이터 | 데이터 품질 확인 데이터 정합성 점검 리스트 |
데이터 정합성 점검 보고서 |
③ [3단계] 데이터 분석
- 태스크 #1_분석용 데이터 준비
스텝 | 내용 | 입력자료 | 프로세스 및 도구 | 출력자료 |
비즈니스 롤 확인 | pj 목표 인식 세부적인 비즈니스 룰과 필요 데이터 범위 확인 |
pj 정의서 pj 수행 계획서 데이터 정의서 데이터 스토어 |
pj 목표 확인 비즈니스 룰 확인 |
비즈니스 룰 분석에 필요한 데이터 범위 |
분석용 데이터 셋 준비 |
데이터 스토어로부터 분석에 필요한 데이터 추출 | 데이터 정의서 데이터 스토어 |
데이터 선정 데이터 변환 ETL 도구 |
분석용 데이터셋 |
- 태스크 #2_텍스트 분석
스텝 | 내용 | 입력자료 | 프로세스 및 도구 | 출력자료 |
텍스트 데이터 확인 및 추출 |
텍스트 분석에 필요한 데이터 확인 및 데이터 추출 | 비정형 데이터 스토어 | 분석용 텍스트 데이터 확인 텍스트 데이터 추출 |
분석용 텍스트 데이터 |
텍스트 데이터 분석 |
추출된 텍스트 데이터를 분석 도구로 적재하여 다양한 기법으로 분석 및 모델 구축 | 분석용 텍스트 데이터 용어사전 |
분류체계 설계 형태소 분석 키워드 추출 감성 분석 |
텍스트 분석 보고서 |
- 태스크 #3_탐색적 분석
스텝 | 내용 | 입력자료 | 프로세스 및 도구 | 출력자료 |
탐색적 데이터 분석 |
다양한 관점에서 데이터 분포 및 특성 확인 |
분석용 데이터셋 | EDA 도구 통계 분석 변수 간 연관성 분석 데이터 분포 확인 |
데이터 탐색 보고서 |
데이터 시각화 | 탐색적 데이터 분석을 위해 활용 | 분석용 데이터셋 | 시각화 도구 및 패키지 인포그래픽 시각화 방법론 |
데이터 시각화 보고서 |
- 태스크 #4_모델링
스텝 | 내용 | 입력자료 | 프로세스 및 도구 | 출력자료 |
데이터 분할 | 모델의 과적합 문제 해결과 모델의 검증력을 테스트하기 위한 데이터 분할 | 분석용 데이터셋 | 데이터 분할 패키지 | 훈련용 데이터 테스트용 데이터 |
데이터 모델링 | 기계학습 등을 이용한 분류, 예측, 군집 등의 모델 구축 | 분석용 데이터셋 | 통계 모델링 기법 기계학습 모델 테스트 |
모델링 결과 보고서 |
모델 적용 및 운영 방안 |
모델 적용을 위한 상세한 알고리즘 설명 작성과 모델의 운영 모니터링 방안 수립 | 모델링 결과 보고서 |
모니터링 방안 수립 알고리즘 설명서 작성 |
모니터링 방안 |
- 태스크 #5_모델 평가 및 검증
스텝 | 내용 | 입력자료 | 프로세스 및 도구 | 출력자료 |
모델 평가 | 모델 평가 기준에 따른 모델의 객관적인 평가 진행 | 모델링 결과 보고서 평가용 데이터 |
모델 평가 모델 품질관리 모델 개선작업 |
모델 평가 보고서 |
모델 검증 | 모델의 적용성 검증 작업과 실제 모델 품질을 최종 검증 | 모델링 결과 보고서 모델 평가 보고서 검증용 데이터 |
모델 검증 | 모델 검증 보고서 |
④ [4단계] 시스템 구현
- 태스크 #1_설계 및 구현
스텝 | 내용 | 입력자료 | 프로세스 및 도구 | 출력자료 |
시스템 분석 및 설계 | 가동 중인 시스템 분석 및 구축 설계 프로세스 진행 | 알고리즘 설명서 운영 중인 시스템 설계 |
정보시스템 개발방법론 |
시스템 분석 및 설계서 |
시스템 구현 | 새로운 시스템 구축 및 가동 중인 운영 시스템의 커스터마이징을 통해 설계된 모델을 구현 | 시스템 분석 및 설계서 알고리즘 설명서 |
시스템 통합개발도구 프로그래밍 언어 패키지 |
구현 시스템 |
- 태스크 #2_시스템 테스트 및 운영
스텝 | 내용 | 입력자료 | 프로세스 및 도구 | 출력자료 |
시스템 테스트 | 구축된 시스템의 검증을 위해 단위 테스트, 통합 테스트, 시스템 테스트 등을 실시 | 구현 시스템 시스템 테스트 계획서 |
품질관리 활동 | 시스템 테스트 결과보고서 |
시스템 운영 계획 | 구현된 시스템의 지속적인 활용을 위한 시스템 운영자, 사용자 교육 실시 및 시스템 운영 계획 수립 | 시스템 분석 및 설계서 구현 시스템 |
운영계획 수립 운영자 및 사용자 교육 |
운영자 매뉴얼 사용자 매뉴얼 시스템 운영 계획서 |
⑤ [5단계] 평가 및 전개
- 태스크 #1_모델 발전 계획 수립
스텝 | 내용 | 입력자료 | 프로세스 및 도구 | 출력자료 |
모델 발전 계획 | 지속적인 운영과 기능 향상을 위한 발전 계획 수립 |
구현 시스템 프로젝트 산출물 |
모델 발전 계획 수립 | 모델 발전 계획서 |
- 태스크 #2_시스템 테스트 및 운영
스텝 | 내용 | 입력자료 | 프로세스 및 도구 | 출력자료 |
pj 성과 평가 | pj의 정량적 성과와 정성적 성과로 나눠 성과 평가서 작성 | pj 산출물 품질관리 산출물 pj 정의서 pj 수행 계획서 |
pj 평가 기준 pj 정량적 평가 pj 정성적 평가 |
pj 성과 평가서 |
pj 종료 | pj 과정 간 모든 산출물 및 pj를 지식 자산화하고 최종 보고서를 작성 | pj 산출물 품질관리 산출물 pj 정의서 pj 수행 계획서 |
pj 지식자산화 작업 pj 종료 |
pj 최종 보고 |