2024 ADsP 데이터분석 준전문가 시험공부 1일차/20
01 과목 데이터 이해
- 01장_데이터의 이해
- 02장_데이터의 가치와 미래
02 과목 데이터 분석 기획
- 01장_데이터 분석 기획의 이해
- 02장_분석 마스터플랜
03 과목 데이터 분석
- 01장_R 기초와 데이터 마트
- 02장_통계 분석
- 03장_정형 데이터 마이닝
[01과목 - 01장]
01 데이터와 정보
1. 데이터의 정의
(1) 데이터의 정의
① 데이터의 정의
- 데이터(Data) : 라틴어 'dare(주다)' + 'Datum(주어진 것, 선물, 자료)', 보통 연구나 조사 등의 바탕이 되는 재료 혹은 자료
1646 영국 문헌에 첫 등장 - 추상적, 관념적 개념
1900년대 중반 컴퓨터 시대 도래 - 기술적, 사실적 의미인 '자료'로 변화
② 데이터의 특성 ★
구분 | 형태 | 예 |
존재적 특성 | 데이터는 있는 그대로의 객관적 사실 | 수학 80점, 영어 100점 |
당위적 특성 | 데이터는 추론 · 예측 · 전망 · 추정을 위한 근거 | 평균 90점 |
(2) 데이터의 유형
① 정성적 데이터와 정량적 데이터
구분 | 형태 | 예 |
정성적 데이터 | 언어, 문자 등 (집합으로 표현 불가능) | 문자 텍스트, 언어, 문자 |
정량적 데이터 | 수치, 도형, 기호 등 (집합으로 표현 가능) | 30cm, 정육면체, 3시 방향 |
② 정형 데이터와 비정형 데이터, 그리고 반정형 데이터
구분 | 특징 | 예 |
정형 데이터 | 정형화된 틀이 있고 연산이 가능, DB에 저장, 수집 및 관리 용이 | CSV, 엑셀 스프레드시트 등 |
비정형 데이터 | 정형화된 틀이 없고 연산이 불가능, NoSQL DB에 저장, 수집 및 관리 어려움 | 소셜 데이터, 댓글, 영상, 음성 등 |
반정형 데이터 | 형태는 있지만 연산이 불가능, 파일 형태로 저장, 수집 및 관리 어려움 | XML, JSON, 센서 데이터 등 |
③ 암묵지와 형식지 ★★
- 암묵지(Tacit Knowledge) : '학습과 체험을 통해 개인에게 습득되어 있지만, 겉으로 드러나지 않는 상태의 지식'
- 형식지(Explicit Knowledge) : '암묵지가 문서나 매뉴얼처럼 외부로 표출돼 여러 사람이 공유할 수 있는 지식'
암묵지와 형식지의 상호작용 : ★★
암묵지 | 형식지 |
공통화(Socialization) | 표출화(Externalization) |
내면화(Internalization) | 연결화(Combination) |
조직의 지식으로 공통화를 위한 '표출화'
암묵지 ==============================> 형식지
<==============================
개인에게 연결 및 습득되는 '내면화'
2. 데이터와 정보
(1) DIKW 피라미드 ★★★
① 데이터에서 지혜를 얻는 과정
- 데이터(Data) : 개별 데이터 자체는 의미가 중요하지 않은 객관적인 사실
- 정보(Information) : 데이터의 가공 · 처리와 데이터 간 연관 관계 속에서 의미가 도출된 것 (벗, 정보가 내포하는 의미는 유용하지 않을 수 있음)
- 지식(Knowledge) : 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합해 고유의 지식으로 내재화된 것
- 지혜(Wisdom) : 지식의 축적과 아이디어가 결합된 창의적 산물
② DIKW 피라미드
지혜: A의 다른 물건도 저렴할 것이다.
지식: 더 저렴한 A로부터 연필을 사야겠다.
정보: A 연필이 더 저렴하다.
데이터: A는 100원, B는 200원에 연필을 판매한다.
(2) 데이터에 관한 상식
① 비트와 바이트
- 비트(bit) : '0'과 '1'의 두 가지 값으로 신호를 나타내는 최소단위. 'binary digit'의 약
- 바이트(byte) : 8개의 비트로 구성된 데이터의 양을 나타내는 단위. 숫자와 영어 한 글자(1 바이트), 한글 한 글자(2 바이트)
② 데이터 단위
1byte | 1KB | 1MB | 1GB | 1TB | 1PB | 1EB | 1ZB | 1YB |
8bit | 1024byte | 1024KB | 1024MB | 1024GB | 1024TB | 1024PB | 1024EB | 1024ZB |
02 데이터베이스
1. 데이터베이스 개요
(1) 데이터베이스 정의
① 데이터베이스 용어의 연혁
1950년대 : 미국에서 군수물자를 관리하기 위해 수집된 자료를 일컫는 'DATA'와 'BASE(기지)'의 합성어로 처음 등장
1963년 DB 용어를 공식적으로 사용 : 미국 SDC가 개최한 심포지엄에서 '대량의 데이터를 축적하는 기지'라는 개념으로 공식적으로 처음 사용, 같은 해 GE의 C.바크만은 최초로 현대적 의미의 DB 관리 시스템인 IDS를 개발
우리나라에서 처음 사용: 1975년 미국의 CAC가 한국과학기술정보센터를 통해 DB를 처음 시작
② 데이터베이스의 다양한 정의
DB System | DB (Data-Base) |
체계적으로 수집 · 축적하여 다양한 용도와 방법으로 이용할 수 있게 정리한 정보의 집합체 |
DBMS (Data-Base Management System) |
이용자가 쉽게 데이터베이스를 구축 · 유지할 수 있게 하는 관리 소프트웨어 |
(2) 데이터베이스의 특징
① 데이터베이스의 일반적인 특징 ★★★
특징 | 내용 |
통합된 데이터(Integrated data) | 동일한 내용의 데이터가 중복되지 않게 통합 |
저장된 데이터(Stored data) | 컴퓨터 매체가 접근할 수 있는 저장 매체에 저장 |
공용 데이터(Shared data) | 여러 사용자가 공유가능, 대용량화, 구조 복잡 |
변화하는 데이터(Operational data, 운영 데이터) | 삽입, 수정, 삭제를 통해 항상 최신의 정확한 데이터 유지 |
② 데이터베이스의 다양한 측면에서의 특성 ★★★
정보의 축적 및 전달 측면 | - 기계 가독성 : 대량의 정보를 일정한 형식에 따라 컴퓨터 등의 정보처리기기가 읽고 쓸 수 있음 - 검색 가능성 : 다양한 방법으로 필요한 정보를 검색할 수 있음 - 원격 조작성 : 정보통신망을 통해 원거리에서도 즉시 온라인으로 이용 가능 |
정보이용 측면 | 이용자의 정보요구에 따라 다양한 정보를 신속하게 획득할 수 있고 원하는 정보를 정확하고 경제적으로 찾을 수 있음 |
정보관리 측면 | 정보를 일정한 질서와 구조에 따라 정리 · 저장하고 검색 · 관리할 수 있게 하여 방대한 양의 정보를 체계적으로 축적하고, 새로운 내용 추가나 갱신이 용이 |
정보기술발전 측면 | 데이터베이스는 정보처리, 검색 · 관리 sw · hw, 정보 전송을 위한 네트워크 기술 등의 발전 견인가능 |
경제 · 산업적 측면 | 데이터베이스는 다양한 정보를 필요에 따라 신속하게 제공 · 이용할 수 있는 인프라의 특성을 가지고 있어 경제, 산업, 사회 활동의 효율성을 제고하고 국민의 편의를 증진하는 수단으로써의 의미를 가짐 |
+ 트랜잭션(Transaction) : DB에서 명령을 수행하는 하나의 논리적인 기능의 단위
- 특징 :
원자성(Atomicity) | 트랜잭션이 데이터베이스에 모두 적용되거나 모두 적용되지 않아야 함 |
일관성(Consistency) | 트랜잭션의 결과는 항상 일관성을 띠어야 함 |
고립성(Isolation) | 하나의 트랜잭션이 다른 트랜잭션에 영향을 주지 않아야 함 |
지속성(Durability) | 트랜잭션이 성공적으로 수행된 경우 그 결과는 영구적이어야 함 |
2. 데이터베이스 활용
(1) 데이터베이스 활용
① 기업 내부의 데이터베이스 ★
- 인하우스 DB : 1990년대 정보통신망 구축이 가속화되면서 기업 경영 전반에 관한 모든 자료를 연계하여 일관된 체계로 구축 및 운영하는 데 중점. 이후 경영 활동의 기반이 되는 전사자원관리시스템(ERP)으로 확대
- OLTP(Online Transaction Processing) 시스템 : 1990년대 중반 이전, 정보의 수집과 이를 조직 내에서 공유하기 위한 경영정보시스템(MIS)과 생산 자동화, 통합 자동화 등 기억 활동에서 영역별로 구축되던 단순 자동화 중심의 시스템
- OLAP(Online Analytical Processing) 시스템 : 데이터 마이닝 동의 기술이 등장하면서 단순한 정보의 '수집'과 '공유'에서 탈피하여 '분석'이 중심이 되는 시스템 구축으로 변화
유형 | 목적 | 예시 |
OLTP | 각각의 거래 단위에 초점 | 주문 입력 |
OLAP | 각각의 데이터가 쌓인 전체 데이터에 초점 | 데이터의 분석 |
- CRM과 SCM : 2000년에 들어서면서 기업 DB 구축의 화두는 CRM(고객관계관리)과 SCM(공급망관리)으로 변화. 유통 · 판매 및 고객 데이터가 CRM과 연동되어 CRM과 SCM은 상호 밀접한 관련을 가지게 됨
- EAI (Enterprise Application Integration) : 기업에서 모든 서비스를 중앙에서 관리하여 연결 루트 간소화
- KMS(Knowledge Management System) ★ : 지식 경영 시스템을 의미, 직원 개개인의 지식, 프로젝트 경험, 과거 사례, 외부 사례 등 기업이 보유할 수 있는 모든 지식을 통합해서 문제 해결 능력을 향상시키는 것이 목적
- SCM(Supply Chain Management) ★ : 유통 부문의 SCM은 공급망 관리를 의미. 원자재에서부터 기업을 거쳐 고객에게 도달할 때까지 유통 단계를 최적화해서 고객에게 제공하는 것이 목적
- ERP(Enterprise Resource Planning) : 제조 부문의 ERP는 경영 자원 통합 관리를 의미. 여러 자원 및 업무가 하나로 통합된 시스템으로 재구축해서 어느 부서에서 필요로 하는 자원이 있다고 알릴 경우 바로 그 자원에 대한 구매 및 생산이 진행될 수 있도록 도와 업무의 효율성을 높이는 것이 목적
- CRM(Customer Relationship Management) ★ : 제조 부문의 CRM은 고객 관계 관리로서 기업 내 외부적인 분석을 통해 마케팅 측면에서 신규 고객 창출 혹은 기존 고객의 이탈을 방지하는 것이 목적
- BI(Business Intelligence) : 제조 부문의 BI는 기업의 의사결정 프로세스를 의미. 기업의 경영권을 소유한 자가 올바른 의사결정을 내릴 수 있도록 기업의 데이터를 가공 및 분석하는 것이 목적. 가트너는 BI를 '여러 곳에 산재되어 있는 데이터를 수집하여 체계적이고 일목요연하게 정리함으로써 사용자가 필요로 하는 정보를 정확한 시간에 제공할 수 있는 환경'으로 정의함
- RTE(Real Time Enterprise) : 제조 부문의 RTE는 기업의 업무 프로세스에서 발생하는 정보를 실시간으로 통합 및 전달해서 신속한 대응이 가능한 스피트 경영
② '사회기반구조'로서의 데이터베이스 ★★
물류 부문 | - '실시간 차량 추적'을 위한 종합물류정보망 구축 - CVO 서비스, EDI 서비스, 물류 정보 DB 서비스, 부가서비스로 구성 - CALS(Commerce At Light Speed) : 제품의 설계 · 개발 · 생산에서 유통 · 폐기에 이르기까지 제품의 라이프사이클 전반에 관련된 데이터를 통합하고 공유 · 교환할 수 있게 한 경영통합정보시스템 - PORT-MIS : 항만운영정보시스템 - KROIS : 철도운영정보시스템 |
지리 부문 | - GIS 응용에 활용하는 4S 통합기술 - 지리정보유통망 가시화 : 지리정보 통합관리소 운영, 지리정보 수요자에 정보 제공 - GIS(Geographic Information System) : 지리정보시스템 - LBS(Location-Based Service) : 위치정보서비스 - SIM(Spatial Information Management) : 공간정보 관리시스템 |
교통 부문 | - 지능형교통정보시스템(ITS), 교통정보, 기초자료 및 통계 제공, 대국민 서비스 확대 |
의료 부문 | - 의료정보시스템 : 처방전달시스템, 임상병리, 전자의무기록, 영상처리시스템, 병원의 멀티미디어, 원격의료, 지식정보화 - HL7 국내 표준화 작업에 따라 전국적인 진료 정보 공유 체계 구축 계획 수립 - U헬스 실현에 기존 의료정보 데이터베이스 기반 활용 - PACS(Picture Archiving and Communications System) - U0Health(Ubiquitous-Health) |
교육 부문 | - 첨단 정보통신기술(ICT)을 활용한 각종 교육 정보의 개발 및 보급, 정보 활용 교육 - 대학 정보화 및 교육행정 정보화 위주로 사업 추진 - 교육행정정보시스템(NEIS)은 학사뿐만 아니라 기타 교육행정 전 업무를 처리하는 시스템 |
(2) 데이터베이스 종류
① 데이터베이스의 종류 ★
- 종류 : 계층형, 네트워크형, 관계형, NoSQL 등
RDB | - Oracle, MySQL(Oracle), MS-SQL(Microsoft), DB2 · Infomix(IBM), MariaDB(Sun Microsystems), Derby(Apache), SQLite(오픈소스) - Oracle, DB2 · Infomix 등은 엄밀히 말하면 객체 관계형 DB로 객체지향 개념을 도입한 것으로, 오늘날에는 많은 RDB가 이러한 객체지향 기능을 포함하고 있음 |
NoSQL | - Document-Oriented DB : CouchDB, MongoDB, Elasticsearch, Cloudant - Key-Value DB : 아마존의 Dyname, Redis, Riak, Coherence, SimpleDB - Column-Oriented DB : 구글의 Bigtable, Cassandra, HBase, HyperTable |
② SQL의 이해
- SQL(Structured Query Language) : DBMS에서 DB에 명령을 내리는 DB 하부 언어
DDL(데이터 정의 언어) | - CREATE : db 내에 테이블을 생성하는 명령어 - ALTER : 테이블의 정보를 바꾸는 명령어 - RENAME : 테이블 이름을 변경하는 명령어 - DROP : 테이블을 삭제하는 명령어 |
DML(데이터 조작 언어) | - SELECT : 테이블에 포함된 데이터를 조회하는 명령어 - INSERT : 테이블에 데이터를 삽입하는 명령어 - UPDATE : 테이블에 포함된 데이터를 변경하는 명령어 - DELETE : 테이블에 포함된 데이터를 삭제하는 명령어 |
DCL(데이터 제어 언어) | - GRANT : DBMS 사용자에게 권한을 부여하기 위한 명령어 - REVOKE : DBMS 사용자로부터 권한을 회수하기 위한 명령어 |
TCL(트랜잭션 제어 언어) | - COMMIT : 사용자에 의해 변경된 데이터를 일괄 적용 - SAVEPOINT : 현재 데이터의 상태 기억 - ROLLBACK : COMMIT이 되지 않았다면 변경사항들에 대한 명령을 철회하거나 특정 SAVEPOINT 시점으로 되돌아감 |
+ 데이터 마트(DM)와 데이터 웨어하우스(DW)
- 데이터 웨어하우스 : 분산된 환경에 흩어져 있는 데이터들을 개인이나 조직이 총체적인 관점에서 의사결정을 위해 공통의 형식으로 변환해 관리하는 역할
- 데이터 마트 : 데이터 웨어하우스로부터 추출된 작은 데이터베이스로서 특정 목표를 달성하는데 필요한 데이터를 제공하는 역할
[01과목 - 02장]
01 빅데이터의 이해
1. 빅데이터의 이해
(1) 빅데이터의 정의
일반적 정의 | '빅(big)'에는 단순히 양적인 개념뿐만 아니라 복잡하고 다양한 질적인 개념도 포함. 일반적으로 빅데이터란 큰 용량과 복잡성으로 기존 애플리케이션이나 툴로는 다루기 어려운 데이터셋의 집합을 의미 |
가트너(Gartner) 정의 | 향상된 시사점과 더 나은 의사결정을 위해 사용되는 비용 효율이 높고 혁신적이며 대용량, 고속 및 다양성의 특성을 가진 정보 자산 |
매킨지(McKinsey) 정의 | 일반적으로 db sw가 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터 |
IDC 정의 | 다양한 종류의 대규모 데이터에서 낮은 비용으로 가치를 추출하고, 데이터의 초고속 수집과 발굴을 지원하도록 고안된 차세대 기술 및 아키텍처 |
일본 노무라연구소 정의 | 데이터와 데이터 처리, 저장 및 분석기술에 의미 있는 정보 도출은 물론이고, 그에 필요한 인재나 조직까지도 넓은 의미의 빅데이터에 포함시킬 것을 제안 |
더그 래니(Doug Laney)의 정의(3V) | 데이터의 양(Volume), 데이터의 유형과 소스의 다양성(Variety), 데이터 수집과 처리 측면에서의 속도(Velocity)가 급격히 증가하면서 나타나는 현상 |
마이어쇤베르크와 쿠키어의 정의 (Mayer-Schonberg&Cukier) |
대용량 데이터를 활용해 작은 용량으로는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일. 나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일 |
한국데이터산업진흥원 정의 | 데이터에 대한 기존의 접근 방식으로는 얻을 수 없었던 통찰과 가치를 창출하는 모든 것 |
(2) 빅데이터의 특징
① 더그 래니의 3V ★★★
② 빅데이터의 새로운 특징 4V ★★★
+ Value(가치), Veracity(정확성), Visualization(시각화), Variability(가변성)
2. 빅데이터 출현 배경
(1) 빅데이터의 출현 배경 ★
① 데이터의 양적 증가
- 과학기술의 발달, 컴퓨터와 스마트폰 보급
- 벗 빅데이터가 갑자기 출현한 것 or 새롭게 등장한 개념이 아니라, 기술의 패러다임 시프트 현상
② 산업계의 변화
- 양질 전환의 법칙 : 산업계에서 일어난 빅데이터 현상, 헤겔의 변증법에 기초, 양적인 변화가 축적되면 질적인 변화도 이루어짐
③ 학계의 변화
- 필요한 기술 아키텍처 및 통계 도구도 지속해서 발전 중(ex. 게놈 프로젝트, 대형 강입자 충돌기, NASA의 기후 시뮬레이션 등)
④ 관련 기술의 발전
- 디지털화의 급진전, 저장 기술의 발전과 가격 하락, 인터넷의 발전과 모바일 시대 돌입, 클라우드 컴퓨팅 보편화 등
- 클라우드 컴퓨팅 : 많은 정보가 클라우드에 수집되는 것도 의미가 있지만, 무엇보다 빅데이터의 처리 비용을 획기적으로 낮추었다는 점에서 의의가 있음
+ 데이터 분석전문가가이드
데이터 규모 : EB(엑사바이트) ==> ZB(제타바이트) ==> ZB 본격화 시대
(1990년대 말 = 100EB) (2011년대 말 = 1.8ZB) (2020년 = 2011년 대비 50배 증가)
데이터 유형 : 정형 데이터 ==> 비정형 데이터 ==> 사물 정보, 인지 정보
(데이터베이스, 사무 정보) (SNS, 멀티미디어) (RFID, 센서, 사물 정보)
데이터 특성 : 구조화 ==> 다양성, 복합성, 소셜 ==> 현실성, 실시간성
(2) 빅데이터의 기능과 변화
① 빅데이터의 기능 ★★★
빅데이터는 "산업혁명의 석탄 · 철" |
제조업뿐만 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회 · 경제 · 문화 · 생활 전반에 혁명적 변화를 가져올 것으로 기대 |
빅데이터는 "21세기 원유" |
빅데이터도 원유처럼 각종 비즈니스, 공공기관 대국민 서비스, 그리고 경제 성장에 필요한 정보를 제공하여 산업 전반의 생산성을 향상시키고 새로운 범주의 산업을 만들어 낼 것으로 기대 |
빅데이터는 "렌즈" |
렌즈를 통해 현미경이 생물학 발전에 끼쳤던 영향만큼, 빅데이터도 렌즈처럼 산업 발전에 큰 영향을 줄 것으로 기대 대표 사례 ) 구글의 Ngram Viewer |
빅데이터는 "플랫폼" |
플랫폼은 공동 활용의 목적으로 구축된 유무형의 구조물. 빅데이터는 플랫폼으로서 다양한 서드파티 비즈니스에 활용될 것으로 기대 대표 사례 ) 페이스북, 카카오톡 |
② 빅데이터가 만들어내는 변화 ★★★
- 사전처리 → 사후처리 : 데이터 사전 처리x, 가능한 많은 데이터를 모으고 데이터를 다양한 방식으로 조합하여 숨은 인사이트 발굴
- 표본조사 → 전수조사 : IoT · 클라우드 기술의 발전으로 데이터 처리 비용 감소로 데이터 활용 방법 변화
- 질 → 양 : 수집 데이터의 양이 증가할수록 분석의 정확도가 높아져 양질의 분석 결과 산출에 긍정적인 영향
- 인과관계 → 상관관계 : 과거와 달리, 데이터의 양이 급격하게 늘어나면서 상관관계를 통해 특정 현상의 발생 가능성이 포착되고 그에 상응하는 행동을 추천하는 등 상관관계를 통한 인사이트 도출 확산
③ 빅데이터의 등장에 따른 변화
데이터 변화 | 기술 변화 | 인재 조직 변화 |
데이터의 양(Volume) 데이터의 유형(Variety) 데이터의 수집 및 처리 기술(Velocity) |
데이터 처리, 저장, 분석 및 아키텍처 클라우드 컴퓨팅 활용 |
데이터 사이언티스트 수요 증가 데이터 중심 조직 등장 |