ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 2024 ADsP 데이터분석 준전문가 시험공부 1일차/20
    자격증/ADsP 2024. 4. 17. 16:00
    728x90
    반응형

    01 과목 데이터 이해

    - 01장_데이터의 이해

    - 02장_데이터의 가치와 미래

    02 과목 데이터 분석 기획

    - 01장_데이터 분석 기획의 이해

    - 02장_분석 마스터플랜

    03 과목 데이터 분석

    - 01장_R 기초와 데이터 마트

    - 02장_통계 분석

    - 03장_정형 데이터 마이닝


    [01과목 - 01장]

    01 데이터와 정보

    1. 데이터의 정의

    (1) 데이터의 정의

    ① 데이터의 정의

    - 데이터(Data) : 라틴어 'dare(주다)' + 'Datum(주어진 것, 선물, 자료)', 보통 연구나 조사 등의 바탕이 되는 재료 혹은 자료

     

    1646 영국 문헌에 첫 등장 - 추상적, 관념적 개념

    1900년대 중반 컴퓨터 시대 도래 - 기술적, 사실적 의미인 '자료'로 변화

     

    ② 데이터의 특성

    구분 형태
    존재적 특성 데이터는 있는 그대로의 객관적 사실 수학 80점, 영어 100점
    당위적 특성 데이터는 추론 · 예측 · 전망 · 추정을 위한 근거 평균 90점

     

    (2) 데이터의 유형

    ① 정성적 데이터와 정량적 데이터

    구분 형태
    정성적 데이터 언어, 문자 등 (집합으로 표현 불가능) 문자 텍스트, 언어, 문자
    정량적 데이터 수치, 도형, 기호 등 (집합으로 표현 가능) 30cm, 정육면체, 3시 방향 

     

    ② 정형 데이터와 비정형 데이터, 그리고 반정형 데이터

    구분 특징
    정형 데이터 정형화된 틀이 있고 연산이 가능, DB에 저장, 수집 및 관리 용이 CSV, 엑셀 스프레드시트 등
    비정형 데이터 정형화된 틀이 없고 연산이 불가능, NoSQL DB에 저장, 수집 및 관리 어려움 소셜 데이터, 댓글, 영상, 음성 등
    반정형 데이터 형태는 있지만 연산이 불가능, 파일 형태로 저장, 수집 및 관리 어려움 XML, JSON, 센서 데이터 등

     

    ③ 암묵지와 형식지

    - 암묵지(Tacit Knowledge) : '학습과 체험을 통해 개인에게 습득되어 있지만, 겉으로 드러나지 않는 상태의 지식'

    - 형식지(Explicit Knowledge) : '암묵지가 문서나 매뉴얼처럼 외부로 표출돼 여러 사람이 공유할 수 있는 지식'

     

    암묵지와 형식지의 상호작용 :

    암묵지 형식지
    공통화(Socialization) 표출화(Externalization)
    내면화(Internalization) 연결화(Combination)

     

    조직의 지식으로 공통화를 위한 '표출화'

    암묵지       ==============================>       형식지

    <==============================

    개인에게 연결 및 습득되는 '내면화'

    2. 데이터와 정보

    (1) DIKW 피라미드

    ① 데이터에서 지혜를 얻는 과정

    - 데이터(Data) : 개별 데이터 자체는 의미가 중요하지 않은 객관적인 사실

    - 정보(Information) : 데이터의 가공 · 처리와 데이터 간 연관 관계 속에서 의미가 도출된 것 (벗, 정보가 내포하는 의미는 유용하지 않을 수 있음)

    - 지식(Knowledge) : 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합해 고유의 지식으로 내재화된 것

    - 지혜(Wisdom) : 지식의 축적과 아이디어가 결합된 창의적 산물

     

    ② DIKW 피라미드 

     

     

    지혜: A의 다른 물건도 저렴할 것이다.

     

    지식: 더 저렴한 A로부터 연필을 사야겠다.

     

    정보: A 연필이 더 저렴하다.

     

    데이터: A는 100원, B는 200원에 연필을 판매한다.

     

     

    (2) 데이터에 관한 상식

    ① 비트와 바이트

    - 비트(bit) : '0'과 '1'의 두 가지 값으로 신호를 나타내는 최소단위. 'binary digit'의 약

    - 바이트(byte) : 8개의 비트로 구성된 데이터의 양을 나타내는 단위. 숫자와 영어 한 글자(1 바이트), 한글 한 글자(2 바이트)

     

    ② 데이터 단위

    1byte 1KB 1MB 1GB 1TB 1PB 1EB 1ZB 1YB
    8bit 1024byte 1024KB 1024MB 1024GB 1024TB 1024PB 1024EB 1024ZB

    02 데이터베이스

    1. 데이터베이스 개요

    (1) 데이터베이스 정의

    ① 데이터베이스 용어의 연혁

    1950년대 : 미국에서 군수물자를 관리하기 위해 수집된 자료를 일컫는 'DATA'와 'BASE(기지)'의 합성어로 처음 등장

    1963년 DB 용어를 공식적으로 사용 : 미국 SDC가 개최한 심포지엄에서 '대량의 데이터를 축적하는 기지'라는 개념으로 공식적으로 처음 사용, 같은 해 GE의 C.바크만은 최초로 현대적 의미의 DB 관리 시스템인 IDS를 개발

    우리나라에서 처음 사용: 1975년 미국의 CAC가 한국과학기술정보센터를 통해 DB를 처음 시작

     

    ② 데이터베이스의 다양한 정의 

    DB System DB
    (Data-Base)
    체계적으로 수집 · 축적하여 다양한 용도와 방법으로 이용할 수 있게
    정리한 정보의 집합체
    DBMS
    (Data-Base Management System)
    이용자가 쉽게 데이터베이스를 구축 · 유지할 수 있게 하는
    관리 소프트웨어

     

    (2) 데이터베이스의 특징

    ① 데이터베이스의 일반적인 특징

    특징 내용
    통합된 데이터(Integrated data) 동일한 내용의 데이터가 중복되지 않게 통합
    저장된 데이터(Stored data) 컴퓨터 매체가 접근할 수 있는 저장 매체에 저장
    공용 데이터(Shared data) 여러 사용자가 공유가능, 대용량화, 구조 복잡
    변화하는 데이터(Operational data, 운영 데이터) 삽입, 수정, 삭제를 통해 항상 최신의 정확한 데이터 유지

     

    ② 데이터베이스의 다양한 측면에서의 특성

    정보의 축적 및 전달 측면 - 기계 가독성 : 대량의 정보를 일정한 형식에 따라 컴퓨터 등의 정보처리기기가 읽고 쓸 수 있음
    - 검색 가능성 : 다양한 방법으로 필요한 정보를 검색할 수 있음
    - 원격 조작성 : 정보통신망을 통해 원거리에서도 즉시 온라인으로 이용 가능
    정보이용 측면 이용자의 정보요구에 따라 다양한 정보를 신속하게 획득할 수 있고 원하는 정보를 정확하고 경제적으로 찾을 수 있음
    정보관리 측면 정보를 일정한 질서와 구조에 따라 정리 · 저장하고 검색 · 관리할 수 있게 하여 방대한 양의 정보를 체계적으로 축적하고, 새로운 내용 추가나 갱신이 용이
    정보기술발전 측면 데이터베이스는 정보처리, 검색 · 관리 sw · hw, 정보 전송을 위한 네트워크 기술 등의 발전 견인가능
    경제 · 산업적 측면 데이터베이스는 다양한 정보를 필요에 따라 신속하게 제공 · 이용할 수 있는 인프라의 특성을 가지고 있어 경제, 산업, 사회 활동의 효율성을 제고하고 국민의 편의를 증진하는 수단으로써의 의미를 가짐

     

    + 트랜잭션(Transaction) : DB에서 명령을 수행하는 하나의 논리적인 기능의 단위

    - 특징 :

    원자성(Atomicity) 트랜잭션이 데이터베이스에 모두 적용되거나 모두 적용되지 않아야 함
    일관성(Consistency) 트랜잭션의 결과는 항상 일관성을 띠어야 함
    고립성(Isolation) 하나의 트랜잭션이 다른 트랜잭션에 영향을 주지 않아야 함
    지속성(Durability) 트랜잭션이 성공적으로 수행된 경우 그 결과는 영구적이어야 함

    2. 데이터베이스 활용

    (1) 데이터베이스 활용

    ① 기업 내부의 데이터베이스

    - 인하우스 DB : 1990년대 정보통신망 구축이 가속화되면서 기업 경영 전반에 관한 모든 자료를 연계하여 일관된 체계로 구축 및 운영하는 데 중점. 이후 경영 활동의 기반이 되는 전사자원관리시스템(ERP)으로 확대

    - OLTP(Online Transaction Processing) 시스템 : 1990년대 중반 이전, 정보의 수집과 이를 조직 내에서 공유하기 위한 경영정보시스템(MIS)과 생산 자동화, 통합 자동화 등 기억 활동에서 영역별로 구축되던 단순 자동화 중심의 시스템

    - OLAP(Online Analytical Processing) 시스템 : 데이터 마이닝 동의 기술이 등장하면서 단순한 정보의 '수집'과 '공유'에서 탈피하여 '분석'이 중심이 되는 시스템 구축으로 변화

    유형 목적 예시
    OLTP 각각의 거래 단위에 초점 주문 입력
    OLAP 각각의 데이터가 쌓인 전체 데이터에 초점 데이터의 분석

     

    - CRM과 SCM : 2000년에 들어서면서 기업 DB 구축의 화두는 CRM(고객관계관리)과 SCM(공급망관리)으로 변화. 유통 · 판매 및 고객 데이터가 CRM과 연동되어 CRM과 SCM은 상호 밀접한 관련을 가지게 됨

     

    - EAI (Enterprise Application Integration) : 기업에서 모든 서비스를 중앙에서 관리하여 연결 루트 간소화

    기존 방식 vs EAI 방식

    - KMS(Knowledge Management System) : 지식 경영 시스템을 의미, 직원 개개인의 지식, 프로젝트 경험, 과거 사례, 외부 사례 등 기업이 보유할 수 있는 모든 지식을 통합해서 문제 해결 능력을 향상시키는 것이 목적

    - SCM(Supply Chain Management) : 유통 부문의 SCM은 공급망 관리를 의미. 원자재에서부터 기업을 거쳐 고객에게 도달할 때까지 유통 단계를 최적화해서 고객에게 제공하는 것이 목적

    - ERP(Enterprise Resource Planning) : 제조 부문의 ERP는 경영 자원 통합 관리를 의미. 여러 자원 및 업무가 하나로 통합된 시스템으로 재구축해서 어느 부서에서 필요로 하는 자원이 있다고 알릴 경우 바로 그 자원에 대한 구매 및 생산이 진행될 수 있도록 도와 업무의 효율성을 높이는 것이 목적

    - CRM(Customer Relationship Management) : 제조 부문의 CRM은 고객 관계 관리로서 기업 내 외부적인 분석을 통해 마케팅 측면에서 신규 고객 창출 혹은 기존 고객의 이탈을 방지하는 것이 목적

    - BI(Business Intelligence) : 제조 부문의 BI는 기업의 의사결정 프로세스를 의미. 기업의 경영권을 소유한 자가 올바른 의사결정을 내릴 수 있도록 기업의 데이터를 가공 및 분석하는 것이 목적. 가트너는 BI를 '여러 곳에 산재되어 있는 데이터를 수집하여 체계적이고 일목요연하게 정리함으로써 사용자가 필요로 하는 정보를 정확한 시간에 제공할 수 있는 환경'으로 정의함

    - RTE(Real Time Enterprise) : 제조 부문의 RTE는 기업의 업무 프로세스에서 발생하는 정보를 실시간으로 통합 및 전달해서 신속한 대응이 가능한 스피트 경영

     

    '사회기반구조'로서의 데이터베이스

    물류 부문 - '실시간 차량 추적'을 위한 종합물류정보망 구축
    - CVO 서비스, EDI 서비스, 물류 정보 DB 서비스, 부가서비스로 구성
    - CALS(Commerce At Light Speed) : 제품의 설계 · 개발 · 생산에서 유통 · 폐기에 이르기까지 제품의 라이프사이클
    전반에 관련된 데이터를 통합하고 공유 · 교환할 수 있게 한 경영통합정보시스템
    - PORT-MIS : 항만운영정보시스템
    - KROIS : 철도운영정보시스템
    지리 부문 - GIS 응용에 활용하는 4S 통합기술
    - 지리정보유통망 가시화 : 지리정보 통합관리소 운영, 지리정보 수요자에 정보 제공
    - GIS(Geographic Information System) : 지리정보시스템
    - LBS(Location-Based Service) : 위치정보서비스
    - SIM(Spatial Information Management) : 공간정보 관리시스템
    교통 부문 - 지능형교통정보시스템(ITS), 교통정보, 기초자료 및 통계 제공, 대국민 서비스 확대
    의료 부문 - 의료정보시스템 : 처방전달시스템, 임상병리, 전자의무기록, 영상처리시스템, 병원의 멀티미디어, 원격의료, 지식정보화
    - HL7 국내 표준화 작업에 따라 전국적인 진료 정보 공유 체계 구축 계획 수립 
    - U헬스 실현에 기존 의료정보 데이터베이스 기반 활용
    - PACS(Picture Archiving and Communications System)
    - U0Health(Ubiquitous-Health)
    교육 부문 - 첨단 정보통신기술(ICT)을 활용한 각종 교육 정보의 개발 및 보급, 정보 활용 교육
    - 대학 정보화 및 교육행정 정보화 위주로 사업 추진
    - 교육행정정보시스템(NEIS)은 학사뿐만 아니라 기타 교육행정 전 업무를 처리하는 시스템

     

    (2) 데이터베이스 종류

    ① 데이터베이스의 종류

    - 종류 : 계층형, 네트워크형, 관계형, NoSQL 등

    RDB - Oracle, MySQL(Oracle), MS-SQL(Microsoft), DB2 · Infomix(IBM), MariaDB(Sun Microsystems), Derby(Apache), SQLite(오픈소스)
    - Oracle, DB2 · Infomix 등은 엄밀히 말하면 객체 관계형 DB로 객체지향 개념을 도입한 것으로, 오늘날에는 많은 RDB가 이러한 객체지향 기능을 포함하고 있음
    NoSQL - Document-Oriented DB : CouchDB, MongoDB, Elasticsearch, Cloudant
    - Key-Value DB : 아마존의 Dyname, Redis, Riak, Coherence, SimpleDB
    - Column-Oriented DB : 구글의 Bigtable, Cassandra, HBase, HyperTable

     

    ② SQL의 이해

    - SQL(Structured Query Language) : DBMS에서 DB에 명령을 내리는 DB 하부 언어

    DDL(데이터 정의 언어) - CREATE : db 내에 테이블을 생성하는 명령어
    - ALTER : 테이블의 정보를 바꾸는 명령어
    - RENAME : 테이블 이름을 변경하는 명령어
    - DROP : 테이블을 삭제하는 명령어
    DML(데이터 조작 언어) - SELECT : 테이블에 포함된 데이터를 조회하는 명령어
    - INSERT : 테이블에 데이터를 삽입하는 명령어
    - UPDATE : 테이블에 포함된 데이터를 변경하는 명령어
    - DELETE : 테이블에 포함된 데이터를 삭제하는 명령어
    DCL(데이터 제어 언어) - GRANT : DBMS 사용자에게 권한을 부여하기 위한 명령어
    - REVOKE : DBMS 사용자로부터 권한을 회수하기 위한 명령어
    TCL(트랜잭션 제어 언어) - COMMIT : 사용자에 의해 변경된 데이터를 일괄 적용
    - SAVEPOINT : 현재 데이터의 상태 기억
    - ROLLBACK : COMMIT이 되지 않았다면 변경사항들에 대한 명령을 철회하거나 특정 SAVEPOINT 시점으로 되돌아감

      

    + 데이터 마트(DM)와 데이터 웨어하우스(DW)

    - 데이터 웨어하우스 : 분산된 환경에 흩어져 있는 데이터들을 개인이나 조직이 총체적인 관점에서 의사결정을 위해 공통의 형식으로 변환해 관리하는 역할

    - 데이터 마트 : 데이터 웨어하우스로부터 추출된 작은 데이터베이스로서 특정 목표를 달성하는데 필요한 데이터를 제공하는 역할


    [01과목 - 02장]

    01 빅데이터의 이해

    1. 빅데이터의 이해

    (1) 빅데이터의 정의

    일반적 정의 '빅(big)'에는 단순히 양적인 개념뿐만 아니라 복잡하고 다양한 질적인 개념도 포함. 일반적으로 빅데이터란 큰 용량과 복잡성으로 기존 애플리케이션이나 툴로는 다루기 어려운 데이터셋의 집합을 의미
    가트너(Gartner) 정의 향상된 시사점과 더 나은 의사결정을 위해 사용되는 비용 효율이 높고 혁신적이며 대용량,
    고속 및 다양성의 특성을 가진 정보 자산
    매킨지(McKinsey) 정의 일반적으로 db sw가 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
    IDC 정의 다양한 종류의 대규모 데이터에서 낮은 비용으로 가치를 추출하고, 데이터의 초고속 수집과
    발굴을 지원하도록 고안된 차세대 기술 및 아키텍처
    일본 노무라연구소 정의 데이터와 데이터 처리, 저장 및 분석기술에 의미 있는 정보 도출은 물론이고, 그에 필요한 인재나 조직까지도 넓은 의미의 빅데이터에 포함시킬 것을 제안
    더그 래니(Doug Laney)의 정의(3V) 데이터의 양(Volume), 데이터의 유형과 소스의 다양성(Variety), 데이터 수집과 처리 측면에서의 속도(Velocity)가 급격히 증가하면서 나타나는 현상
    마이어쇤베르크와 쿠키어의 정의
    (Mayer-Schonberg&Cukier)
    대용량 데이터를 활용해 작은 용량으로는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일. 나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일
    한국데이터산업진흥원 정의 데이터에 대한 기존의 접근 방식으로는 얻을 수 없었던 통찰과 가치를 창출하는 모든 것

     

    (2) 빅데이터의 특징

    ① 더그 래니의 3V

     

    ② 빅데이터의 새로운 특징 4V

    + Value(가치), Veracity(정확성), Visualization(시각화), Variability(가변성)

    2. 빅데이터 출현 배경

    (1) 빅데이터의 출현 배경

    ① 데이터의 양적 증가

    - 과학기술의 발달, 컴퓨터와 스마트폰 보급

    - 벗 빅데이터가 갑자기 출현한 것 or 새롭게 등장한 개념이 아니라, 기술의 패러다임 시프트 현상 

     

    ② 산업계의 변화

    - 양질 전환의 법칙 : 산업계에서 일어난 빅데이터 현상, 헤겔의 변증법에 기초, 양적인 변화가 축적되면 질적인 변화도 이루어짐

     

    ③ 학계의 변화

    - 필요한 기술 아키텍처 및 통계 도구도 지속해서 발전 중(ex. 게놈 프로젝트, 대형 강입자 충돌기, NASA의 기후 시뮬레이션 등)

     

    ④ 관련 기술의 발전

    - 디지털화의 급진전, 저장 기술의 발전과 가격 하락, 인터넷의 발전과 모바일 시대 돌입, 클라우드 컴퓨팅 보편화 등

    - 클라우드 컴퓨팅 : 많은 정보가 클라우드에 수집되는 것도 의미가 있지만, 무엇보다 빅데이터의 처리 비용을 획기적으로 낮추었다는 점에서 의의가 있음

     

    + 데이터 분석전문가가이드

    데이터 규모 :       EB(엑사바이트)      ==>      ZB(제타바이트)      ==>      ZB 본격화 시대

                        (1990년대 말 = 100EB)      (2011년대 말 = 1.8ZB)   (2020년 = 2011년 대비 50배 증가)

     

    데이터 유형 :       정형 데이터       ==>       비정형 데이터       ==>       사물 정보, 인지 정보

                     (데이터베이스, 사무 정보)     (SNS, 멀티미디어)              (RFID, 센서, 사물 정보)

     

    데이터 특성 :       구조화       ==>       다양성, 복합성, 소셜       ==>       현실성, 실시간성

     

    (2) 빅데이터의 기능과 변화

    ① 빅데이터의 기능

    빅데이터는
    "산업혁명의 석탄 · 철"
    제조업뿐만 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회 · 경제 · 문화 · 생활 전반에 혁명적 변화를 가져올 것으로 기대
    빅데이터는
    "21세기 원유"
    빅데이터도 원유처럼 각종 비즈니스, 공공기관 대국민 서비스, 그리고 경제 성장에 필요한 정보를 제공하여 산업 전반의 생산성을 향상시키고 새로운 범주의 산업을 만들어 낼 것으로 기대
    빅데이터는
    "렌즈"
    렌즈를 통해 현미경이 생물학 발전에 끼쳤던 영향만큼, 빅데이터도 렌즈처럼 산업 발전에 큰 영향을 줄 것으로 기대
    대표 사례 ) 구글의 Ngram Viewer
    빅데이터는
    "플랫폼"
    플랫폼은 공동 활용의 목적으로 구축된 유무형의 구조물. 빅데이터는 플랫폼으로서 다양한 서드파티 비즈니스에 활용될 것으로 기대
    대표 사례 ) 페이스북, 카카오톡

     

    ② 빅데이터가 만들어내는 변화

    - 사전처리 → 사후처리 : 데이터 사전 처리x, 가능한 많은 데이터를 모으고 데이터를 다양한 방식으로 조합하여 숨은 인사이트 발굴

    - 표본조사 → 전수조사 : IoT · 클라우드 기술의 발전으로 데이터 처리 비용 감소로 데이터 활용 방법 변화

    - 질 → 양 : 수집 데이터의 양이 증가할수록 분석의 정확도가 높아져 양질의 분석 결과 산출에 긍정적인 영향

    - 인과관계 → 상관관계 : 과거와 달리, 데이터의 양이 급격하게 늘어나면서 상관관계를 통해 특정 현상의 발생 가능성이 포착되고 그에 상응하는 행동을 추천하는 등 상관관계를 통한 인사이트 도출 확산

     

    ③ 빅데이터의 등장에 따른 변화

    데이터 변화 기술 변화 인재 조직 변화
    데이터의 양(Volume)

    데이터의 유형(Variety)

    데이터의 수집 및
    처리 기술(Velocity)
    데이터 처리, 저장,
    분석 및 아키텍처

    클라우드 컴퓨팅 활용
    데이터 사이언티스트
    수요 증가

    데이터 중심 조직 등장

     

    728x90
    반응형
Designed by Tistory.