2024 ADsP 데이터분석 준전문가 시험공부 2일차/20
[01과목 - 02장]
02 데이터의 가치와 미래
1. 빅데이터의 가치와 영향
(1) 빅데이터의 가치
① 빅데이터의 가치
- 빅데이터의 가치 산정은 어려움, 의미가 없는 일일 수 있음
- 중요한 것은 빅데이터를 통한 인사이트를 가치 있게 만드는 과정 그 자체
- 그 과정의 결과가 크든 작든 상관x ==> 우리의 삶을 변화시키는 데 중요한 역할!
② 빅데이터 가치 산정의 어려움 ★
데이터 활용 방식 | 빅데이터의 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 누가, 언제, 어떻게, 어디서 활용하는지 알 수 없음 |
가치 창출 방식 | 빅데이터는 기존에 없던 새로운 가치를 창출함 |
분석 기술의 발전 | 데이터 분석 기술의 발전으로 가치 있는 데이터와 가치 없는 데이터의 경계 구분 어려움 오늘의 가치 없는 데이터 -> 내일은 가치 있는 데이터 될 수 있음 |
(2) 빅데이터의 영향
① 빅데이터의 영향
기업 | 소비자 행동 분석, 시장 변동을 예측해 비즈니스 모델을 혁신하거나 신사업 발굴 |
정부 | 환경 탐색, 상황 분석, 미래 대응 ( : 법제도 및 거버넌스 시스템 정비, 미래성장 전략, 국가안보 대응 등) |
개인 | 개인의 목적에 따라 빅데이터의 활용이 확산되면서 스마트라이프로 변화 |
② 빅데이터가 가치를 만들어내는 5가지 방식(맥킨지의 빅데이터 보고서, 2011)
- 투명성 제고로 연구개발 및 관리 효율성 제고
- 시뮬레이션을 통한 수요 포착 및 주요 변수 탐색으로 경쟁력 강화
- 고객 세분화 및 맞춤 서비스 제공
- 알고리즘 활용한 의사결정 보조 혹은 대체
- 비즈니스 모델과 제품, 서비스의 혁신 등
+ 빅데이터 경영혁신의 4단계
[1단계] 생산성 향상
[2단계] 발견에 의한 문제 해결
[3단계] 의사결정 향상
[4단계] 새로운 고객가치와 비즈니스 창출
2. 빅데이터와 비즈니스 모델
(1) 빅데이터 활용 사례
① 기업혁신 사례
- 구글 검색 기능, 월마트 매출 향상, 질병 예후 진단 등 의료 분야에 접목
② 정부 활용 사례
- 실시간 교통정보수집, 기후정보, 각종 지질 활동 등에 활용, 국가안전 확보 활동 및 의료와 교육 개선 활용 방안 모색
③ 개인 활용 사례
- 정치인과 연예인의 SNS 활용
+ 미래의 빅데이터 활용에 필요한 3요소 ★
요소 | 내용 |
데이터 | 모든 것의 데이터화 |
기술 | 진화하는 알고리즘, 인공지능 |
인력 | 데이터 사이언티스트, 알고리즈미스트 |
(2) 7가지 빅데이터 활용 기본 테크닉 ★★★
① 연관 규칙 학습(Association rule learning)
: 어떤 변인 간에 주목할 만한 상관 관계가 있는지를 찾아내는 방법, 연관분석 or 장바구니 분석
- 고객이 구매한 물품들을 분석하여 품목 사이에 어떠한 규칙이 있는지 찾아내는 분석 기법
ex) A를 구매한 사람이 B를 더 많이 사는가?, 이것을 구매한 사람들이 많이 구매한 물품은?
② 유형분석(Classification tree analysis)
: 새로운 사건이 속할 범주를 찾아내는 방법
- '이 사용자가 어떤 특성을 가진 집단에 속하는가?'와 같은 문제를 해결하는 방법
ex) 문서를 어떻게 분류할 것인가?, 조직을 어떻게 여러 그룸ㅂ으로 나눌 것인가?
③ 유전 알고리즘(Genetic algorithms)
: 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법
- '최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?'와 같은 문제 해결
ex) 응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가?
④ 기계학습 = 머신러닝(Machine learning)
: 컴퓨터가 데이터로부터 규칙을 찾고 이러한 규칙을 활용해 '예측'하는 데 초점을 둔 방법
- '기존 시청 기록을 바탕으로 시청자가 보유한 영화 중 어떤 영화를 가장 보고 싶어 할까?'와 같은 문제 해결
ex) 스팸메일 필터링, 질병 진단 예측
⑤ 회귀분석(Regression analysis)
: 독립변수를 조작하면서 종속변수가 어떻게 변하는지를 보며 수치형으로 이루어진 두 변인 관계 파악 방법
- '구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?'와 같은 문제 해결
ex) 사용자의 만족도가 충성도에 어떤 영향을 미치는가?
⑥ 감정분석(Sentiment analysis)
: 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석하는 방법
- 비정형 데이터 마이닝의 대표적인 기법 중 하나, 텍스트 파일로부터 단어를 추출하고 추출된 단어의 긍정, 부정을 선별하여 글을 쓴 사람의 감정을 분석하는 분석 방법
- '새로운 환불 정책에 대한 고객의 평가는 어떤가?'와 같은 문제 해결
ex) 호텔에서 고객의 후기를 분석하여 고객의 니즈 찾기
+ 텍스트 마이닝 용어
스태밍 (stemming) |
단어의 어원을 찾는 작업 - '가겠다', '갈 것이다', '간다' ==> '가다' |
코퍼스 (Corpus) |
텍스트 분석을 위해 모아놓은 단어 혹은 문장을 보유한 저장소 - 특정 단어가 어떤 단어들과 주로 어울리는지 파악 |
토큰화 (Tokenization) |
문장 또는 코퍼스를 여러 개의 뜻을 가진 가장 작은 단위의 단어들로 나누는 작업 - 한글은 형태소 분석 수행 필요 |
임베딩 (Embedding) |
토큰화가 수행된 단어 집합에 대해서 일련의 벡터로 변환하는 작업 |
⑦ 소셜 네트워크 분석(SNA: Social Network Analysis)
- 사회 관계망 분석, SNS 같은 온라인 공간에서 유저 사이의 팔로워, 팔로잉 관계를 분석하여 영향력 있는 사람을 찾아내어 기업의 효율적인 마케팅이나 범죄 수사에서 공범을 찾는 등 다양한 분야에서 활용 가능
- 오피니언 리더, 즉 영향력 있는 사람을 찾아낼 수 있으며, 고객 간 소셜 관계 파악 가능
ex) 특정인과 다른 사람이 몇 촌 정도의 관계인가?, 이 사람이 어느 정도 영향력 있는 인물인가?
+ SNA 요소
연결 중심성 | 하나의 점에 얼마나 많은 다른 점이 연결돼 있는지 나타내는 척도 - 연결된 노드들의 수의 합으로 표현 |
근접 중심성 | 노드 사이의 거리를 기반으로 측정한 척도 |
매개 중심성 | 네트워크 내에서 해당 노드가 어디에 위치하는지 파악함으로써 해당 노드의 영향력 파악 가능 |
아이겐벡터 중심 | 네트워크 내의 노드와 다른 벡터의 중심성과 가중치를 활용하여 계산하는 방식 - 해당 노드와 연결된 다른 노드들이 네트워크 내에서 얼마나 중요한지 파악하는 지표 |
3. 빅데이터의 위기 요인과 통제 방안
(1) 위기요인 ★★★
① 사생활 침해
ex) 구글의 사용자 행동 패턴 예측
② 책임 원칙 훼손
ex) 범죄 발생 이전에 체포
③ 데이터 오용
ex) 비행기 탐승 금지자 목록에 상원 의원이 포함
(2) 통제방안 ★★★
① 사생활 침해 -----→ 동의에서 '책임'으로
② 책임 원칙 훼손 -----→ '결과' 기반 책임 원칙 고수
③ 데이터 오용 -----→ 알고리즘 접근 허용
+ 개인정보 비식별 기술 ★
데이터 마스킹 | 데이터의 기존 형식은 유지한 채 식별할 수 없는 임의의 값(혹은 기호)으로 대체 ex) 플레이 데이터 => *** 데이터 |
가명 처리 | 데이터의 값을 다른 값으로 변경 ex) 홍길동 => 임꺽정 |
총계 처리 | 각각의 데이터 값이 아닌 전체 데이터에 대한 총합 또는 평균으로 처리 ex) 70 80 90 => 80 |
데이터 값 삭제 | 데이터 값의 일부를 삭제 ex) 서울시 서초구 => 서울시 |
데이터 범주화 | 데이터의 값을 범주화하여 특정 값이 아닌 범위 제공 ex) 수학 80점 => 수학 70~90점 |
+ 미연방거래위원회(FTC)의 소비자 프라이버시 보호 3대 권고사항
1. 기업은 상품 개발 단계에서부터 소비자 프라이버시 보호 방안을 적용
2. 기업은 소비자에게 공유정보 선택 옵션을 제공
3. 소비자에게 수집된 정보 내용 공개 및 접근권 부여
03. 가치창조를 위한 데이터 사이언스와 전략 인사이트
1. 빅데이터 분석과 전략 인사이트
(1) 빅데이터 열풍과 회의론
① 빅데이터 회의론의 원인
- 부정적 학습효과 : 과거 IT 솔루션 영역에서는 공포 마케팅이 잘 통해서 CRM 같은 솔루션은 반드시 도입되어야 하는 것으로 강조. 벗 어떻게 가치를 창출하는지 몰랐음
- 과대 포장 : 기존의 분석 성공 사례를 빅데이터 성공사례로 포장한 것이 많음
(2) 빅데이터 분석의 핵심은 'Big'이 아닌 '인사이트'
① '크기'가 아니라 '인사이트'
- 데이터의 양 < 데이터의 가치
- 빅데이터와 관련된 걸림돌 : '비용'이 아니라 '분석적 방법과 성과에 대한 이해 부족'
② 전략적 인사이트의 중요성
- 사례 :
아메리칸항공 | 사우스웨스트항공 |
수익 관리, 가격 최적화의 분석 접근법 사용 3년 만에 14억 달러의 수익을 올림 |
단순최적화 모델을 통한 가격 책정과 운영 |
비행경로와 승무원들의 일정을 최적화 12개 기종, 250개 목적지, 매일 3,400회 운영 ↓ 초기에는 비용을 절감했으나, 타 경쟁사들이 비슷한 수준의 수익관리 모델을 갖추면서 경쟁 우위에서 하락함 |
한 가지 기종의 비행기로 단순화 ↓ 단순 최적화로 가격 책정 및 운영 결과 경쟁 우위가 상승 36년 연속 흑자, 높은 시장가치 확보 |
(3) 일차원적 분석 vs. 전략 도출을 위한 가치 기반 분석
① 일차원적 분석(산업별) ★★
산업 | 일차원적 분석 애플리케이션 |
★ 금용 서비스 | 신용점수 산정, 사기 탐지, 가격 책정, 프로그램 트레이딩, 클레임 분석, 고객 수익성 분석 |
★ 에너지 | 트레이딩, 공급/수요 예측 (* '금융' 아님 주의) |
★ 병원 | 가격 책정, 고객 로열티, 수익 관리 |
★ 정부 | 사기탐지, 사례관리, 범죄방지, 수익 최적화 |
2. 전략 인사이트 도출을 위해 필요한 역량
(1) 데이터 사이언스에 대한 이해와 역할
① 데이터 사이언스에 대한 이해
- 데이터 사이언스 : 데이터로부터 의미 있는 정보를 추출해내는 학문
- 통계학 분석 대상 : 정형화된 실험 데이터
- 데이터 사이언스 분석 대상 : 정형 또는 비정형을 막론하고 다양한 유형의 데이터
② 데이터 사이언스의 역할
- 데이터 마이닝 : 주로 '분석'에 포커스
- 데이터 사이언스 : 분석뿐만 아니라 이를 효과적으로 구현하고 전달하는 과정, 궁극적으로는 전략적 '인사이트' 도출을 위한 일련의 행위까지 모두 포괄하는 광의의 개념, 더 포괄적이고 총체적인 접근법 사용, '소통'이 중요한 핵심 역량
(2) '데이터 사이언스'와 '데이터 사이언티스'
① 데이터 사이어니스 구성 요소 ★★
- Analytics : 수학, 확률 모델, 머신러닝, 분석학, 패턴 인식과 학습, 불확실성 모델링 등
- IT(Data Management) : 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우징, 고성능 컴퓨팅 등
- 비즈니스 분석 : 커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화
② 데이터 사이언티스트에게 요구되는 역량 ★★★
하드 스킬(Hard skill)
- 빅데이터에 대한 이론적 지식 : 관련 기법에 대한 이해와 방법론 습득
- 분석 기술에 대한 숙련 : 최적의 분석 설계 및 노하우 축적
소프트 스킬(Soft skill)
- 통찰력 있는 분석 : 창의적 사고, 호기심, 논리적 비판
- 설득력 있는 전달 : 스토리텔링, 시각화
- 다분야 간 협력 : 커뮤니케이션
+ 가트너가 제시한 데이터 사이언티스트 요구 역량
- 데이터 관리 : 데이터에 대한 이해
- 분석 모델링 : 분석론에 대한 지식
- 비즈니스 분석 : 비즈니스 요소에 초점
- 소프트 스킬 : 커뮤니케이션, 협력, 리더십, 창의력, 규율, 열정
(3) 데이터 사이언스: 과학과 인문학의 교차로
① 전략과 인사이트 도출을 위한 인문학 ★
- 외부 환경에서 본 인문학의 열풍
외부 환경 | 변화 |
컨버전스 → 디버전스 | 단순 세계화 → 복잡 세계화 |
생산 → 서비스 | 제품생산 → 서비스 |
생산 → 시장 창조 | 기술 경쟁 → 무형 자산의 경쟁 |
② 인문학적 사고의 특성
구분 | 정보 | 통찰 |
과거 | 무슨 일이 일어났는가? ex) 보고서 작성 등 |
어떻게, 왜 일어났는가? ex) 모델링, 실험 설계 |
현재 | 무슨 일이 일어나고 있는가? ex) 경고 |
차선 행동은 무엇인가? ex) 권고 |
미래 | 무슨 일이 일어날 것인가? ex) 추측 |
최악 또는 최선의 상황은 무엇인가? ex) 예측, 최적화, 시뮬레이션 |
3. 빅데이터 그리고 데이터 사이언스의 미래
(1) 가치 패러다임의 변화
① 가치 패러다임
- 패러다임(paradigm) : 어떤 한 시대 사람들의 견해나 사고를 근본적으로 규정하고 있는 프레임으로서의 인식의 체계, 또는 사물에 대한 이론적인 틀이나 체계를 의미하는 개념
- 패러다임 시프트 : 시간의 흐름에 따라 다음 세대의 패러다임에 자리를 물려주고 떠나는 패러다임의 속성
- 가치 패러다임 : 경제와 산업의 원천에 있는 가치에 대한 패러다임을 의미. 많은 신기술과 상품, 서비스가 그 시기의 가치 패러다임과 맞아떨어질 때 성공을 거둠
② 가치 패러다임의 변화 ★
디지털화 (Digitalization) |
아날로그의 세상을 어떻게 효과적으로 디지털화하는가가 이 시대의 가치를 창출해 내는 원천 ex) 운영체제, 워드/파워포인트 같은 오피스 프로그램 |
연결 (Connection) |
디지털화된 정보와 대상들이 서로 연결되어 이 연결이 얼마나 효과적이고 효율적으로 제공되느냐가 이 시대의 성패를 가름 ex) 구글의 검색 알고리즘, 네이버의 콘텐츠 |
에이전시 (Agency) |
사물인터넷(IoT)의 성숙과 함께 연결이 증가하고 복잡해짐 복잡한 연결을 얼마나 효과적이고 믿을 만하게 관리하는가가 이슈 데이터 사이언스의 역량에 따라 좌우 |