DataAnalysis

[ADsP] 02_데이터의 가치와 미래

2wnswoo 2024. 10. 1. 14:28

- 빅데이터의 이해

빅데이터 출현 배경

- 인터넷 확산, 스마트폰 보급, 클라우딩 컴퓨팅으로 인한 경제성 확보, 저장매체 가격하락, 하둡을 활용한 분산 컴퓨팅, 비정형 데이터 확산

 

 빅데이터의 3V ( 가트너 정의 )

  (1) Volume ( 규모 ) : 데이터 양 증가 ( 구글 번역 서비스 )

  (2) Variety ( 다양성 ) : 데이터 유형 증가

  (3) Velocity ( 속도 ) : 데이터 생성, 처리 속도 증가

  (4) 그 외 5V에 포함되는 요소

    - Value ( 가치 )

    - Veracity ( 신뢰성 )

 

 빅데이터에 대한 비유

  (1) 산업혁명의 석탄, 철 : 산업혁명에서의 석탄, 철 역할

  (2) 원유 : 정보제공으로 생산성 향상

  (3) 렌즈 : 현미경이 생물학 발전 영향, 산업 전반에 영향 ( 구글 Ngram Viewer )

  (4) 플랫폼 : 공동 활용 목적으로 구축된 구조물, 써드파티 비즈니스에 활용 ( 페이스북 )

    * 써드파티 : 원천기술을 활용한 파생상품 만드는 회사

 

 빅데이터가 만들어내는 변화

  (1) 표본조사 > 전수조사

  (2) 사전처리 > 사후처리

  (3) 질 > 양

  (4) 인과관계 > 상관관계

 

- 빅데이터의 가치와 영향

 빅데이터 출현 배경

  (1) 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없음

  (2) 기존에 가치 없는 데이터도 새로운 분석기법으로 가치를 창출

 

- 비즈니스 모델

 빅데이터 활용 위한 3대 요소

  - 인력, 자원(데이터), 기술

 빅데이터 주요 분석기법

  - 회귀분석 : 독립변수와 종속변수 관계, X가 Y에 어떤 영향을 미치는가?

    ( 고객 만족도가 높은 사람은 재방문할 확률 높은가? )

  - 유형분석 : A와 B는 어디에 속하는 범주 ( 같은 패턴을 보이는 동물 )

  - 연관규칙 : 여러 요소들 간의 규칙 상관관계 존재 ( 마트에서 치킨과 맥주를 같이 사는 관계 )

  - 유전자 알고리즘 : 최적화 필요한 문제의 해결책

    ( 택배차량 어떻게 배치할지? , 최대 시청률 얻으려면 어떤 프로그램을 어떤 시간대에 방송할지? )

  - 기계학습 : 훈련 데이터로부터 컴퓨터가 학습하고 미래를 예측 ( 넷플릭스 영화 추천 시스템 )

  - 감정분석 : 감정( 긍정 / 부정 ) 분석 ( 후기를 바탕으로 원하는 것 발견 )

  - 소셜 네트워크 분석 : ( 사람과의 관계 SNS상 사용자들 관계 속 영향력 높은 사람 찾기 )

- 위기 요인과 통제 방안

 위기 요인과 통제방안

  (1) 사생활 침해 : SNS 올린 데이터가 사생활 침해

    > 제공자에서 사용자 책임으로 전환

  (2) 책임 원칙 훼손 : 범죄 예측 프로그램으로 예측하여 체포하는 문제

    > 결과에 대해서만 책임

  (3) 데이터의 오용 : 분석 결과가 항상 옳은 것은 아님

    > 알고리즘을 해석가능한 알고리즈미스트 필요

 

 개인정보 비식별화

  (1) 데이터 마스킹 : 홍길동 > 홍xx

  (2) 가명처리 : 홍길동 > 임꺽정

  (3) 총계처리 : A : 165, B : 170, C : 175 > 합 : 510, 평균 : 170

  (4) 범주화 : 홍길동 35세 > 홍길동 30 ~ 40세

 

- 미래의 빅데이터

 미래의 빅데이터

(1) 서비타이제이션( Servitization ) : 서비스와 제품의 결합, 기존-신규 서비스의 결합

(2) 마이데이터 : 자신의 신용 정보를 다른 3자에게 제공하여 서비스를 제공받음

(3) 딥러닝 : 사람의 뇌 구조를 모방한 인공신경망을 활용하는 기계학습( 머신러닝 ) 기법

 

- 빅데이터분석과 전략 인사이트

전략 인사이트

  - 집중과 선택 ( 많은 데이터나 다양한 대상에 분산보다는 현재 분석에 집중 )

  - 업계 상황만 보지 말고 더 넓은 시야에서 봐야함

  - 경영진의 전략적 인사이트에 기여

    > 조직이 분석을 배우는 상태이거나 특정 문제의 범위를 해결할 때는 집중과 선택

    > 사업 상황들을 확인할 때는 넓은 시야

 

데이터 사이언스

  - 데이터와 관련된 모든 분야의 전문지식을 통합한 학문

  - 정형/비정형 데이터를 막론하고 데이터를 분석, 총체적 접근법

 

데이터 사이언스 핵심 구성요소

  (1) Analytics : 이론적 지식

  (2) IT : 프로그래밍적 지식

  (3) 비즈니스 분석 : 비즈니스적 능력

 

- 전략 인사이트 도출을 위한 필요 역량

데이터 사이언티스트의 필요역량

  (1) 하드 스킬( Hard Skill ) : 이론적 지식( 수학, 통계학, 가설검정 등 ), 가트너 제시 역량에 미포함

  (2) 소프트 스킬( Soft Skill ) : 스토리텔링, 리더십, 창의력, 분석 등

 

- 빅데이터 그리고 데이터 사이언스의 미래

 빅데이터 가치 패러다임 변화

 - Digitalization > Connection > Agency

    (1) Digitalization : 아날로그 세상을 디지털화

    (2) Connection : 디지털화된 정보들의 연결

    (3) Agency : 연결을 효과적으로 관리

 

 

 

이 글은 IT의 답을 터득하다, 아답터님의 ADsP 2시간만에 완벽 정복하기 강의 내용을 옮겨 적은 글입니다.