- 빅데이터의 이해
● 빅데이터 출현 배경
- 인터넷 확산, 스마트폰 보급, 클라우딩 컴퓨팅으로 인한 경제성 확보, 저장매체 가격하락, 하둡을 활용한 분산 컴퓨팅, 비정형 데이터 확산
● 빅데이터의 3V ( 가트너 정의 )
(1) Volume ( 규모 ) : 데이터 양 증가 ( 구글 번역 서비스 )
(2) Variety ( 다양성 ) : 데이터 유형 증가
(3) Velocity ( 속도 ) : 데이터 생성, 처리 속도 증가
(4) 그 외 5V에 포함되는 요소
- Value ( 가치 )
- Veracity ( 신뢰성 )
● 빅데이터에 대한 비유
(1) 산업혁명의 석탄, 철 : 산업혁명에서의 석탄, 철 역할
(2) 원유 : 정보제공으로 생산성 향상
(3) 렌즈 : 현미경이 생물학 발전 영향, 산업 전반에 영향 ( 구글 Ngram Viewer )
(4) 플랫폼 : 공동 활용 목적으로 구축된 구조물, 써드파티 비즈니스에 활용 ( 페이스북 )
* 써드파티 : 원천기술을 활용한 파생상품 만드는 회사
● 빅데이터가 만들어내는 변화
(1) 표본조사 > 전수조사
(2) 사전처리 > 사후처리
(3) 질 > 양
(4) 인과관계 > 상관관계
- 빅데이터의 가치와 영향
● 빅데이터 출현 배경
(1) 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없음
(2) 기존에 가치 없는 데이터도 새로운 분석기법으로 가치를 창출
- 비즈니스 모델
● 빅데이터 활용 위한 3대 요소
- 인력, 자원(데이터), 기술
● 빅데이터 주요 분석기법
- 회귀분석 : 독립변수와 종속변수 관계, X가 Y에 어떤 영향을 미치는가?
( 고객 만족도가 높은 사람은 재방문할 확률 높은가? )
- 유형분석 : A와 B는 어디에 속하는 범주 ( 같은 패턴을 보이는 동물 )
- 연관규칙 : 여러 요소들 간의 규칙 상관관계 존재 ( 마트에서 치킨과 맥주를 같이 사는 관계 )
- 유전자 알고리즘 : 최적화 필요한 문제의 해결책
( 택배차량 어떻게 배치할지? , 최대 시청률 얻으려면 어떤 프로그램을 어떤 시간대에 방송할지? )
- 기계학습 : 훈련 데이터로부터 컴퓨터가 학습하고 미래를 예측 ( 넷플릭스 영화 추천 시스템 )
- 감정분석 : 감정( 긍정 / 부정 ) 분석 ( 후기를 바탕으로 원하는 것 발견 )
- 소셜 네트워크 분석 : ( 사람과의 관계 SNS상 사용자들 관계 속 영향력 높은 사람 찾기 )
- 위기 요인과 통제 방안
● 위기 요인과 통제방안
(1) 사생활 침해 : SNS 올린 데이터가 사생활 침해
> 제공자에서 사용자 책임으로 전환
(2) 책임 원칙 훼손 : 범죄 예측 프로그램으로 예측하여 체포하는 문제
> 결과에 대해서만 책임
(3) 데이터의 오용 : 분석 결과가 항상 옳은 것은 아님
> 알고리즘을 해석가능한 알고리즈미스트 필요
● 개인정보 비식별화
(1) 데이터 마스킹 : 홍길동 > 홍xx
(2) 가명처리 : 홍길동 > 임꺽정
(3) 총계처리 : A : 165, B : 170, C : 175 > 합 : 510, 평균 : 170
(4) 범주화 : 홍길동 35세 > 홍길동 30 ~ 40세
- 미래의 빅데이터
● 미래의 빅데이터
(1) 서비타이제이션( Servitization ) : 서비스와 제품의 결합, 기존-신규 서비스의 결합
(2) 마이데이터 : 자신의 신용 정보를 다른 3자에게 제공하여 서비스를 제공받음
(3) 딥러닝 : 사람의 뇌 구조를 모방한 인공신경망을 활용하는 기계학습( 머신러닝 ) 기법
- 빅데이터분석과 전략 인사이트
● 전략 인사이트
- 집중과 선택 ( 많은 데이터나 다양한 대상에 분산보다는 현재 분석에 집중 )
- 업계 상황만 보지 말고 더 넓은 시야에서 봐야함
- 경영진의 전략적 인사이트에 기여
> 조직이 분석을 배우는 상태이거나 특정 문제의 범위를 해결할 때는 집중과 선택
> 사업 상황들을 확인할 때는 넓은 시야
● 데이터 사이언스
- 데이터와 관련된 모든 분야의 전문지식을 통합한 학문
- 정형/비정형 데이터를 막론하고 데이터를 분석, 총체적 접근법
● 데이터 사이언스 핵심 구성요소
(1) Analytics : 이론적 지식
(2) IT : 프로그래밍적 지식
(3) 비즈니스 분석 : 비즈니스적 능력
- 전략 인사이트 도출을 위한 필요 역량
● 데이터 사이언티스트의 필요역량
(1) 하드 스킬( Hard Skill ) : 이론적 지식( 수학, 통계학, 가설검정 등 ), 가트너 제시 역량에 미포함
(2) 소프트 스킬( Soft Skill ) : 스토리텔링, 리더십, 창의력, 분석 등
- 빅데이터 그리고 데이터 사이언스의 미래
● 빅데이터 가치 패러다임 변화
- Digitalization > Connection > Agency
(1) Digitalization : 아날로그 세상을 디지털화
(2) Connection : 디지털화된 정보들의 연결
(3) Agency : 연결을 효과적으로 관리
이 글은 IT의 답을 터득하다, 아답터님의 ADsP 2시간만에 완벽 정복하기 강의 내용을 옮겨 적은 글입니다.
'DataAnalysis' 카테고리의 다른 글
[ADsP] 1과목 기출 유형 문제 (8) | 2024.10.18 |
---|---|
[ADsP] 05_정형 데이터 마이닝 (0) | 2024.10.08 |
[ADsP] 04_R기초와 데이터 마트 (2) | 2024.10.04 |
[ADsP] 03_데이터분석 기획의 이해 (0) | 2024.10.01 |
[ADsP] 01_데이터의 이해 (4) | 2024.10.01 |