- 데이터와 정보
● 데이터
- 데이터 : 있는 그대로의 객관적 사실, 가공되지 않은 상태 ( 주문수량 )
- 정보: 데이터로부터 가공된 자료 ( 베스트 셀러 )
● 데이터의 유형
(1) 정성적, 정량적
- 정성적 데이터 : 자료의 특징을 풀어 설명 - 언어, 문자 ( 기상특보, 주관식 설문 응답 )
- 정량적 데이터 : 자료를 수치화 - 수치, 기호 ( 온도, 풍속 )
(2) 정형, 반정형, 비정형
- 정형 데이터 : 정보 형태가 정해짐 ( 관계형DB, 엑셀-스프레드시트, CSV )
- 반정형 데이터 : 데이터를 설명하는 메타데이터를 포함 ( 로그, HTML, XML, JSON )
- 비정형 데이터 : 형태가 정해지지 않음 ( SNS, 유튜브, 음원 )
● 암묵지, 형식지간 상호작용
- 암묵지 : 개인에게 습득되고 겉으로 드러나지 않음
- 형식지 : 문서, 메뉴얼 등의 형상화된 지식
1) 공통화 : 암묵지 지식을 다른 사람에게 알려줌
2) 표출화 : 암묵지 지식을 메뉴얼이나 문서로 전환
3) 연결화 : 교재, 메뉴얼에 새로운 지식 추가
4) 내면화 : 만들어진 교재, 메뉴얼에서 다른 사람의 암묵지를 터득
● DIKW 피라미드
(1) 데이터( Data ) : 있는 그대로의 사실 ( A대리점 핸드폰 100만원, B대리점 핸드폰 200만원 )
(2) 정보 ( Information ) : Data를 통해 패턴 인식 ( A대리점이 핸드폰이 싸다 )
(3) 지식 ( Knowledge ) : 패턴을 통해 예측 ( A에서 핸드폰을 사면 이득을 보겠다 )
(4) 지혜 ( Wisdom ) : 창의적인 산물 ( A대리점의 다른 기기들도 B대리점보다 저렴 할 것이다 )
● 데이터 단위
- KB < MB < GB < TB < PB < EB < ZB < YB (암기팁 Peta < Exa < Zeta < Yota )
- 데이터베이스의 정의와 특징
● 데이터베이스의 정의
(1)DB : 일정 구조에 맞게 조직화된 데이터의 집합
- 스키마 : DB의 구조와 제약조건에 관한 전반적 명세
- 인스턴스 : 정의된 스키마에 따라 저장된 값
(2) DBMS : DB를 관리, 접근 환경 제공하는 소프트웨어
1) 관계형 DBMS : 테이블(표)로 정리
( 오라클, MSSQL, MYSQL, MARIA DB )
2) 객체지향 DBMS : 정보를 객체형태로 정리
3) NoSQL DBMS : 비정형 데이터를 저장하고 처리
( HBASE, Mongo DB, Dynamo DB, Cassandra )
(3) SQL : 데이터 베이스에 접근할 수 있는 하부언어
- 정의언어( DDL ) : CREATE, ALTER, DROP
- 조작언어( DML ) : SELECT, INSERT, DELETE, UPDATE
- 제어언어 ( DCL ) : COMMIT, ROLLBACK, GRANT, REVOKE
● 데이터베이스의 특징
(1) 공용 데이터 : 여러 사용자가 다른 목적으로 데이터 공동 이용
(2) 통합된 데이터 : 동일한 데이터 중복되어 있지 않음
(3) 저장된 데이터 : 저장매체에 저장
(4) 변화되는 데이터 : 새로운 데이터 추가, 수정, 삭제에도 현재의 정확한 데이터 유지(무결성)
● 데이터베이스의 구성요소
- 메타데이터 : 데이터를 설명하는 데이터
- 인덱스 : 정렬, 탐색을 위한 데이터의 이름
● 데이터베이스 설계 절차
(1) 요구조건 분석
(2) 개념적 설계 : 개념적 스키마 생성
(3) 논리적 설계 : ERID
(4) 물리적 설계 : 저장 구조 설계
- 데이터베이스 활용
● 기업 활용 데이터베이스
- OLTP : 데이터를 수시로 갱신 ( 거래단위 )
- OLAP : 다차원 데이터를 대화식으로 분석
- CRM : 고객과 관련 자료 분석, 마케팅 활용
- SCM : 공급망 연결 최적화
- ERP : 기업 경영 자원을 효율화
- BI : 기업 보유 데이터 정리, 분석하여 리포트 중심 도구
- BA : 통계 기반 비즈니스 통찰력
- Block Chain : 네트워크 참여한 모든 사용자가 정보를 분산, 저장
- KMS : 기업의 모든 지식을 포함
● Data Ware House( DW )
(1) 특징
- 주제지향성 : 분석목적 설정이 중요
- 데이터 통합 : 일관화 된 형식으로 저장
- 시계열성 : 히스토리를 가진 데이터
- 비휘발성 : 읽기전용 - 수시로 변하지 않음
(2) ETL( Extraction, Transformation, Load )
- ETL 을 통하여 DW와 DM등의 DB 시스템에 데이터 적재
● Data Lake
- 비정형 데이터를 저장하며 하둡과 연계하여 처리
- 하둡 : 병렬처리 오픈소스 프레임워크
1) HDFS : 분산형 파일 저장 시스템
2) MapReduce : 분산된 데이터를 병렬로 처리
이 글은 IT의 답을 터득하다, 아답터님의 ADsP 2시간만에 완벽 정복하기 강의 내용을 옮겨 적은 글입니다.
'DataAnalysis' 카테고리의 다른 글
[ADsP] 1과목 기출 유형 문제 (8) | 2024.10.18 |
---|---|
[ADsP] 05_정형 데이터 마이닝 (0) | 2024.10.08 |
[ADsP] 04_R기초와 데이터 마트 (2) | 2024.10.04 |
[ADsP] 03_데이터분석 기획의 이해 (0) | 2024.10.01 |
[ADsP] 02_데이터의 가치와 미래 (3) | 2024.10.01 |