DataAnalysis 15

[ADsP] 02_데이터의 가치와 미래

- 빅데이터의 이해● 빅데이터 출현 배경- 인터넷 확산, 스마트폰 보급, 클라우딩 컴퓨팅으로 인한 경제성 확보, 저장매체 가격하락, 하둡을 활용한 분산 컴퓨팅, 비정형 데이터 확산 ● 빅데이터의 3V ( 가트너 정의 )  (1) Volume ( 규모 ) : 데이터 양 증가 ( 구글 번역 서비스 )  (2) Variety ( 다양성 ) : 데이터 유형 증가  (3) Velocity ( 속도 ) : 데이터 생성, 처리 속도 증가  (4) 그 외 5V에 포함되는 요소    - Value ( 가치 )    - Veracity ( 신뢰성 ) ● 빅데이터에 대한 비유  (1) 산업혁명의 석탄, 철 : 산업혁명에서의 석탄, 철 역할  (2) 원유 : 정보제공으로 생산성 향상  (3) 렌즈 : 현미경이 생물학 발전 영..

DataAnalysis 2024.10.01

[ADsP] 01_데이터의 이해

- 데이터와 정보● 데이터  - 데이터 : 있는 그대로의 객관적 사실, 가공되지 않은 상태 ( 주문수량 )  - 정보: 데이터로부터 가공된 자료 ( 베스트 셀러 ) ● 데이터의 유형  (1) 정성적, 정량적    - 정성적 데이터 : 자료의 특징을 풀어 설명 - 언어, 문자 ( 기상특보, 주관식 설문 응답 )    - 정량적 데이터 : 자료를 수치화 - 수치, 기호 ( 온도, 풍속 )   (2) 정형, 반정형, 비정형    - 정형 데이터 : 정보 형태가 정해짐 ( 관계형DB, 엑셀-스프레드시트, CSV )    - 반정형 데이터 : 데이터를 설명하는 메타데이터를 포함 ( 로그, HTML, XML, JSON )    - 비정형 데이터 : 형태가 정해지지 않음 ( SNS, 유튜브, 음원 ) ● 암묵지, 형..

DataAnalysis 2024.10.01

[NumPy] 함수 np.tile(), 배열연결 연습문제

배열 쌓기 함수 : np.tile()넘파이 라이브러리에서 배열을 원하는 모양으로 쌓아올릴 수 있는 함수인 np.tile 함수의 사용법은np.tile( A, repeat_shape ) 형태이며, A 배열이 repeat_shape 형태로 반복되어 쌓이 형태가 반환된다. repeat_shape의 인수로서 3과 같이 정수형태를 넣으면 단순반복 횟수를 나타내고 소괄호 () 형태의 행렬을 넣는다면 그와 같은 형태로서 배열이 만들어진다. 위의 문제를 풀어보자.a = np.zeros((3,3)) b = np.ones((3,2))c = np.hstack((a,b))d = np.arange(1,16) * 10d=d.reshape(3,5)e = np.vstack((c,d))np.tile(e,(2,1))

DataAnalysis/NumPy 2024.09.04

[판다스] 값 정렬 함수 (sort_values)

sort_values 메서드는 값을 기준으로 레이블을 정렬하는 메서드이다. 결측값을 포함하고 있는 5행 3열짜리 데이터프레임을 만들어준다.na = np.NaNdata = [[-3, 'A', 17], [na, 'D', 31], [7, 'D', -8], [15, 'Z', 3], [0, na, -7]]col = ['col1','col2','col3']row = ['row1','row2','row3','row4','row5']df = pd.DataFrame(data=data, columns=col, index=row)by 인수의 사용df.sort_values() 메서드의 인수에는 by= 가 있는데 정렬의 기준이 되는 by에는 레이블명이 되는 str이 올 수도 있..

DataAnalysis/Pandas 2024.08.31

[판다스] 그룹화 함수 (groupby)

groupby() 함수는 데이터를 그룹화하여 연산을 수행하는 메서드 입니다. import pandas as pddf = pd.read_csv('C:/Users/ /data/gapminder.tsv', sep='\t')print(df) 판다스를 통해 gapminder.tsv 데이터셋을 출력한다. print(type(df))>>>  파이썬의 내장함수 type()을 사용하여 실행 결과 df의 자료형이 무엇인지 확인 가능하다. 확인결과 df의 자료형은 DataFrame 객체이다. 1개 열 그룹화하기df.groupby('year')['lifeExp'].mean()>>> (출력결과)year1952 49.0576201957 51.5074011962 53.6092491967 55.678290197..

DataAnalysis/Pandas 2024.08.30