Data Engineering

데이터 엔지니어링이란? 2020-2 / 2주차-1

Starters 2020. 9. 7. 18:01

데이터 저장하는 부분

 

데이터를 처리하는 부분

-> Extract, Transform & Load (ETL) / 데이터 랭글링(Data Wrangling)

데이터 사이언티스트 VS 데이터 엔지니어

ETL - 데이터를 추출하고 변환하여 불러오는 것(data warehouse에 저장하기 위해)


Data Warehouse

- 전통적인 방식

-이미 전처리가 된 데이터를 받아들임

-정형화된 데이터

-어디에 사용할 지 이미 정해져 있다.

ETL -> Data Warehouse

 

Data Lake

- 빅데이터 시대의 저장 시스템

- 주로 비정형화된 데이터를 받아들임

- 정형화된 데이터도 저장

- row data형태로 저장

-> 어디에 사용할지 명확하지 않기 때문

Data Lake -> Data Wragling

 

공통점: 둘 다 데이터를 저장하는 공간


python package manager

pip

- 파이썬 라이브러리를 위한 것

 

conda

- 데이터 사이언스를 위한 패키지 매니저

- non-python 패키지도 설치 가능(R, C 등)