Data Engineering
데이터 엔지니어링이란? 2020-2 / 2주차-1
Starters
2020. 9. 7. 18:01
데이터 저장하는 부분
데이터를 처리하는 부분
-> Extract, Transform & Load (ETL) / 데이터 랭글링(Data Wrangling)

데이터 사이언티스트 VS 데이터 엔지니어


ETL - 데이터를 추출하고 변환하여 불러오는 것(data warehouse에 저장하기 위해)
Data Warehouse
- 전통적인 방식
-이미 전처리가 된 데이터를 받아들임
-정형화된 데이터
-어디에 사용할 지 이미 정해져 있다.
ETL -> Data Warehouse
Data Lake
- 빅데이터 시대의 저장 시스템
- 주로 비정형화된 데이터를 받아들임
- 정형화된 데이터도 저장
- row data형태로 저장
-> 어디에 사용할지 명확하지 않기 때문
Data Lake -> Data Wragling
공통점: 둘 다 데이터를 저장하는 공간
python package manager
pip
- 파이썬 라이브러리를 위한 것
conda
- 데이터 사이언스를 위한 패키지 매니저
- non-python 패키지도 설치 가능(R, C 등)