-
데이터 엔지니어링이란? 2020-2 / 2주차-1Data Engineering 2020. 9. 7. 18:01
데이터 저장하는 부분
데이터를 처리하는 부분
-> Extract, Transform & Load (ETL) / 데이터 랭글링(Data Wrangling)

데이터 사이언티스트 VS 데이터 엔지니어


ETL - 데이터를 추출하고 변환하여 불러오는 것(data warehouse에 저장하기 위해)
Data Warehouse
- 전통적인 방식
-이미 전처리가 된 데이터를 받아들임
-정형화된 데이터
-어디에 사용할 지 이미 정해져 있다.
ETL -> Data Warehouse
Data Lake
- 빅데이터 시대의 저장 시스템
- 주로 비정형화된 데이터를 받아들임
- 정형화된 데이터도 저장
- row data형태로 저장
-> 어디에 사용할지 명확하지 않기 때문
Data Lake -> Data Wragling
공통점: 둘 다 데이터를 저장하는 공간
python package manager
pip
- 파이썬 라이브러리를 위한 것
conda
- 데이터 사이언스를 위한 패키지 매니저
- non-python 패키지도 설치 가능(R, C 등)
'Data Engineering' 카테고리의 다른 글
Data Engineering - DataFrame(pandas) 6-2 (0) 2020.10.12 Data Engineering - XML (0) 2020.09.28 Data Engineering - csv, json 읽기week4-1(3-2) (0) 2020.09.21 Data Engineering - 데이터 랭글링 전과정 이해(week3-1) (0) 2020.09.14 Anaconda 가상환경 설정하기 (0) 2020.09.09