Data Engineering
-
Data Engineering - DataFrame(pandas) 6-2Data Engineering 2020. 10. 12. 17:30
Pandas 데이터를 수집하고 정리하는데 최적화된 도구 - 오픈소스 판다스 자료구조 vs. 파이썬 기본 자료구조 list, dictionary - 판다스는 시리즈(Series)와 데이터프레임(DataFrame)이라는 구조화된 데이터 형식을 제공 데이터 프레임이란? - 2차원 배열 구조 - R 프로그램에서 유래 - 2차원은 열과 행으로 만들어지며, 각각의 열은 시리즈 객체 - 열과 행이 사용하는 주소는 각각 행 인덱스(row index)와 열 이름 (column name 또는 label) - 열은 공통의 속성을 갖는 일련의 데이터 - 행은 개별 관측대상에 대한 다양한 속성 데이터들의 모음인 레코드 (record) 시리즈 - 시리즈는 데이터가 순차적으로 나열된 1차원 배열의 형태 - 인덱스Index와 데이터..
-
Data Engineering - XMLData Engineering 2020. 9. 28. 19:16
XML - XML (eXtensible Markup Languagee) 은 1996년 W3C가 제안한 웹 문서 표준 형식으로 SGML의 하위셋 - HTML과 달리 웹 상에서 구조화된 문서를 전송 가능하도록 설계됨 - 확장자 : .xml - 데이터에 의미를 부여하는 메타데이터를 기술할 수 있음 [예] “CPU 2.83GHz”: - HTML: 데이터 명과 실제 데이터 구분 표시가 불가능 - XML: CPU과 2.83로 구분 가능 1 2008 141100 4 2011 59900 68 2011 13600 - 첫 번째 코드는 XML 코드로 이루어진 문서라는 것을 명시 - 태그가 루트 - 그 아래 자식 태그들 XML Parser 선택문제 XML 파싱 기법 - XML 파싱 기법 선택 -> 구현 용이, 성능 - DOM..
-
Data Engineering - csv, json 읽기week4-1(3-2)Data Engineering 2020. 9. 21. 18:01
기계가 읽을 수 있는 데이터 - 사람의 개입 없이 의미를 잃지 않으면서, 컴퓨터가 쉽게 읽을 수 있는 형식의 데이터 (CSV, JSON, XML) - 인간이 읽을 수 있는 데이터 (PDF, PPT...) 1. CSV 읽기 csv - 레코드 내의 각 필드가 콤마(쉼표)로 구분되어 있는 파일 - 각 레코드는 줄 바꿈 문자로 구분 - 스프레드시트와 데이터베이스에서 가장 일반적인 가져오기 및 내보내기 형식 - 콤마 대신 탭(Tap)도 가능 - 확장자 : .csv - 엑셀에서 .csv 형식으로 읽고 저장할 수 있음 ※ csv 모듈은 텍스트 파일의 내용을 구분자에 따라 잘라서 제공해주는 역할만 할 뿐 모든 필드의 값은 문자열 - 타입 변환 시, 이에 대한 책임은 항상 프로그래머에게 달려있음 WHO: http://b..
-
Data Engineering - 데이터 랭글링 전과정 이해(week3-1)Data Engineering 2020. 9. 14. 17:57
오늘의 학습 목표 1. 데이터 랭글링 전과정 이해 : 사례 연습 2. 데이터 수집 3. 데이터 전처리 데이터 분석은 문제의식에서 출발 - 이 문제를 해결하기 위해 필요한 데이터는? - 단순 과거 데이터가 아니라 관중수와 상관관계가 있는 데이터에 대한 연구부터 시작해야 한다. - 예를 들면, 날씨와의 상관관계 등 -> EDA 1. 데이터 수집 데이터 수집 방법 - 파일로 다운 가능한지 - API로 제공되는지 (Ex - Google API) - 웹 스크래핑 데이터의 형식 - 기계가 읽을 수 있는 데이터인지? - csv파일 등 - csv 읽고 출력하기 import csv f = open(‘seoul.csv’) # f : file handler data = csv.reader(f) # data : csv rea..
-
데이터 엔지니어링이란? 2020-2 / 2주차-1Data Engineering 2020. 9. 7. 18:01
데이터 저장하는 부분 데이터를 처리하는 부분 -> Extract, Transform & Load (ETL) / 데이터 랭글링(Data Wrangling) 데이터 사이언티스트 VS 데이터 엔지니어 ETL - 데이터를 추출하고 변환하여 불러오는 것(data warehouse에 저장하기 위해) Data Warehouse - 전통적인 방식 -이미 전처리가 된 데이터를 받아들임 -정형화된 데이터 -어디에 사용할 지 이미 정해져 있다. ETL -> Data Warehouse Data Lake - 빅데이터 시대의 저장 시스템 - 주로 비정형화된 데이터를 받아들임 - 정형화된 데이터도 저장 - row data형태로 저장 -> 어디에 사용할지 명확하지 않기 때문 Data Lake -> Data Wragling 공통점: ..