-
Data engineer
-
데이터를 활용하는 사람들을 위해 데이터를 저장, 가공, 처리하는 직군
-
배경
- 앱/웹 서비스: Database에 데이터가 저장됨 (MySQL, PostgreSQL, MariaDB)
- 서비스를 위한 데이터를 저장
-
Database에 저장된 데이터를 Data Warehouse로 옮기는 일
- Data Warehouse
- 데이터 분석에 특화된 데이터베이스
- GCP의 BigQuery, AWS의 Redshift, Snowflake
- Data Warehouse
-
ETL pipeline
- Extract
- 데이터 추출
- 서비스의 database, 앱/웹의 로그 데이터를 추출
- Transform
- 데이터를 잘 활용할 수 있도록 변환
- load
- 변환된 데이터를 사용할 수 있도록 설정하고 불러오
- Extract
-
Is data labeled consistently?
- Ex (speech recognition): How much silence before/after each clip? Remove noise? Volume normalization?