Note_

데이터엔지니어 본문

[강의]데이터 엔지니어링/Part1. 데이터 엔지니어

데이터엔지니어

yewon 2023. 4. 5. 15:34

데이터 엔지니어링 분야

1. 데이터 전달 시스템

스트리밍
  •  실시간으로 데이터를 다른 저장소로 전달
  • 기존 데이터와 실시간 데이터를 같이 집계하여 서비스에서 즉각활용
  • 기술스택: 일반 서버 어플리케이션, Storm, Flink, Spark Streaming
* Apache Storm
스트리밍 데이터의 일괄, 분산처리를 가능하게하는 서버이자 프레임워크;
실시간분석, 연속계산, ETL작업에 주로 사용
* Apache Flink
스트리밍 데이터의 상태 저장 계싼을 위한 프레임워크 및 분산 처리 엔진
배치
  • 주기적으로 데이터를 백업, 다른 저장소로 이동, 병합(merge), 삭제, 가공
  • 기술스택: Quartz, Spring Batch, Airflow, Spark
* Quartz
Java기반의 오픈소스 스케쥴링 라이브러리
*Spring Batch
대용량 데이터처리 프레임워크; 일괄,분산처리,트랜잭션관리
* Apache Airflow
오픈소스 워크플로 관리 플랫폼; Python기반

 

2. 데이터 가공 시스템

3. 데이터 분석 및 활용 시스템

4. 데이터 저장소

Comments