Notice
Recent Posts
Recent Comments
Link
Note_
데이터엔지니어 본문
데이터 엔지니어링 분야
1. 데이터 전달 시스템
스트리밍
- 실시간으로 데이터를 다른 저장소로 전달
- 기존 데이터와 실시간 데이터를 같이 집계하여 서비스에서 즉각활용
- 기술스택: 일반 서버 어플리케이션, Storm, Flink, Spark Streaming
* Apache Storm
스트리밍 데이터의 일괄, 분산처리를 가능하게하는 서버이자 프레임워크;
실시간분석, 연속계산, ETL작업에 주로 사용
* Apache Flink
스트리밍 데이터의 상태 저장 계싼을 위한 프레임워크 및 분산 처리 엔진
배치
- 주기적으로 데이터를 백업, 다른 저장소로 이동, 병합(merge), 삭제, 가공
- 기술스택: Quartz, Spring Batch, Airflow, Spark
* Quartz
Java기반의 오픈소스 스케쥴링 라이브러리
*Spring Batch
대용량 데이터처리 프레임워크; 일괄,분산처리,트랜잭션관리
* Apache Airflow
오픈소스 워크플로 관리 플랫폼; Python기반
2. 데이터 가공 시스템
3. 데이터 분석 및 활용 시스템
4. 데이터 저장소
Comments