데이터 옵스는 표준 쿠버네티스 클러스터 환경에서 웹 기반 콘솔을 통해 손쉽게 설치가 가능합니다. Apache Airflow와 관리 모듈이 자동 설치되며, 통합 대시보드를 통해 웹 서버 및 스케줄러의 실행 상태에 대한 통합 모니터링이 가능합니다.
Python 코드를 기반으로 데이터 작업에 대한 파이프라인 구성이 가능합니다. 데이터 작업 예약과 연동하여 동적으로 작업을 생성하기 때문에 원하는 워크플로우 형태와 스케줄링을 자유롭게 구성할 수 있습니다.
DAG (Direct Acyclic Graph : 방향성 비순환 그래프) 구성을 웹 기반의 UI를 통해 시각화하여 관리하기 때문에 데이터 흐름의 전후 및 병렬 관계를 쉽게 이해할 수 있습니다. 또한 각 작업의 타임아웃, 재시도 횟수, 우선순위 정의 등을 손쉽게 관리할 수 있습니다.
- 컨테이너 환경의 오픈소스 Airflow 설치
- Airflow 설정을 컨테이너 환경에서 손쉽게 관리
- Airflow 플러그인 배포
- Airflow 서비스에 대한 상태 모니터링
- Python 기반의 워크플로우 작성으로 확장성 용이
- 스케줄러를 통한 작업 수행 자동화
- DAG 작업별 리소스 관리
- 데이터 처리 작업에 대한 이슈 및 실패에 대한 재처리 플랜
- 웹서버 : DAG의 구성 요소와 상태를 시각화. Airflow 설정에 대한 구성 관리
- 스케줄러 : 다양한 DAG와 해당 작업을 오케스트레이션. DAG 예약/실행
- 실행기 : 쿠버네티스 기반 동적 Executor인 KubernetesExecutor 제공
- 메타데이터 DB : DAG, 해당 실행 및 사용자, 역할 및 연결 등 Airflow 구성에 대한 메타데이터 저장
비즈니스 성공에 필요한 핵심 기능을 제공하는 삼성SDS 클라우드를 살펴보고, 클라우드 전문가와 상담해 보세요.