Data Wrangler (데이터 랭글러)

쉽고 빠르게 데이터를 탐색하고 원하는 형태로 재구성해 주는 서비스

데이터 랭글러는 수집된 Raw 데이터를 사용자에게 익숙한 엑셀 형태의 시각적인 데이터로 변환하여 제공하며, 이를 통해 데이터를 정리하고 분석하는 시간을 줄일 수 있습니다. 데이터 탐색부터 변환까지 데이터 처리 과정은 모두 시각적으로 확인 가능하며, 데이터 프로파일 정보, Join 유형 및 조건, 데이터 원천 등을 클릭만으로 간편하게 확인할 수 있습니다.

데이터 랭글러 서비스 특징

시각적 데이터 준비
웹 기반으로 편리하게 Self Service로 데이터 전처리가 가능합니다. 데이터를 탐색하고 원하는 데이터를 로드하여, 시각적으로 확인하면서 데이터의 보정, 변환 등을 처리하는 데이터 처리 함수를 제공합니다.
데이터 프로파일링 기반 탐색
데이터 프로파일링을 통해 데이터 분포 현황, 데이터 유효성 검사, 통계 정보 등을 확인할 수 있습니다. 선택한 데이터 셋의 전체적인 현황을 한눈에 파악하여 데이터 정제 대상 및 처리 유형을 결정할 수 있습니다. 컬럼별 데이터 분포와 Invalid data를 확인하여 데이터 보정을 제안하며, 최댓값, 최솟값, 평균값, 최빈값 등을 확인할 수 있습니다.
작업 내용 Recipe 관리
데이터가 변환된 히스토리를 저장, 관리하여 변환된 스크립트를 확인하거나 로딩된 데이터, 컬럼 변환 내역 관리 등 작업 내용에 대한 커뮤니케이션 기능을 제공합니다.
데이터 원천 확인
서로 다른 출처의 데이터를 병합 처리할 수 있으며, 변환된 데이터에 대한 출처와 적용된 Recipe 간의 관계는 Lineage Diagram을 통해 간편하게 확인할 수 있습니다.

01

04

데이터 랭글러 서비스 구성도

데이터 랭글러 주요 기능

간편한 설치
- 데이터 랭글러 신청 시 쿠버네티스 엔진까지 한 번에 신청 가능
- 쿠버네티스 엔진의 자원은 데이터 랭글러에서 신청한 자원 규모 이상으로 설정할 수 있어 사용자 실수에 의한 에러 방지 가능
다양한 데이터 연계 기능
- 연결된 데이터 소스의 Schema 정보 사용 (Hive Schema, RDB Schema)
- SQL을 이용한 데이터 로드
- Local File 기능을 이용한 대상 데이터 업로드
다양한 데이터 분석 함수 제공
- Group 함수 : count, sum, avg, min, max, first, last, countDistinct, sumDistinct, collect_list, collect_set 등
- Window 함수 : lag, lead, rank, dense_rank, row_number 등
- 데이터 전처리에 필요한 함수, Math 함수뿐만 아니라 내장된 다양한 Scalar 함수 사용
Job 관리 및 모니터링
- 전처리 작업의 결과물인 Recipe를 전체 데이터에 적용하는 Job을 관리하고 실행 현황을 모니터링
- Job 상태별 조회, Name 조회
- Job 목록, 상태, 실행 시간 등의 상세 현황 모니터링

데이터 랭글러 요금 기준

- 과금
- 데이터 랭글러가 사용하는 쿠버네티스 엔진의 Pod들의 CPU 사용시간
- 쿠버네티스 엔진, Worker Node(VM), 스토리지 사용 요금은 별도 부과

리소스

무엇이든 물어보세요

비즈니스 성공에 필요한 핵심 기능을 제공하는 삼성SDS 클라우드를 살펴보고, 클라우드 전문가와 상담해 보세요.