Data Wrangler (데이터 랭글러)

쉽고 빠르게 데이터를 탐색하고 원하는 형태로 재구성해 주는 서비스

데이터 랭글러는 수집된 Raw 데이터를 사용자에게 익숙한 엑셀 형태의 시각적인 데이터로 변환하여 제공하며, 이를 통해 데이터를 정리하고 분석하는 시간을 줄일 수 있습니다. 데이터 탐색부터 변환까지 데이터 처리 과정은 모두 시각적으로 확인 가능하며, 데이터 프로파일 정보, Join 유형 및 조건, 데이터 원천 등을 클릭만으로 간편하게 확인할 수 있습니다.

데이터 랭글러 서비스 특징

01

04

데이터 랭글러 서비스 구성도

  • 사용자 → 상품 신청/배포 → Data Wrangler
  • Data Engineer → 데이터 처리 → Data Wrangler
  • Data Wrangler → Kubernetes Engine(container/container/container)
Data Wrangler
  1. Wrangler UI
  2. Wrangler Service
  3. Spark Driver / Spark Executor
  4. Metadata Database
  5. Data Wrangler Image & Chart Repository

데이터 랭글러 주요 기능

  • 간편한 설치

    - 데이터 랭글러 신청 시 쿠버네티스 엔진까지 한 번에 신청 가능
    - 쿠버네티스 엔진의 자원은 데이터 랭글러에서 신청한 자원 규모 이상으로 설정할 수 있어 사용자 실수에 의한 에러 방지 가능

  • 다양한 데이터 연계 기능

    - 연결된 데이터 소스의 Schema 정보 사용 (Hive Schema, RDB Schema)
    - SQL을 이용한 데이터 로드
    - Local File 기능을 이용한 대상 데이터 업로드

  • 다양한 데이터 분석 함수 제공

    - Group 함수 : count, sum, avg, min, max, first, last, countDistinct, sumDistinct, collect_list, collect_set 등
    - Window 함수 : lag, lead, rank, dense_rank, row_number 등
    - 데이터 전처리에 필요한 함수, Math 함수뿐만 아니라 내장된 다양한 Scalar 함수 사용

  • Job 관리 및 모니터링

    - 전처리 작업의 결과물인 Recipe를 전체 데이터에 적용하는 Job을 관리하고 실행 현황을 모니터링
    - Job 상태별 조회, Name 조회
    - Job 목록, 상태, 실행 시간 등의 상세 현황 모니터링

데이터 랭글러 요금 기준

    • 과금
    • 데이터 랭글러가 사용하는 쿠버네티스 엔진의 Pod들의 CPU 사용시간
    • 쿠버네티스 엔진, Worker Node(VM), 스토리지 사용 요금은 별도 부과
무엇이든 물어보세요

비즈니스 성공에 필요한 핵심 기능을 제공하는 삼성SDS 클라우드를 살펴보고, 클라우드 전문가와 상담해 보세요.

공유하기