웹 기반으로 편리하게 Self Service로 데이터 전처리가 가능합니다. 데이터를 탐색하고 원하는 데이터를 로드하여, 시각적으로 확인하면서 데이터의 보정, 변환 등을 처리하는 데이터 처리 함수를 제공합니다.
데이터 프로파일링을 통해 데이터 분포 현황, 데이터 유효성 검사, 통계 정보 등을 확인할 수 있습니다. 선택한 데이터 셋의 전체적인 현황을 한눈에 파악하여 데이터 정제 대상 및 처리 유형을 결정할 수 있습니다. 컬럼별 데이터 분포와 Invalid data를 확인하여 데이터 보정을 제안하며, 최댓값, 최솟값, 평균값, 최빈값 등을 확인할 수 있습니다.
데이터가 변환된 히스토리를 저장, 관리하여 변환된 스크립트를 확인하거나 로딩된 데이터, 컬럼 변환 내역 관리 등 작업 내용에 대한 커뮤니케이션 기능을 제공합니다.
서로 다른 출처의 데이터를 병합 처리할 수 있으며, 변환된 데이터에 대한 출처와 적용된 Recipe 간의 관계는 Lineage Diagram을 통해 간편하게 확인할 수 있습니다.
- 데이터 랭글러 신청 시 쿠버네티스 엔진까지 한 번에 신청 가능
- 쿠버네티스 엔진의 자원은 데이터 랭글러에서 신청한 자원 규모 이상으로 설정할 수 있어 사용자 실수에 의한 에러 방지 가능
- 연결된 데이터 소스의 Schema 정보 사용 (Hive Schema, RDB Schema)
- SQL을 이용한 데이터 로드
- Local File 기능을 이용한 대상 데이터 업로드
- Group 함수 : count, sum, avg, min, max, first, last, countDistinct, sumDistinct, collect_list, collect_set 등
- Window 함수 : lag, lead, rank, dense_rank, row_number 등
- 데이터 전처리에 필요한 함수, Math 함수뿐만 아니라 내장된 다양한 Scalar 함수 사용
- 전처리 작업의 결과물인 Recipe를 전체 데이터에 적용하는 Job을 관리하고 실행 현황을 모니터링
- Job 상태별 조회, Name 조회
- Job 목록, 상태, 실행 시간 등의 상세 현황 모니터링
비즈니스 성공에 필요한 핵심 기능을 제공하는 삼성SDS 클라우드를 살펴보고, 클라우드 전문가와 상담해 보세요.