데이터로 세상을 분석한다! 데이터 사이언티스트
데이터 사이언티스트(Data Scientist)에 대한 기업의 관심이 높아지고 있습니다. 기업에서 원하는 직업적 인기뿐 만 아니라, 관련 용어에 대한 버즈량 또한 증가하고 있습니다. 실제로 기업에서 데이터 분석을 하기 위해서는 어려 명의 데이터 사이언티스트가 필요합니다. 하지만 신규 인력을 외부에서 채용해 도메인 지식을 익히게 하는 것은 많은 시간을 필요로 하기 때문에 내부 인력들이 데이터 사이언스 역량을 키워 분석 업무를 할 수 있게 하는 사례가 증가하고 있습니다.
데이터 사이언티스트를 찾는 곳이 많아졌다는 것은 데이터 사이언스가 그만큼 중요해졌다는 의미이기도 합니다. 그렇다면, 데이터 사이언스는 왜 중요해졌고, 데이터 사이언티스트가 어떤 역량을 필요로 하는지 기사를 통해 알아보겠습니다.
데이터 사이언스(Data science) 왜 주목받는가?
+ 데이터의 폭발적인 증가
2018년 기준 한 달 동안 모바일을 통해 쌓이는 데이터의 양은 약 16엑사바이트(EB)*라고 합니다. 인류가 데이터를 관리하기 시작한 이후, 2002년까지 축적한 데이터의 총량이 5엑사바이트 라는 점을 생각한다면, 모바일에서 생성되는 데이터의 양이 얼마나 큰 숫자인지 짐작할 수 있습니다.
이렇게 데이터가 기하급수적으로 증가하게 된 것은 대중에게 보급되기 시작한 모바일의 영향이 큽니다. 앱스토어에 매일 수많은 애플리케이션이 올라오는데 여기서 많은 양의 로그가 발생합니다. 애플리케이션 개발자가 사용성을 분석하기 위해 유저의 클릭 로그를 수집하고, 애플리케이션이 서버와 통신하는 과정에서도 각종 로그를 남기기 때문입니다.
※ 데이터 저장 용량 단위: GB(Giga Byte) → TB(Tera Byte) → PB(Peta Byte) → EB(Exa Byte) → ZB(Zeta Byte)
+ 데이터의 저장과 처리 비용 감소
데이터양이 폭발적으로 증가하는 추세이기 때문에 데이터 스토리지 비용에 대한 기업의 고민도 깊어지고 있습니다. 과거에는 데이터를 모두 저장하는 대신 데이터의 일부 또는 요약 정보만 저장하거나, 원래의 로그 데이터를 사이즈에 따라 짧게는 1~2일에서 길게는 1개월만 저장 후 삭제하고 요약된 정보만 장기간 저장하는 방식을 선택하기도 했습니다. 그러나 이런 방식은 전체 데이터가 담고 있는 정보를 요약하는 과정에서 데이터를 손실하는 결과를 초래하기도 합니다.
하지만 최근에는 저장 장치의 가격이 지속적으로 하락하고, NoSQL, 하둡을 도입함으로써 데이터를 저장, 처리하는 비용을 절감하게 됐습니다.
+ 다양해지는 데이터 형태와 빨라지는 입수 속도
데이터가 수집되는 형태도 다양해지고 있으며, 입수 속도 또한 매우 빨라지고 있습니다. 이전에는 스키마가 미리 정의된 연산이 가능한 형태의 정형 데이터가 주를 이루었다면, 이제는 스키마는 있으나 필드가 고정되어 있지 않으며 연산이 바로 가능하지 않은 반정형 데이터나 스키마와 연산도 가능하지 않은 비정형 데이터의 형태도 증가하고 있습니다.
또한 이전에는 데이터 입수 주기가 전일자를 익일에 가져오는 배치 형태가 주를 이루었다면, 이제를 로그와 같은 데이터를 시간 단위, 또는 분 단위로 가져와 파일을 생성하는 경우도 증가하고 있습니다. 이는 데이터 처리 속도의 향상으로 실시간 서비스에 대한 니즈가 증가했기 때문입니다.
참고로 반정형 데이터에 대한 대표적인 예는 HTML, 텍스트, 로그 데이터 등으로 이들 데이터는 인터넷과 모바일 확산과 함께 그 양이 더욱 방대해지고 있습니다. 비정형 데이터는 텍스트, 영상, 음성 등의 형태로 소셜 미디어 콘텐츠, 유튜브 영상, 음원, 이미지, 문서 등이 그 예라 할 수 있습니다. 업계에서는 빅데이터의 85%가량이 비정형 데이터라 추정하고 있습니다.
데이터 사이언티스트가 되기 위해서는?
+ 데이터베이스와 SQL
실무 현장에서 접하는 데이터는 관계형 데이터베이스 형태가 많습니다. 데이터가 각각의 테이블 단위로 들어가 있어 원하는 분석을 하기 위해서는 하나의 테이블로 결합하고 목적에 맞게 데이터 처리 작업을 하며, 데이터 정제 작업과 필요한 파생 변수 생성 작업 역시 필요합니다. 데이터에 숨겨진 추세나 패턴을 확인하기 위해 특정 변수 기준으로 요약 집계하는 경우도 있습니다. 이러한 데이터 처리 작업을 위해서는 데이터베이스에 대한 높은 이해도와 SQL과 같은 데이터 핸들링 능력이 필요합니다.
데이터베이스 관리 시스템 종류에 따라 SQL 문법이 조금씩 상이하기는 하나 한 종류의 SQL 문법을 제대로 익히고 자유자재로 활용할 수 있다면 다른 종류의 SQL을 추가로 익히는 것은 그리 어렵지 않습니다.
+ 알고리즘 이해와 분석 툴∙언어 활용 기술
데이터 분석은 데이터를 요약, 시각화하거나 분석 알고리즘을 활용해 추론하고 예측해 인사이트를 발굴하는 과정을 거칩니다. 데이터를 요약, 시각화할 때 일부분은 SQL로 처리 가능하지만, 후자의 경우 통계학, 머신러닝에 대한 이해가 있어야만 가능합니다. 또한, 개념에 대한 이해와 더불어 데이터 분석 결과를 분석 툴을 활용해야 얻을 수 있기 때문에 분석 툴과 언어 활용 기술을 필요로 합니다.
데이터 분석을 수행할 수 있는 오픈 소스로는 삼성SDS 브라이틱스 스튜디오, R, 파이썬, 스파크 등이 있으며, 툴에서 활용할 수 있는 함수, 라이브러리 사용법을 잘 숙지하면 데이터 분석 시 요긴하게 활용할 수 있습니다. 데이터 분석 분야는 새로운 알고리즘과 분석 방법, 분석 도구들이 지속적으로 나오기 때문에 꾸준한 관심을 가지고 학습해야 합니다.
+ 커뮤니케이션과 시각화
각 기업에서 데이터 분석은 니즈가 있는 현업 담당자, 의사결정자, 데이터 사이언티스트의 협업을 통해 이루어집니다. 보통 데이터 분석에 대한 니즈를 갖고 있는 담당자와 의사결정자는 분석에 대한 접근 방법과 용어들이 낯설 수밖에 없으며, 데이터 사이언티스트는 도메인 지식이 부족할 수밖에 없습니다. 협업을 잘 하기 위해서는 서로의 요구 사항을 청취하고 현업에서 필요로 하는 내용을 분석 설계하며, 결과를 쉽게 이해하고 활용할 수 있도록 해야 합니다.
또한, 분석 결과를 효과적으로 전달하기 위해서는 적절한 시각화가 필요하며, 효과적인 시각화는 어려운 내용도 쉽게 전달하는 힘이 있고 분석 결과를 더욱 값지게 합니다.
+ 비즈니스의 이해(Domain knowledge)
현업 담당자가 요구하는 데이터 분석의 니즈를 데이터 사이언티스트가 충분히 공감하고 이해할 때 비즈니스에서 활용 가능한 분석 결과가 나올 수 있습니다. 이를 위해서는 각 도메인에 적합한 분석을 하고 그에 맞는 인사이트를 도출할 수 있는 도메인 전문가가 되어야 합니다.
도메인에 대한 지식이 없는 상태로 분석만 한다면 그 결과가 해당 분야 전문가들이 이미 다 아는 당연한 지식이거나, 혹은 무관한 내용들이 마치 관련 있는 것처럼 해석하는 잘못을 할 수 있기 때문입니다.
데이터 사이언티스트 활용 분야
+ 유통
데이터 사이언스는 고객 관계 관리(CRM, Customer Relationship Management) 측면에서 고객 이탈 예측, 신규 고객 프로모션, 가망 고객 탐지 목적으로 활용할 수 있습니다. 과거 이탈한 고객들의 이탈 전 패턴을 분석해 이탈 가능성이 높은 고객군을 탐지하고 사전 조치를 취할 수 있습니다. 또한, 신규 유입된 고객이 어떤 경로와 목적으로 유입됐는지를 분석해 재방문을 유도하기도 하고, 기존 고객들을 분석해 그들과 유사한 컨텍스트를 보일만한 가망고객을 대상으로 타겟팅 하기도 합니다.
+ 제조
각 공정 라인에 센서를 부착해 결함이 발생되기 전 징후를 분석해 결함 발생 전 미리 알람을 띄워 조치를 취하게 할 수 있습니다. 제품 생산 시간에 영향을 미치는 요소를 분석해 비용을 절감하고 생산라인을 최적화하기도 합니다. 또한 제품 수요를 국가별 매장 단위로 예측하여 적절한 양을 생산하고 매장에 배치해 재고를 관리하는 한편, 고객의 배송 대기 시간을 최소화할 수 있습니다.
+ 금융
신용도가 높은 고객과 그렇지 않은 고객의 각종 금융거래 패턴을 분석해 신용 점수를 산정하고 신용도를 평가할 수 있습니다. 또한, 부정 탐지를 통해 보험 사기 등을 분석해 유사 징후가 있는 고객을 주의 깊게 파악하며, 유사 징후가 없는 고객이 청구한 보험 지급 건에 대해서는 신속하게 처리해 고객 만족도를 향상시킬 수 있습니다.
+ 기타
의료 분야에서는 병원 진료와 질병 진단 기록을 분석해 질병이 발생할 조건을 예측하고, 질병을 예방하기 위한 대응책을 마련할 수 있습니다. 이외에도 공공, 에너지, 사회 분석, 여행, 스포츠 등 데이터 분석이 쓰일 수 있는 분야는 무궁무진합니다.
이번 월간IT는 브라이틱스를 주제로 데이터 분석과 데이터 사이언티스트 등에 대해 알아봤습니다. IT 기술의 발달로 증가하는 데이터만큼 데이터 사이언티스트가 각광받고 있습니다. 이번 시리즈가 데이터 사이언티스트를 꿈꾸는 여러분에게 작은 도움이 되길 바라면서, 다음 월간IT에서 삼성SDS와 IT에 연관된 주제로 다시 찾아오겠습니다!
출처: 도서 <브라이틱스와 함께하는 데이터 분석 실무>