빅데이터란 무엇인가?
빅데이터의 정의는 주체자에 따라 조금씩 다르게 표현하고 있다.
Wikipedia를 참조하면 빅데이터란 “기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술”라고 정의하고 있다.
IDC(Industrial Development Corporation)에 의하면 빅데이터의 정의를 “다양한 데이터로 구성된 방대한 볼륨의 데이터로부터 고속 캡처, 데이터 탐색 및 분석을 통해 경제적으로 필요한 가치를 추출할 수 있도록 디자인된 차세대 기술과 아키텍처”라고 명시하였다.
여러 국내외 선진사의 정의를 바탕으로 빅데이터란 다음과 같이 정의 내릴 수 있다.
즉, 다양하고 복잡한 데이터에서 비즈니스 가치를 찾아내는 과정이 빅데이터 분석이라 할 수 있다. 다시 말해, 어려운 분석 방법을 통해서 데이터 분석을 했지만 비즈니스적 가치가 없다면 그건 빅데이터라고 할 수 없다.
그렇다면 빅데이터는 왜 출현하게 되었을까? 첫 번째 이유는 CPU, 스토리지, 메모리 등 하드웨어의 가격이 낮아지면서 정보 저장 및 처리비용의 저렴해졌기 때문이다. 또한, Hadoop 및 R같은 오픈 소스의 기술 발전에 있다. 이제는 대용량 비정형 데이터를 Hadoop를 써서 빠르게 분산 처리하여 결과를 얻을 수 있고 통계 툴 R를 활용하여 통계함수 처리 및 Data Visualization을 할 수 있게 되었다. 세 번째 이유는 원래 존재했지만 관리되지 않고 버려지는 데이터에 관심을 갖게 되었고 그 데이터에서 비즈니스적인 가치를 찾으려는 노력을 시도했기 때문이다. 마지막 이유는 실제 이런 데이터에서 가치를 찾아서 활용한 사례가 등장했기 때문이다. Facebook, Twitter, Google, Dell, Target등 여러 기업에서 빅데이터를 활용하여 비즈니스적 가치를 찾아내고 실제 사업에 적용하고 있다. 이런 성공사례에 대해서는 다음 장에서 다루도록 하겠다.
최근 소셜미디어, 스마트 폰, IoT(사물인터넷), 웨어러블 기기의 확산으로 인해 빅데이터는 ICT분야에서 큰 역할을 할 것이며 신규 비즈니스 영역으로 주목 받을 것이다. 이에 국내∙외 기업들은 빅데이터를 활용한 사업에 주력하고 있으며 빅데이터 산업 시장은 국외, 국내 각각 연평균 52%, 27.9%로 급증세를 보일 것으로 예상한다.
가트너 선정 “2015 전략기술 트렌드 10선에 “빅데이터 분석(고차원분석)”이 포함되어 있다. 최근 5년간 가트너 10대 전략기술에 데이터라는 주제는 항상 등장했다.
그로 인해 지금까지 데이터에 대한 관심을 갖고 그 활용사례도 꾸준히 증가하고 있다. 이제는 정형∙비정형의 다양한 데이터를 분석하는 분석기술이 발전되었고 관심을 더 갖게 되었다. 즉, 과거에 빅데이터에 대한 단순한 관심이 이제는 보다 진보된 똑똑한 데이터 분석과 활용에 옮겨지고 있다는 것을 알 수 있다
국내∙외 빅데이터 활용사례
빅데이터는 바이오, 소셜, 생산, 금융, 통신 등 많은 분야에서 활용되고 있다.
  특히, 글로벌 기업에서는 이미 빅데이터 사업을 시작하였으며 그 예로, 아마존에서는 소비자들의 소비 패턴을 분석하여 누가 언제 어떤 상품들을 구매할 것인지 예측하여 소비자가 구매 버튼을 클릭하여 배송요청을 하기 이전에 미리 배송준비를 할 수 있는 시스템을 개발하였다.
구글의 ‘플루 트렌드’ 역시 빅데이터를 활용한 사례이다. 일반적으로 사람들은 감기에 걸리면 병원 약국에 가기 전 독감이나 같은 단어를 검색하는데 구글은 이러한 점에서 생각해서 2008년부터 검색 정보와 위치를 기반하여 미국의 감기바이러스 확산 상황을 알려주는 서비스를 제공 중에 있다.
즉, 이 시스템은 ‘감기’나 ‘독감’과 같은 검색빈도가 높은 지역을 지도에 표시 함으로써 독감의 확산을 예측할 수 있다. 대부분의 보건 기구는 일주일에 한번만 예상 수치를 업데이트하지만 Google 독감 트렌드는 18개 국가를 대상으로 매일 업데이트되므로 기존의 시스템을 보완한 것이다.
또한, 패션브랜드인 자라(ZARA)도 빅데이터를 분석하여 활용하고 있다. 자라의 경우 다품종 소량생산을 마케팅 판매 전략으로 삼고 있다. 일반적인 패션 브랜드의 상품 종류에 비해 2배 이상의 종류를 생산한다.
또한, 오더부터 생산, 매장에 입점할 때까지 단 6주이내로 걸린다. 때문에 수요 예측과 매장 별 재고 산출, 상품별 가격 결정, 운송까지 실시간으로 파악해야 할 필요가 있었고, 이를 위해 MIT연구팀과 연계해 빅데이터를 활용하는 재고관리 시스템을 개발했다.
빅데이터를 비즈니스에 활용한 국내 기업 중 하나인 SK텔레콤은 SNS, 소셜데이터, 검색키워드를 이용하여 고객, 사회 트렌드 파악 및 기업이미지 파악, 홍보에 자체 개발한 빅데이터 솔루션을 이용하고 있다.
이를 바탕으로 최근에는 “스마트 아티스트 마케팅” 사업을 본격적으로 시작하였다. 즉 SNS, 키워드를 분석하여 연예인의 활동 방향 및 이미지 분석에 활용할 계획이다. SK텔레콤은 이 외에도 모바일 광고 분석, 소셜데이터 분석 등 다양한 빅데이터 기반의 서비스 모델을 새롭게 개발 중에 있다.
주요 카드업체들은 소비자의 행동패턴을 분석하여 마케팅에 활용하고 신규상품 개발 및 상품추천에 빅데이터를 활용하고 있다. 한 예로 KB국민카드의 경우, 빅데이터 분석을 통해 카드이용서비스 및 편의성을 제공하고 있다.
최근 몇 년 동안 카드 이용객의 행동패턴을 분석하여 “혜택가맹점” 앱을 개발하여 고객에서 맛집 추천 및 비슷한 고객의 상점이용 패턴을 제공함으로써 편리하게 정보를 얻을 수 있었다. 또한, 최근에는 “실시간 마케팅시스템”을 개발해서 비즈니스에 적용, 운영하고 있다.
이 시스템을 통해 고객은 자신의 니즈와 위치에 따라 최적화된 카드혜택 및 맞춤형 정보를 실시간으로 검색하고 받을 수 있다.
예전에는 무작위 성 마케팅을 했다면 지금은 전략적으로 고객의 상황에 맞게 최적의 시간에, 최적의 상황에, 최적의 혜택을 제공하는 것이 목적이다. 이를 위해 KB국민카드는 정형∙비정형 데이터 분석을 위해 빅데이터를 적극 활용하고 있다.
엔씨소프트에서도 빅데이터 기반의 고객 데이터 분석 시스템을 구현하고 운영 중에 있다. 불법적으로 다른 사람의 자산을 이용하거나 가져가는 행위를 잡기 위해 오랫동안 연구해 왔고 여기에 빅데이터 기술을 활용하고 있다.
즉 방대한 고객의 행동 및 사용 로그 데이터를 분석하여 사기 탐지(Fraud detection) 알고리즘을 고도화하여 적용하고 이를 이용하여 불법 행위를 모니터링하고 있다.
수많은 사람들이 게임을 하고 여기서 엄청난 양의 로그 데이터가 쏟아져 나온다. 많은 양의 비정형 데이터를 실시간으로 분석하고 알람을 표기하는데 빅데이터는 꼭 필요하다. 또한, 고도화된 사기탐지 알고리즘을 개발하기 위해 Data Mining기법 및 기계학습기술을 적극 활용하고 있다.
지금까지 빅데이터 동향 및 간략한 국내외 활용사례를 살펴보았다.
2편부터는 금융, 바이오, 영상, 사물인터넷, 딥러닝 분야에서의 빅데이터 사례를 자세히 다루어 보겠다. 먼저, 다음 편에서는 금융분야 빅데이터 활용사례에 대해 이야기해보도록 하겠다.
※ 이 글은 대한산업공학회에서 발간하는 IE 매거진 2016년 가을호에 게재된 글을 대한산업공학회의 허락을 얻어서 다시 게재합니다.
▶   해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 기고자에게 저작권이 있습니다.
▶   해당 콘텐츠는 사전 동의없이 2차 가공 및 영리적인 이용을 금하고 있습니다.
김서연 수석보는 2009년 미국 조지아텍 산업공학과 박사학위를 취득하고 싱가포르 국립대학교 산업공학과에서 연구원으로 근무하다가 2010년 9월에 삼성SDS 인프라사업부로 입사를 하였습니다. 현재 Data Scientist로써 다수의 빅데이터 과제를 진행하고 있으며 데이터분석 및 Data Scientist 양성과정을 개설하고 사내 강사로 활발히 활동하고 있습니다. 또한, CommonSDS 뿐만 아니라 IE매거진에도 빅데이터 관련 글을 기고함으로써 관련 지식을 전파하고 사내외 세미나를 통해 빅데이터 지식 교류 등 폭 넒은 활동을 하고 있습니다.