지난 글에서 디지털 트랜스포메이션 핵심기술 ‘ABC’ 중 빅데이터 정의에 대해 살펴보았습니다. 빅데이터란 ‘기존 관리 방법이나 분석 체계로는 처리하기 어려운 엄청난 양의 데이터’라고 정의할 수 있습니다. 물리적으로 보면, 무언가가 엄청나게 쌓이는 원인은 두 가지입니다. 어딘가로부터 감당이 안 되는 속도로 쏟아져 들어오거나, 여러 곳에서 다양한 것들이 한꺼번에 들어오게 되면 쌓이게 될 겁니다. 첫 번째는 최근에 다들 경험했습니다. 코로나19가 한창일 때 인터넷 쇼핑몰에서 분노의 클릭질을 자주 하셨죠. 데이터 생성 속도가 빠른 거죠. 두 번째는 처리해야 할 대상이 과거와 달리 다양해졌기 때문입니다. 20년 전만 하더라도 컴퓨터는 집안에서 자가용 바로 다음 서열이라 아무 데이터나 먹일 수가 없었습니다. 갈고닦아 의심의 여지가 없는 숫자 같은 정형 데이터만 넣었습니다. 지금은 어떤가요? 온갖 언어와 길이의 텍스트, 이미지, 동영상 같은 컴퓨터가 바로 이해하기 힘든 비정형의 데이터가 사정없이 들어옵니다. 그래서 밀려드는 데이터를 다 받고 보니 엄청난 양이 되었고, 말 그대로 ‘빅데이터’가 된 것이죠.
이상의 내용을 정리하면 빅데이터의 3가지 특징이 됩니다. 다양한 유형의 데이터가 빠른 속도 생성되고 이동하면 데이터의 양이 감당하기 힘들 정도로 불어나 빅데이터가 된다는 겁니다. 3가지 특징을 영어로 표현하면 Volume, Velocity, Variety가 되는데 앞 글자만 따서 3V라고 합니다.
빅데이터의 세 가지 특징을 이용해 우리만의 정의를 내려보겠습니다.
빅데이터는, “다양한 유형의 데이터가 빠른 속도로 유입되어 대규모로 쌓여 있는 것”
처음 이런 현상이 벌어졌을 때 일반적인 방식으로는 저장, 관리, 분석할 수 없었던 거죠. 그 범위를 초과하는 규모의 데이터 더미였으니까요. 그래서 골치 아픈 데이터 더미를 처리하고 보관할 특별한 방법이 필요했고, 그 고민의 결과가 클라우드와 인공지능이었습니다. 이 세 가지 기술은 서로 떼려야 뗄 수 없는 세쌍둥이 같습니다.
빅데이터의 세 가지 특성 중에 양(Volume)은 더 이상 언급할 것이 없죠. 두 번째, 속도(Velocity)는 새로운 데이터가 생성되고 이동되는 속도와 연관이 있습니다. SNS, 유튜브, 메신저 등이 주요한 소통 수단이 되면서 실시간으로 엄청난 양의 데이터가 만들어지고 또 이동되어야 하죠. 그것도 대화만 있는 것이 아니라 사진과 동영상, 음성, 다양한 양식의 문서파일, 해시태그(#) 등과 같이 세 번째 특징인 다양성(Variety)까지 겸비하고 있죠. 속도는 직관적으로 이해가 되니, 마지막 특징인 데이터의 다양성을 좀 자세히 살펴보겠습니다.
인터넷 붐이 일어나기 전, 그러니까 추억의 싸이월드(도토리로 국민 모두를 홀렸던 페이스북을 앞서간 서비스)와 아이러브스쿨(초등학교 친구를 수 십 년 만에 만나게 해 많은 사회적 문제를 유발하기도 함) 같은 서비스가 유행하기 전에는 어땠을까요? 소중한 컴퓨터에 들어가는, 양이 많아 뭔가 특별한 처리를 해야 하는 데이터는 회사에서 사용되는 시스템에 사람이 직접 입력하는 것뿐이었습니다.
그랬으니 데이터가 만들어지는 원천(소스)을 굳이 정의할 필요도 없었죠. 그런데 인터넷 붐과 SNS 붐이 잇달아 덮치면서 사람이 만드는 데이터는 두 가지로 나눠지게 됩니다. 원래 있던 회사 데이터와 개인 활동을 통해 인터넷, SNS, e-Mail을 통해 제한 없이 마구 생산되는 텍스트, 사진, 동영상, 음성, 해시태그까지.
그것이 다시 한번 폭발한 건 2011년 초, 인터넷 주소 체계를 IPv4에서 IPv6로 확장하면서입니다. 쉽게 말해 자리수의 한계가 있어 소중한 컴퓨터에만 주던, 그래서 대체로 한 집에 하나씩 가졌던 IP 주소를 온갖 기계를 넘어 손톱만 한 센서에까지 주게 된 거죠. 자동차 번호판 체계도 유사하죠. 과거 자동차가 많이 없을 때 만들어진 체계로 도저히 새로 등록되는 자동차를 감당할 수 없게 되자 자동차 번호 체계도 여러 번 바뀌었죠.
IP 체계도 근본적으로는 동일한 메커니즘입니다. IPv4 체계일 때, 최대로 만들 수 있는 IP 개수는 약 42억 개 정도입니다. 이 체계를 만들던 시점에는 이것만 해도 인류가 멸망할 때까지 충분할 거라 생각했겠죠. 초창기에 누군가 말했죠. “전 인류에게 필요한 컴퓨터는 최대 4대 정도다.”라고.
그게 한계에 도달한 겁니다. IPv4 체계는 주소를 만들 공간으로 32비트를 사용합니다. 이에 비해, IPv6 체계는 128비트를 제공합니다. 거의 무한대로 주소를 딸 수 있게 되면서 센서 하나하나까지 주소를 받는 은혜를 얻게 된 겁니다.
그리고 그 기계와 센서에서 외계어 같은 데이터가 사정없이 쏟아져 나오기 시작한 거죠. 기계에서 나오는 데이터는 다시 두 가지로 나눌 수 있습니다. 먼저 사람과 기계 간의 소통에 의해 나오는 것이죠. 스마트폰에 달린 여러 개의 센서들이 만드는 내는 데이터를 생각하시면 됩니다. 또 백화점이나 매장에 들어가도 지금은 수많은 카메라와 센서가 내 움직임을 기록하고 분석하죠.
두 번째는 완전히 기계와 기계 간의 소통입니다. 디지털 홈이 좋은 예가 되겠네요. 집안 모든 가전제품을 인공지능 스피커가 집사처럼 제어하게 된다면, 인공지능 스피커와 각 가전제품 사이에 어떤 형태든 데이터를 주고받아야 하겠죠. 이상을 정리해 보면 그림과 같습니다.
“데이터는 21세기의 원유다. 그리고 분석은 그것을 연소하는 엔진이다.”
- 피터 선더가드 (Gatner 수석 부회장)
세상에서 처음으로 데이터를 원유(전혀 가공되지 않은 석유)에 비유한 사람이 누구인지는 모르겠습니다. 그러나 원유와 데이터의 비유를 처음 들었을 때 받았던 느낌은 아직도 생생합니다. 아마 20년은 지난 것 같은데요, ‘별소리를 다한다’라고 생각했지만 뭔지 모를 강렬함이 있었습니다. 20년이 지나서 이 책을 준비하면서 겨우 그 의미를 다시 생각해 보았습니다. 그리고 깨달았죠. 절묘한 비유라는걸.
원유와 데이터는 오래전부터 존재했고, 활용되어 왔습니다. 원유는 기원전 2,000년 즈음에 이미 땅 위로 올라온 석유를 윤활유나 약으로 사용했다고 합니다. 데이터도 최소한 인류가 문자를 발명한 순간부터 있어왔죠. 하지만 두 가지 모두 절대적으로 양이 적었고 활용도가 낮았습니다. 15세기까지도 원유는 램프를 밝히는 고래기름 대용 물질 정도로만 생각되었습니다.
19세기에 들어서야 비셀이라는 사람이 원유의 가치에 주목합니다. 이때부터 원유가 대량으로 시추되기 시작합니다. 시간이 지나면서 더 많은 원유가 땅과 바다에서 뽑아 올려졌고, 사용처도 다양해졌습니다. 처음에는 조명 용인 등유(조명 용이라 등을 뜻하는 ‘등’자가 쓰임)로 만 사용하다가, 정제기술을 발전시켜 휘발유, 경유, 중유도 만들어냅니다. 항공기가 등장하면서 항공유도 생겼고, 석유화학 제품인 나프타(산업의 쌀로 불리며, 휴대폰 케이스, 타이어 등 다양한 석유화학제품의 원료)도 뽑아냅니다. 데이터도 유사한 길을 밟아왔죠. 점토판에 추수 결과를 새기면서 데이터가 나타났죠. 당시에는 단순한 기록이었지만, 그것이 쌓이고 많아지면서 역사가 되었죠. 그리고 데이터를 넘어 빅데이터가 된 지금은 데이터가 야식이고, 택배도 되었다가, 돈이 되기도 합니다. 가치에 주목합니다.
두 가지 모두 오래전부터 존재해 왔지만, 소량만 있을 때는 사용처가 불분명했습니다. 원유 대량으로 시추되기 시작했을 때 정제되어 다양한 형태로 변신할 수 있었고, 데이터도 빅데이터가 되고서야 큰 의미를 가질 수 있었습니다.
공통점 중에서도 가장 중요한 것은 데이터와 원유가 수집, 보관, 처리라는 세 가지 과정을 거친다는 겁니다. 먼저 원유가 다양한 석유제품이 되는 과정을 볼까요?
원유가 있을 만한 곳을 탐사해서 그곳이 육상이냐 해상이냐에 따라 다양한 방식으로 수집에 해당하는 시추를 할 겁니다. 시추된 원유는 육상에서는 파이프로, 해상에서는 유조선을 통해 운송하게 되고, 정유공장 근처에 보관하게 될 겁니다. 정유 공장으로 옮겨서 가열을 하게 되면 온도에 따라 LPG 가스부터 중유까지 순차적으로 처리되어 나오고 마지막에 찌꺼기로 아스팔트가 남게 되겠죠.
데이터도 이와 유사한 과정을 거치게 됩니다. 원유가 사막, 바다 등 곳곳에서 시추되듯이 빅데이터도 컴퓨터를 통한 입력, 다양한 센서로 대표되는 사물 인터넷(IoT, IoE), 모바일 기기 등을 통해 수집됩니다. 이와 같이, 여러 곳에서 다양한 유형의 데이터가 흘러들어 오기 때문에 이를 호수에 비유해 ‘데이터 레이크(Data lake)’라 합니다. 정제되지 않은 비정형의 데이터가 뭉텅이로, 때로는 실시간(스트리밍)으로 흘러 들어오기 때문에 데이터 레이크에는 전혀 가공되지 않은 원시 데이터가 저장되게 됩니다.
빅데이터를 쓰레기 더미가 아닌 보물창고로 만드는 것은 마지막에 있는 처리 단계입니다. 데이터 레이크에는 전혀 가공되지 않은 원시 데이터가 모여 있습니다. 여기에 스토리를 입히고, 예쁜 통에 담으면 에비앙 같은 명품 생수가 될 수도 있습니다. 그러기 위해서는 데이터의 정제와 가공 과정이 필요합니다. 하지만 데이터 레이크에서는 가공할 수가 없습니다. 그래서 정보 이용자가 필요한 시점에 적절한 정보를 제공하기 위한 사전 작업을 할 곳이 필요합니다. 그것을 ‘데이터 마트’라 합니다. 데이터 마트에 분석용으로 추출된 데이터를 각종 시각화 도구를 이용해 다시 가공해 정보 이용자에게 제공하는 것이 최종 단계가 됩니다. 쓰레기 더미에서 통찰이라는 보물을 찾게 되는 순간이죠.
그런데 이 과정이 말처럼 순탄하지 않습니다. 빅데이터의 취급이 어려운 이유는 데이터 처리에 수고와 시간이 많이 걸리기 때문입니다. 데이터가 세상에서 제일 큰 호수만큼 있어도 분석하지 못하면 의미가 없고, 분석을 잘 했더라도 시간을 너무 많이 소비해 한참 뒤에 결과를 알 수 있다면 무용지물입니다. 데이터 레이크에서 데이터 마트 사이에는 빅데이터를 통해 어떤 통찰을 얻을 것인지에 대한 고민과 그에 따른 데이터 추출 방법이 고려되어야 합니다. 그것도 빠르게 해야 하죠. 과거에 많은 기업 시스템에서는 이런 작업이 밤에 이루어졌습니다. 낮에 쌓인 거래 정보를 밤새 배치 작업을 통해 데이터 마트에 가공해 넘겼지요. 하지만 빅데이터는 이런 방식으로는 제시간에 처리가 불가능합니다. 그래서 클라우드에서 살펴봤던 분산 처리와 인 메모리(주-1) 기술, 최근 각광받고 있는 AI(인공지능) 기반의 RPA(로봇 처리 자동화)(주-2) 등이 활용됩니다.
(주-1) 인 메모리 (in-memory)
인 메모리(in-memory) 기술은 디스크가 아닌 램(RAM)에 데이터를 저장하는 기술을 말한다. 디스크 저장 방식보다 처리 속도가 최대 1만 배까지 빠르기 때문에 SAP, 오라클 등 데이터베이스(DB) 전문 업체를 중심으로 데이터 저장, 처리, 분석 솔루션으로 개발된다.
(주-2) RPA(Robotics Process Automation)
로봇 프로세스 자동화. 비즈니스 과정 중 반복적이고 단순한 업무 프로세스에 소프트웨어를 적용해 자동화하는 것을 뜻한다. 로봇과 인공지능, 드론 등 인간의 일을 대신해 줄 수 있는 기술 발전이 폭발적으로 이뤄지면서 주목을 받고 있다.
데이터의 여러 원천에서 흘러 들어온 데이터를 데이터 레이크에 모아 빅데이터를 만들고, 분석하고자 하는 방향에 따라 데이터 마트를 구성하고 시각화하는 과정을 설명했습니다. 전체 데이터 처리 프로세스에서 가장 중요한 부분은 처리 부분입니다. 그림에서 데이터 마트를 구성하고 시각화하는 부분이지요.
데이터를 저장하고 관리하는데도 돈이 들어갑니다. 쓸모가 없다면, 그 비용을 계속 감당할 필요가 없겠죠. 비용 이상의 가치를 만들어내야 되는데 사실 가치는 데이터를 무작정 많이 쌓았다고 생기는 것이 아니라 그 데이터로 무엇을 할 수 있느냐에 달려 있습니다. 중요한 건, 데이터의 양이 아니라 방대하고 복잡한 데이터를 분석하는 능력이죠.
컴퓨터라는 존재를 세상에 처음 내놓은 앨런 튜링이라는 분이 있습니다. 이 분의 삶을 다룬 ‘이미테이션 게임’이라는 영화가 있어요. 영화에서, 절친인 크리스터퍼와 튜링이 나눈 대화를 보면 분석하지 않은 빅데이터가 어떤 의미인지 바로 알게 됩니다.
튜링: “뭐 읽어?”
크리스토퍼: “암호 작성술에 대한 거야.”
튜링: “비밀 메시지 같은 거야?”
크리스토퍼: “비밀은 아니야. 그게 멋진 부분이지. 누구나 볼 수 있지만, 누구도 그게 무슨 뜻인지 모르지. 열쇠가 없는 이상은.”
튜링: “그게 대화하는 거랑 뭐가 다른데?”
크리스토퍼: “대화?”
튜링: “사람들이 서로 대화할 때면, 자기가 말하고자 하는 뜻은 절대 말하지 않잖아. 말하는 사람은 원래 뜻과는 다른 걸 말하고, 듣는 사람은 무슨 말을 하고 싶은 건지 알아내야 하잖아.”
분석되지 않은 빅데이터를 크리스토퍼가 정확하게 정의 내려주고 있습니다.
“누구나 볼 수 있지만, 누구도 그게 무슨 뜻인지 모르는 것”
튜링의 말에서도 꼭 짚고 넘어가야 할 부분이 있습니다. 사람들이 대화할 때 자기의 본래 의도를 다르게 이야기한다는 거죠. SNS에서 쏟아져 나오는 대화와 메시지의 성격을 정확히 짚었습니다. 그걸 분석해서 그들이 무슨 말을 하고 싶은 건지 알아내야 하는 거죠.
데이터라는 바다에 아무 계획 없이 낚시를 나갔습니다. 어디가 고기가 많이 잡히는 포인트인지, 어디에 고가의 물고기가 있는지 전혀 알 수 없죠. 당연한 결과로 돌아올 때 어망이 비어있는 경우가 많겠죠. 어쩌다 대물을 낚을 수도 있을 겁니다. 그렇지만 그건 몇 년 만에 한 번 있을까 말까 하는 요행이죠. 그런데 어떤 기술을 도움을 받아 바닷속을 속속들이 볼 수 있다면 어떨까요? 무작정 한 마리라도 잡으면 좋겠다는 생각은 하지 않을 겁니다. 비싼 어종을 어디서 낚을 수 있을지 먼저 찾을 겁니다. 그리고 그 어종이 좋아하는 미끼를 준비할 것이고, 거기에 맞는 낚시 도구를 챙길 겁니다.
빅데이터는 분석이라는 과정을 거쳐야만 가치를 가지게 됩니다. 마치 원유가 정제 과정을 거쳐 휘발유, 경유, 중유, 나프타로 전환되어야 진정한 가치를 가지는 것처럼 말입니다.
빅데이터 분석 대상으로 대표적인 것이 텍스트, 음성, 이미지와 동영상이 있습니다. 이 중에서 텍스트 분석과 이미지 및 동영상 분석에 대해서만 간략히 알아보겠습니다. 텍스트 분석에는 텍스트 군집화(Clustering), 개념 추출(Concept extraction), 감정 분석(Sentiment analysis), 문서 요약(Document summarization) 등이 있습니다.
텍스트 군집화는 대량의 텍스트를 의미 있는 주제나 카테고리로 자동으로 모이게 하여 정보를 빠르게 검색해 가져오거나 필터링할 수 있게 해줍니다. 만약 ‘이민’이라 검색한 결과에서 ‘비자’, ‘입국 허가증’, ‘시민권’ 등을 추가로 검색하면 원하는 결과를 좀 더 빠르게 찾도록 도와줍니다. 개념 추출은 언어의 모호함과 사용된 맥락에 따른 뜻을 인식하여 검색의 오류를 줄이고 이에 따른 시간과 인력을 절약하게 합니다. 단순한 키워드 검색 수준을 넘어 맥락에 따른 검색을 가능하게 합니다. 감정 분석은 텍스트에서 주관적인 견해나 감정을 추출합니다. 기본 목적은 텍스트 데이터를 긍정, 부정, 중립으로 분류하는 것입니다. 페이스북이나 인스타그램, 수많은 웹사이트에 산재한 텍스트에서 긍정적이거나 부정적인 반응을 분석해 낼 때 사용합니다. 문서 요약은 추출과 추상의 두 가지로 나누어지는데 추출은 원본 텍스트에서 단어나 문장의 일부를 선택하여 요약하는 것이고 추상은 인간과 비슷하게 문서를 추상적으로 요약합니다. 최근 인터넷에서 기사를 보다 보면 좌측 상단에 ‘요약 봇이 작성’이라는 표기가 된 기사들이 가끔 보이는데 문서 요약이 사용된 것이죠.
동영상 분석 기술도 실질적으로 사용되고 있죠. 그중에서 행동 분석 기술은 테러 방지에 적극적으로 활용되고 있습니다. 2013년 4월 15일 오후 2시 50분에 보스턴 마라톤 폭발 사건이 있었습니다. 마라톤 경로에 있던 수많은 감시 카메라의 영상을 단시간에 분석해야만 했죠. 며칠 동안 근처를 배회하거나 가방을 쓰레기통 속에 넣는 등의 수사한 움직임을 사람이 일일이 찾으려면 수많은 인력이 많은 시간이 들여야 했겠지요.
지금까지 설명으로 눈치채셨겠지만, 빅데이터 분석방법의 대부분은 인공지능과 깊은 연관이 있습니다. 어떤 관점으로, 어떻게 분석할지 정하는 것은 빅데이터의 영역에 가깝지만, 분석을 위한 보이지 않는 규칙을 찾고, 빠르고 효율적으로 실행하는 것은 인공지능을 힘을 빌려야 합니다. 앞서 여러 번 언급했듯이, 인공지능이 머신러닝, 그중에서도 딥러닝으로 화려하게 무대에 서기 위해서는 학습과 테스트를 위해 빅데이터가 필요했습니다. 하지만 반대로 빅데이터가 의미 있게 만드는 것에 인공지능이 중요한 역할을 하고 있죠. 그래서 빅데이터와 인공지능은 불가분의 관계이고, 두 가지 사이의 선순환 고리를 잘 만드는 기업만이 살아남게 되겠죠.
워싱턴 대학 컴퓨터 과학 및 공학 교수인 페드로 도밍고스는 인공지능 분야에서 바이블에 속하는 ‘마스터 알고리즘’이라는 책에서 이렇게 말합니다.
“미래는 최대의 데이터(빅데이터)와 최선의 알고리즘(인공지능, AI)을 보유한 기업이 승리한다. 이로써 새로운 종류의 순환고리가 생긴다. 가장 많은 고객을 보유한 회사가 가장 많은 데이터를 수집하고 그 데이터를 활용해 가장 좋은 모형을 학습하고, 가장 많은 신규 고객을 얻게 될 것이다. 그리고, 이러한 선순환이 계속 이어질 것이다.”
지금까지 DT 사이클을 구성하는 핵심기술 중 빅데이터의 기술적인 측면에 대해 알아봤습니다. 디음 시간에는 데이터를 분석하는 관점과 통찰력에 대해 살펴보겠습니다.
+ 디지털 트랜스포메이션 1편 : 애인의 유산과 매트릭스
+ 디지털 트랜스포메이션 2편 : 사이퍼의 스테이크
+ 디지털 트랜스포메이션 3편 : DT 사이클
+ 디지털 트랜스포메이션 4편 : 기업의 디지털 트랜스포메이션
+ 디지털 트랜스포메이션 5편 : 요약은 컨설턴트의 숙명
+ 디지털 트랜스포메이션 6편 : 멋쟁이는 옷을 제때 갈아입는다
+ 디지털 트랜스포메이션 7편 : 장인의 연장
+ 디지털 트랜스포메이션 8편 : 빈 비누 케이스를 제거하라
+ 디지털 트랜스포메이션 9편: DT의 핵심기술 클라우드
+ 디지털 트랜스포메이션 10편: DT의 핵심 기술 클라우드(2)
+ 디지털 트랜스포메이션 11편: DT의 핵심 기술 빅데이터(1)