소셜 데이터 분석
이른바 빅데이터의 시대이다. 우리의 하루 일과는 스마트폰으로 뉴스를 읽고 이메일을 체크하거나 소셜네트워크서비스(SNS)에 글을 올리는 것으로부터 시작된다.
누군가가 생산한 데이터를 단순히 소비하는데 그치지 않고 적극적으로 생산하고 있다. 이는 비단 개인의 범주에만 국한되지 않는다.
기업은 이미 생산, 물류, 품질, 서비스, 연구개발 등 다양한 범위에서 데이터를 활용/생성하고 있으며, 4차 산업혁명이라는 틀 안에서 그 규모는 더욱 커질 것이다.
이미 시장조사 기관 IDC는 2009년 기준 0.8 제타 바이트에서 2020년 35.2 제타 바이트로 44배 이상 증가할 것으로 전망하였다. 실제로 페이스북의 경우, 14억 4천만명의 사용자가 1분에 평균 3125만 메시지를 보내고 277만 개의 동영상을 시청하고 있다. 과거에는 데이터가 없어서 의미있는 분석을 수행하기 어려웠지만, 지금은 데이터가 너무나 넘쳐나서 분석하기 어려운 상황이 되었다.
그냥 재미로 혹은 소통을 위해서 SNS에 올리던 글들이 이제는 소셜데이터 분석이라는 이름으로 우리 사회에 가장 필요한 요소가 되고 있다.
2011년 페이스북에 '우울하다', '불안하다' 등의 부정적인 멘션이 증가한 후 미국의 실업률이 증가하였고, 트위터에 부정적인 언급이 다수 등장하는 기업의 주가는 88% 이상의 기업이 하락했다. 뿐만 아니라, 기업은 신제품 개발, 자연재해 대비, 마케팅 전략 수립 등 다양한 방면에서 소셜 데이터를 활용하고 있다.
소셜 데이터 분석에 대한 기업의 니즈가 증대되다 보니, 다양한 컨설팅 및 정보분석 기업들이 관련된 서비스를 제공하고 있다. 특히, IBM은 소셜 인텔리전스(Social intelligence)라는 서비스로 소셜 데이터 분석을 통해 기업의 매출증대, 비용절감, 시장개척을 지원하고 있다.
대표적인 사례를 들어보자.
패션업계의 소셜 인텔리젼스의 적용은 매출증대로 이어질 수 있다.
중국에서 수억명이 시청하는 티비 프로그램에서 여배우가 한 패션업체의 치마를 입고 나왔고, 10분동안 핵심 고객층인 여성 직장인 100만명 이상의 여성 블로거들이 이 치마에 대한 메시지를 SNS 사이트에 올린다. IBM 소셜 인텔리젼스 서비스는 10분 안에 인기 주제, 관련 감성, 지역적 특성으로 트렌드 감성을 분석하고, 제품 제작 팀에 새로운 영업기회를 알리는 메일을 보내게 된다.
이 메시지에는 소비자들이 선호하는 직물, 길이, 색상, 최적화된 비대칭형 치마 모양 등에 대한 분석결과가 담겨 있으며, 제품 제작팀은 오리지널 제품과 차별화된 새로운 한정판을 만들게 된다. 새로운 트렌드를 자체적인 디자인팀과 유통팀에 연락하여 제품 개발 및 판매 전략을 세우는 데 활용하고, 온라인 매장을 통해 사전 주문을 받아 매우 빠르게 트렌드에 대처하게 된다.
또한, 중국의 넓은 땅을 고려하여 지역적인 스타일 선호도에 대한 통찰력을 도출하고, 오리지널 제품보다 25% 더 높은 가격으로 판매할 수 있었다.
오피니언 마이닝
앞의 사례에서 보는 바와 같이, 소셜 데이터를 빠르게 분석하여 기업 업무에 적용하는 것은 과거와는 다른 방법으로 기업에 가치를 줄 수 있다.
소셜 데이터 분석은 크게 두가지를 대상으로 한다.
데이터베이스에 지정된 형태로 저장될 수 있는 정형 데이터와 문서, 이미지, 영상 등 데이터의 필드가 정해져 있지 않은 비정형 데이터로 구분된다.
흔히, SNS에서 정량화할 수 있는 사람들과의 관계나 접속횟수 등은 정형 데이터이지만, 텍스트나 동영상 등으로 공유하는 내용들은 모두 비정형이다.
빅데이터의 85%가 비정형 데이터이며, 오피니언 마이닝은 주로 비정형 데이터를 분석하게 된다.
오피니언 마이닝은 사람들이 특정 제품 및 서비스에 대해 긍정적인지 부정적인지에 대해 분석하고, 더 나아가 그 원인을 도출하는 것으로 목적으로 한다. 정치, 경제, 사회적인 특정 사안들이 발생했을 때, 여론이나 대중의 관심도가 실시간으로 어떻게 변하는 지 확인할 수 있다.
오피니언 마이닝은 흔히 감성분석으로도 불려지는 것으로, 텍스트에 나타난 사람들의 의견이나 성향 같은 주관적인 데이터를 분석하는 자연어 처리 기술이라고 할 수 있다.
오피니언 마이닝이 성공적으로 활용된 사례는 2012년 미국 대선을 들 수 있다. 오바마 캠프는 부동층 공략을 위해서 소셜 데이터를 수집하고 분석하여 유권자 개인을 대상으로 맞춤화된 선거전략을 활용하고, 기부금 모금을 극대화하기도 했다.
예를 들어, 소셜 데이터를 분석하여 기부금 모금 행사에서 가장 기부금을 낼 가능성이 높은 유권자들은 40대 여성이라는 것을 알아내고, 이러한 집단에 어필하기 위할 수 있는 배우는 조지 클루니라는 것까지 도출하여, 기부금을 성공적으로 모금할 수 있었다.
사람의 의견을 추출한다는 것은 매우 어려운 일이다. 독심술을 쓴다고 해도, 여러사람의 마음을 정확히 읽기는 어렵다. 하지만, 사람들이 무의식중에 혹은 허심탄회하게 SNS에 올린 글들이 모여 소셜 빅데이터를 이루고, 여기서 거의 실시간으로 감성을 얻어낼 수 있다면, 이는 매우 매력적인 일 일 것이다.
물론, 이는 미국 퀴즈쇼에서 IBM의 왓슨이 인간을 제치고 우승한 것과는 차원이 다르다. 단순히 지식을 저장하고 이를 뽑아내 쓰는 것과는 달라야 한다. 사람들의 의견을 모으고, 자연어로 되어 있는 문장들을 단어로 분해해야 하며, 단어들의 감성점수를 긍정인지 부정인지 혹은 중립인지까지 분석해야 한다.
단어의 감성점수가 모여서 문서의 감성점수가 되고 이는 그 글을 쓴 사람의 의견이 긍정인지 부정인지를 판단하는 기준이 된다.
오피니언 마이닝은 일반적으로 다음의 단계를 거치게 된다.
우선 분석하고자 하는 텍스트 문서를 수집한다. 최근에는 웹크롤링이라는 기법이 웹에서 자동적으로 텍스트를 수집하는 과정을 용이하게 해주고 있다.
데이터베이스에 대량의 텍스트가 저장되면, 두번째 단계에서는 주관성 탐지를 수행하게 되는데, 이는 감성과 관련없는 부분을 제외하기 위한 것이다.
오피니언 마이닝에서 활용될 감성과 관련된 문장들을 주관성이 없는 부분과 분리해 낸다.
세번째 단계에서는 문장들을 분해하여 단어들을 도출하고, 단어들의 극성을 분석한다. 텍스트 안에 포함된 단어들이 긍정적인 단어인지, 부정을 표현하는 단어인지를 도출한다.
만약, 단어들에 대한 극성 점수가 이미 도출되어 있다면,이 단계에서는 단어들을 추출하는 프로세스 만을 수행한다. 마지막 단계는 단어들의 극성을 바탕으로 텍스트의 극성을 탐지하는 단계이다. 일반적으로 텍스트에서 단어가 출현하는 빈도와 감성점수의 가중치합으로 텍스트 전체의 극성을 분석하게 된다.
감성점수는 긍정은 1, 부정은 -1의 점수를 부여하고, 단어의 감성정도에 따라 -1에서 1사이의 값을 부여하게 된다.
오피니언 마이닝의 활용은 트렌드 파악, 제품/서비스 평가, 미래 예측으로 정리될 수 있다.
우선 트렌드 파악은 사람들이 최근 이슈에 대해 어떻게 파악하는지 분석하는 것이다.
요즘처럼 정치적인 이슈가 사람들의 관심대상일 때, 사람들은 적극적으로 온라인 상에서 의견을 표출하게 되고, 이는 오피니언 마이닝의 좋은 분석 토대가 된다. 정치, 사회적 이슈 뿐만 아니라, 연예나 스포츠 등의 분야에서도 동일하게 적용될 수 있다. 제품/서비스 평가의 경우, 기업의 매출에 직결되는 보다 직접적인 활용도를 가지고 있다.
특히, 온라인 커뮤니티에는 이러한 제품이나 서비스 평가 혹은 불만사항이 무수히 많이 올라와 있으며, 온라인 몰에는 상품 구매에 대한 리뷰가 노출되어 있다. 고객이 부여하는 별점과 리뷰의 내용이 일치하지 않는 경우도 많기 때문에 오피니언 마이닝은 별점에서 발견할 수 없는 시사점을 제시할 수 있다.
마지막으로 미래 예측은 어렵고도 반드시 필요한 부분이다. 결국, 오피니언 마이닝은 의사결정을 보조하는 수단으로 쓰여질 수 있기 때문에, 미래에 발생 가능한 일들에 대한 정보를 제공할 필요가 있다. 이미 오피니언 마이닝을 활용하여 주가를 예측한다거나, 국가경제위기를 예측하는 다양한 시도들이 수행되고 있다.
인공지능 기반 오피니언 마이닝
오피니언 마이닝을 적용하는 과정에서 가장 어려운 점은 수많은 단어들의 극성을 결정하는 것이다.
단어는 문장이나 문단의 문맥(context)에 따라서 의미하는 바가 달라질 수 있기 때문에, 분석에서 반드시 이를 고려해야 엉뚱한 결과가 나오지 않는다.
그러나, 이러한 요소까지 반영하는 것은 인간의 판단이나 단순한 분석을 가지고는 어렵다. 또한, 방대한 양의 텍스트를 분석하기 위해서는 인공지능의 활용이 필수적이다.
오피니언 마이닝은 선거전략의 수립에서 기업의 이윤창출에 이르기까지 우리 주위를 둘러싼 수많은 부분에서 활용될 수 있기 때문에, 이를 더 빠르게, 더 정확히, 더 저렴하게 수행할 수 있는 인공지능의 활용은 관련 연구의 최전방에 놓여 있다고 하겠다.
오피니언 마이닝에 인공지능을 적용하는 방법은 주로 단어의 극성을 분석하는데 활용된다.
단어의 극성을 판단하는 방법도 감성을 '좋음'과 '싫음'의 양 극단으로 나누어 분류하는 방법과 감성을 점수로 평가하는 방법으로 구분될 수 있다.
전자는 나이브 베이즈(Na?ve Bayes)와 서포트 벡터 머신(Support vector machine: SVM)와 같은 기계학습 알고리즘을 이용한다. 감성점수를 구하는 방식은 여러가지가 있을 수 있으나 본 글에서는 Word2vec과 Graph-based semi-supervised learning이라는 인공지능의 일종인 기계학습을 활용하는 방법을 소개하고자 한다.
Word2vec은 글쓴이가 올린 글들에서 문맥을 고려하여 단어의 관계를 분석하는 머신 러닝 방법이다.
문장에서 단어들의 출현 빈도 데이터를 바탕으로 각 단어가 같이 등장한 빈도가 높으면 두 단어 벡터의 거리를 가깝게 만든다. 데이터의 양이 충분하다면 단어의 뜻을 정확하게 파악할 수 있고, 단어들간의 관계도 정확히 도출할 수 있다. 그림에서 보는 바와 같이, 유사한 단어들은 단어들의 관계를 고려하여 지도에서 비슷한 위치에 놓이게 된다.
Word2vec에 의해서 단어간의 관계가 인공지능에 의해서 분석되고 나면, 오피니언 마이닝에서 가장 중요한 단계인 극성분석이 수행되어야 하며, 이는 앞에서 제시한 Graph-based semi-supervised learning이 활용된다.
Semi-supervised learning은 단어들의 극성이 부여된 데이터의 수가 상당히 적고, 극성이 부여되지 않은 단어들의 극성을 알아내고자 할 때 우수한 성능을 보인다.
텍스트를 분석하다 보면, 단어가 완벽히 긍정이거나 부정이어서 감성점수를 1이나 -1을 부여할 수 있을 때가 있다. 그러나 이러한 단어는 매우 제한되어 있기 때문에, 이러한 단어를 Seed word로 하여 Word2vec에서 도출된 단어간의 관계를 활용하여, 나머지 단어들의 감성점수를 구할 수 있다.
Graph-based semi-supervised learning은 단어들의 관계를 그래프로 표현하고, Seed word의 감성점수와 Word2vec의 단어간 관계를 학습시켜, 최종적으로 모든 단어들의 감성점수를 구하게 된다.
이와 같이 두 인공지능 방법을 활용하면, 방대한 양으로 축적된 텍스트들에서 지능적인 방법으로 의견을 도출할 수 있을 것이다. 향후, 인공지능의 비약적인 발전은 오피니언 마이닝의 정확도와 성과를 더 높일 수 있는 계기가 될 것이라고 기대해 본다.
▶   해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 기고자에게 저작권이 있습니다.
▶   해당 콘텐츠는 사전 동의없이 2차 가공 및 영리적인 이용을 금하고 있습니다.
윤병운 교수는 서울대학교 산업공학과에서 학사, 석사, 박사학위를 받고 영국 캠브리지 대학 CTM(Centre for Technology Management)에서 포닥을 마친 뒤, 현재는 동국대 산업시스템공학과에서 교수로 재직중이다. 윤병운 교수의 연구분야는 기술예측, 기술로드맵, 특허분석, 인공지능, 빅데이터분석, 기술인문사회 융합 등이며, 최근에는 기술 인텔리전스(Technology Intelligence)라는 개념을 정립하고 확산하기 위해서 노력하고 있다.