요즘 주변 사람들과 얘기하다 보면 MBTI 얘기가 심심찮게 나오곤 합니다. MBTI(Myers-Briggs-Type Indicator)는 수십 개의 문항에 대한 답변을 통해 나의 정성적인 특징을 정량화하여 16개의 카테고리 중 하나로 분류해 주는 검사로, 각자의 유형에 맞는 특징을 찾아 보고 그 특징이 상대방과는 얼마나 잘 맞는지, 나와는 또 어떤 부분에서 같거나 다른지 비교해 볼 수 있습니다.
얼마 전 Kaggle 에서 이와 관련된 재미있는 데이터셋을 발견했습니다. [(MBTI) Myers-Briggs Personality Type Dataset] 이라는 제목을 가진 이 데이터는 두 개의 필드인, 특정 웹사이트 사용자들의 MBTI 타입(type)과 해당 사용자가 가장 최근에 작성한 글의 내용 50개(posts)로 구성되어 있습니다. 그리고 많은 Kaggle 이용자들은 이 데이터를 가지고 자신만의 방법으로 분석하여 온라인에서의 문체나 행동(posts)으로 MBTI 타입(type)을 예측하는 모델을 만들어내는 코드를 올려두었습니다. 같은 주제를 가지고도 누군가는 친구들과 서로의 타입을 감으로 짐작하는 동안 누군가는 분석 결과에 근거해서 추론하고 있었고, 틀린 유추를 웃고 넘어갈 때 누군가는 모델을 정교화하는 기회로 삼았을지 모릅니다.
MBTI와 데이터 분석이라니, 데이터 사이언스(Data Science)라는 개념을 접했던 시절의 저였더라면 무척 이질적인 조합이라고 생각했을 것입니다. 그도 그럴 것이 그 당시의 저는 ‘빅데이터 분석가’, ‘데이터 사이언티스트’라고 하면 거창한 일을 하는 사람을 떠올렸고, 영화 ‘머니볼’ 속 빌리 빈과 피터 브랜드가 세이버메트릭스(Sabermetrics)를 도입해 오클랜드 애슬래틱스(Oakland Athletics)에 극적인 연승을 안겨준 것처럼 저 역시 엄청난 성과를 낼 수 있을 거란 환상에 차 있었기 때문입니다.
하지만 배우면 배울수록 오히려 너무 빠르게 발전하는 기술과 확장되는 지식의 범위에 주눅 들기도 하고, 분석 목표를 위해 어떤 데이터를 사용해야 할지 결정하는 것도 힘든 순간들이 있었습니다. 그러나 저를 계속 공부하게 한 건 ‘거창한 포부가 아닌 작은 즐거움’이었습니다. 이런 즐거움이 끈기 있게 문제 해결에 매달리게 했고, 답을 찾기 위한 열정을 갖게 했습니다. 이 글에서는 제가 느꼈던 즐거움을 공유하고자 합니다.
데이터 기반 의사결정(Data-Driven Decision Making)은 이제는 진부하게 들릴 만큼 이미 산업 전반의 기조가 되었습니다. 새로운 고객을 유치하기 위해 고민해야 하는 순간이나 큰 금액을 투자할지 결정해야 하는 상황에서 데이터를 활용해 분석하는 일은 이미 당연하게 느껴지고, 비즈니스의 영역을 넘어서 치안을 유지하기 위한 노력1 과 농산물 생산량 증대2 에서도 데이터 분석이 큰 효과를 가져오고 있습니다. 이처럼 어떤 분야에서든지 데이터를 분석하여 인사이트를 발견하고 더 나아가 의사결정에서 ‘데이터로 근거를 만드는 일’을 할 수 있습니다. 나의 직감이나 경험이 아닌 데이터에 근거해 판단할 수 있다는 것, 이것이 제가 생각하는 데이터 분석의 첫 번째 즐거움입니다. 부서에서 진행했던 데이터 분석과제로 ‘장기 보험 일회성 납입 건수’를 예측하는 모델을 만든 적이 있습니다. 자동이체가 아닌 가상계좌 이체나 카드 수납 등으로 고객이 직접 처리 해야 하는 입금 건수를 예측해야 하는 상황에서, 예측한 결과가 만족스럽지 못하여 고민에 빠졌던 적이 있었습니다. 때마침 지나가던 동료가 ‘무언가 귀찮은 일을 할 때 주말보다 공휴일 앞뒤로 하게 되지 않냐’란 한마디, ‘불규칙한 캠페인의 발생이 생각보다 크게 영향을 미치는 거 같다’는 선배님의 조언 등을 데이터화 하고 모델에 반영해보니, 예측 결과가 눈에 띄게 향상됨을 확인할 수 있었습니다. 당시 이런 가설이 증명되고 예측 정확도 향상으로 나타났을 때, 결과에 영향을 주는 요인을 찾았다는 성취감뿐 아니라 이를 수치적으로 증명할 수도 있다는 점에서 색다른 희열을 느낄 수 있었습니다.
또 다른 즐거움은 내가 잘 아는 분야에 적용해 볼 수 있는 기술이라는 점입니다. 데이터 분석에 대한 이론적 지식과 실무 기술이 풀어야 할 문제를 정의해 주지는 않습니다. 통계적 지식이 부족한 도메인 전문가는 문제를 올바르지 못한 방향으로 풀어갈 가능성이 높다면, 도메인 지식이 결여된 통계 전문가는 문제 정의 자체를 잘못할 가능성이 높습니다. 분석 대상 분야의 도메인 지식을 활용하여 프로세스를 이해하고, 데이터를 해석하여, 데이터 간 맥락을 파악할 수 있어야만 문제를 정확히 정의할 수 있고 적용할 분석 방법과 모델을 결정할 수 있습니다. 분석가에게 익숙한 영역의 데이터라면 이 과정이 훨씬 수월해집니다. 카드CI에서 오랫동안 운영을 했던 동료와 함께 카드 데이터와 대출 정보를 엮어서 연체 확률을 예측할 때, 이 친구의 카드 데이터에 대한 도메인 지식과 풍부한 경험으로 인해 피쳐(feature) 선정 및 분석 결과 해석 과정에서 막힘 없이 수월하게 진행할 수 있었습니다. 이는, 이런 장점이 뒷받침 되어 더 많은 분석 방향을 고민해 보고, 논리적으로 접근해 볼 수 있기 때문이었습니다.
마지막으로 현재와 미래를 지배할 기술을 배운다는 즐거움이 있습니다. 21세기에 데이터 사이언스는 발전을 촉진하는 새로운 동력입니다. 우리의 일상 속에는 이미 많은 AI 기반의 데이터 분석이 바꿔 놓은 삶의 모습들이 있습니다. 고객 정보를 기반으로 맞춤형 광고가 제공되고, 인공지능 스피커는 사용자와의 의사소통으로 요청을 수행하는 동시에 사용자의 취향을 학습합니다. 이미 의료 소프트웨어가 의료 영상 속 환부를 찾아내 진단할 수 있고3 , 머지않아 도로는 자율 주행차로 인해 잠자는 운전자로 가득 찰 지도 모릅니다. 보수적인 성향으로 인해 디지털화가 더딘 분야인 보험 업계에서도 빅데이터·AI를 활용하려는 노력을 꾸준히 해 오고 있습니다. 고객 프로파일링을 통해 깊이 있는 고객 인사이트를 확보하여 각 세그먼트에 적절한 상품을 추천하고, 계약의 인수 여부를 심사하며, 보험금 청구 건에 대한 심사 및 보험 사기 탐지를 수행하거나, 사고 차량의 파손 부위 사진 분석을 기반으로 수리비 견적을 냄4 으로써 비용과 시간을 줄이고, 챗봇을 통한 고객 응대를 진행하는 등 업무 전반에 걸쳐 머신러닝·딥러닝 등의 AI 기술을 앞다투어 적용하고 있습니다. 여러분들은 데이터 사이언티스트로서의 역량 개발을 통해 이런 패러다임의 변화에 발 맞춰 갈 수 있습니다.
저는 이런 즐거움을 동력으로 데이터 분석 이론과 실무 기술을 공부하고 DS 자격을 준비했습니다. 특히 Professional(고급)을 준비하면서 들었던 교육에서 머신러닝 심화, 딥러닝, 텍스트 분석의 개념과 각 모델의 작동 원리를 배웠는데, 이 때 배운 개념들은 부족한 지식들을 찾아보고 학습할 수 있는 기반이 되었습니다. 실기시험은 당시 Advanced(중급)에 비해 Professional(고급)의 실기 대비 문제가 적어 해당 문제들을 다 풀어본 후 Kaggle을 자주 활용했습니다. 정해진 시간 동안 문제를 해결해야 하는 만큼 분석 툴인 Brightics와 Python을 익히는 것도 중요하다고 생각했기 때문에 Kaggle의 다양한 형태의 데이터를 받아 전처리를 해보거나 수업 때 배운 분석 모델을 적용해보는 연습을 했습니다. Professional(고급)을 준비하면서 부서에서 진행했던 데이터 분석 과제도 제게는 큰 도움이 되는 경험이었습니다. 당시 현업이 매월 말 수기로 예측하던 ‘장기 보험 일회성 납입 건수’를 예측하는 모델을 만들어야 했습니다. 피쳐(feature)를 선택하고 다양한 전처리 방식과 예측 정확도를 높일 수 있는 여러 모델을 적용하고 테스트를 반복했습니다. 이 때 시도해 보았던 많은 시행착오를 통해 실력을 키울 수 있었고, 성공적인 모델의 개발을 통해 자신감도 얻을 수 있었습니다.
마지막으로 생각보다 많은 동료, 후배님들의 질문을 받았던, Data science에 대한 정의를 살펴 보며 글을 마무리하고자 합니다. 이 단어를 개념을 검색해보면 컴퓨터 공학과 수학, 그리고 도메인 지식의 사이에 머신러닝/딥러닝과 통계학, 데이터처리가 복합적으로 엮여있는 구조인 것을 알 수 있습니다.
그러나 때로는 개념의 상세한 정의가 처음 접해 보는 분들께는 부담스러울 수 있고, 오히려 본인 상황에 맞는 단순한 표현이 많은 정보를 주기도 합니다.
한 트위터리안은 데이터 사이언티스트를 소프트웨어 엔지니어보다는 통계학을 잘하고, 통계학자보다는 소프트웨어 엔지니어링에 익숙한 사람으로 정의했습니다. 통계학을 전공하지 않은 소프트웨어 엔지니어인 제 입장에서 데이터 수집이나 쿼리 등을 활용한 데이터 전처리에 익숙한데 반해 통계학에 대한 지식이 부족하여, 저와 같이 非데이터 분석 직무에 계신 분들은 이 트윗 글이 마음에 와 닿았을 거라 생각됩니다. 결국 통계학을 위주로 많이 준비를 하실 거라고 예상되고요. 따라서 소프트웨어 엔지니어에게 통계학을 잘 할 수 있도록 최적화 되어 있는 사내 DS교육 과정을 빠짐없이 듣는 것을 추천합니다. Professional(고급)에 도전하실 때 Advanced(중급)에서 쌓여온 지식들이 많이 활용되기 때문입니다. 특히, SeniorDS 강의에서는 저명한 교수님들께서 고급 머신러닝 기법들을 쉬우면서도 심도 있게 다뤄 주셔서 더 흥미로웠고, 데이터 분석에 자신감도 한층 강해졌습니다.
여러분도 데이터 분석에 대한 자신만의 즐거움을 찾고, 미래를 바꿀 분야에 도전하기를 바랍니다.
References
[1] '빅데이터'로 범죄에 조기 대응…경찰 상황분석요원 효과, https://www.yna.co.kr/view/AKR20211119072500060
[2] 빅데이터와 인공지능 활용..디지털농업 혁명이 시작됐다
http://www.newsfm.kr/mobile/article.html?no=5799
[3] [피플] "엑스레이·CT만으로 병 파악…AI기술 전세계에 보급할 것" , https://www.mk.co.kr/news/it/view/2021/09/920420/
[4] "자동차 파손되면 AI가 수리 비용 알려준다"...삼성SDS가 개발한 AI 활용 기술은?
http://www.aitimes.com/news/articleView.html?idxno=139160
▶ 해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 기고자에게 저작권이 있습니다.
▶ 해당 콘텐츠는 사전 동의 없이 2차 가공 및 영리적인 이용을 금하고 있습니다.
이한경
삼성SDS 금융IT사업부
Principal Data Scientist
김지윤
삼성SDS 금융IT사업부
Senior Data Scientist