제조업에서는 인더스트리 4.0과 스마트 팩토리 같은 새로운 방법을 모색하여 끊임없이 변화하는 시장 니즈에 대응함으로써 혁신적인 제품을 더 빨리 제공할 수 있는 방법을 찾는 데 노력을 기울이고 있습니다. 이러한 노력과 더불어 IoT 기반의 센싱 기술이 발전하면서 이전에 수집하지 못하던 다양한 데이터를 측정할 수 있게 되었고, 네트워크 기술의 발전을 통해 측정한 데이터를 빠르게 저장소로 이동시킬 수 있게 되었죠. 또한 Hadoop과 Spark와 같은 오픈소스 기술의 발전으로 인해 적은 비용으로 대용량 데이터를 저장하고 빠른 속도로 분석이 가능하게 되었습니다.
그럼에도 불구하고 설비 로그 및 센서 데이터를 통해 불량 원인을 빠르게 찾아 조치하는 것이 무엇보다 중요한 제조공정의 특성상, 여전히 데이터 분석 과정의 이슈는 존재합니다. 수년 전부터 지금까지 생산공정의 미세화가 지속적으로 진행되면서, 공정별 설비/센서에서 생산하는 데이터가 폭발적으로 증가했고, 기존 방식으로는 이렇게 증가한 데이터를 활용하여 적시에 불량 원인을 찾는 것에 한계가 있기 때문입니다. 2010년대부터 빅데이터 분석 기술이 발전하면서 어느 정도 대용량의 처리가 가능해졌고 더 빠른 분석을 시도할 수 있게 되었으나, 빅데이터를 단순히 분산/병렬 처리하는 기술로 활용하고 있어 제조 현장의 분석 요구를 온전히 충족할 수 없는 것이 현실입니다.
이렇듯 스마트 제조를 위해 기초가 되는 데이터를 수집하고 분석할 수 있는 기술적/이론적 환경은 갖추어졌으나, 제조 현장에서 수집한 데이터를 실제로 분석하는 작업을 수행하는 관점에서 해결해야 이슈들이 존재합니다.
빅데이터 기술이 본격화되기 이전에는 전체적인 데이터를 보지 못하고 일부 데이터만을 샘플링하여 분석을 수행했기 때문에 전체 데이터를 분석해야만 알 수 있는 교호작용 분석 등을 시도하기가 어려웠습니다. 이후, 빅데이터 기술이 급격히 발전함에 따라 전체 데이터 분석이 가능하게 되었음에도 빅데이터 분석이 생각보다 빨리 저변이 확산하지 않은 이면에는 증가한 데이터의 양만큼 데이터 분석에 걸리는 시간도 비례하여 증가하면서 실질적인 효과를 얻기 어려웠기 때문이었죠. 빅데이터 분석이 실효성을 얻기 위해서는 대용량의 데이터를 저장 및 단순 조회할 뿐만 아니라 예측 분석과 같은 고급 분석에서도 기존처럼 짧은 시간 안에 결과를 얻을 수 있도록 고속 분석 성능이 필요합니다. 이는 제조 현장의 불량 분석이나 공정 분석 등이 짧아질수록 원가 절감 및 매출 향상에 막대한 영향을 줄 수 있기 때문에 고속의 분석시간은 가장 중요한 이슈입니다. 아래 그림은 사후 분석에서 자주 활용하는 Duncan Test를 오픈소스 R을 통하여 수행한 결과입니다.
실제 제조 현장에서 발생하는 데이터는 하루에만 수십 TB가 발생하기도 하는데, 테스트 데이터를 1GB까지만 테스트해도 R은 데이터 크기에 비례하여 실행시간이 급격하게 증가하므로 대용량 데이터 분석에는 적합하지 않습니다. 이는 R이 실행되는 서버의 메모리 크기에 성능이 종속하기 때문인데, 대용량 제조 데이터의 분석에서는 대용량 데이터를 분석할 수 있는 툴이 필요함을 보여줍니다. 삼성SDS Brightics 머신러닝과 같이 Spark 기반으로 병렬 및 분산 처리가 가능한 대용량 분석 솔루션은 데이터 크기에 상관없이 성능을 유지할 수 있는 확장성을 기본으로 제공합니다.
막대한 데이터를 처리하기 위해서는 데이터 라이프사이클에 대한 거버넌스가 필요합니다. 그중에서도 초기 단계에 데이터를 수집/저장하여 데이터 레이크를 구축하는 것은 많은 기업에서 성공하여 운영하고 있습니다. 하지만 데이터 레이크에서 데이터를 추출하여 각 분석 단계로 데이터를 흘려보내는 과정에서 느린 데이터 추출 속도와 비효율적인 저장 공간은 개선이 시급해 보입니다. 전통적인 분석에서는 분석용 데이터 마트를 별도로 구축하고 이 데이터 마트에서 데이터를 가져와 분석을 수행합니다. 하지만 일부 현장에서는 시시각각 쌓이는 데이터를 매번 데이터 마트로 구축하는 과정이 불필요해지면서, 각 분석 시스템이 데이터 레이크에서 데이터를 필요할 때 바로 가져와서 분석하곤 합니다. 이를 위해서는 데이터 레이크의 부하를 최소화하면서 빠른 속도로 데이터를 추출해 주는 기술이 필요합니다.
분석을 위한 기본 데이터는 제조 공장에 설치한 수만 개의 센서로부터 나옵니다. 이 센서 데이터의 저장소에 처음부터 Hadoop 기반으로 적재할 수도 있고, Hadoop에 적재한 데이터를 바로 분석할 수 있는 솔루션도 있지만, 아직 대부분의 제조 현장에서는 관계형 데이터베이스로 구축해서 저장합니다.
데이터베이스에 저장한 데이터를 빅데이터 분석 시스템으로 가져오기 위해 자주 사용하는 표준 인터페이스로 자바 환경을 위한 JDBC(Java Database Connectivity)가 있으나, 이는 데이터를 분산 저장하고 병렬 처리하는 빅데이터 분석 환경에 적합하지 않습니다. 많은 소프트웨어들이 이 문제를 해결하기 위해 다중쿼리 방식을 활용하죠. 그러나 다중쿼리 방식 역시 쿼리에 대한 응답속도 보장에는 한계가 있고, 복잡한 쿼리일수록 데이터베이스의 부담이 급격하게 증가하는 이슈가 존재합니다. 또한, 서버의 수만큼 연결이 생성되기 때문에 데이터베이스의 가용성을 떨어뜨리는 점, 전체 데이터의 분산 처리 능력을 높이거나 낮추기 어렵다는 점, 모든 서버가 데이터베이스와 연결이 가능해야 한다는 점 등이 문제점으로 지적되고 있습니다.
이와 같은 문제점들을 개선하기 위해서는 대용량 데이터에 적합한 새로운 추출 기능이 필요합니다. 이 추출 기능이 제공하는 핵심 기술은 마스터 서버(Master Server)가 데이터베이스와 JDBC 연결을 생성하는 것입니다. 이들 서버 간에 주고받는 패킷 데이터를 기반으로 가상의 데이터베이스 접속 환경을 제공하고, 슬레이브 서버(Slave Server)에 데이터를 균등하게 분산합니다. 또한, 마스터 서버의 실제 쿼리 수행이 끝난 시점에 데이터를 슬레이브 서버에 균등하게 분배하여 재균등화(rebalancing 및 repartitioning)와 같은 후처리 작업이 필요 없도록 데이터의 로컬리티(locality)를 보장합니다. 이는 추출 후 수행하는 분석 작업의 병렬 처리 속도를 비약적으로 향상하기 때문에, 전체적인 분석 모델의 수행시간을 크게 절감할 수 있습니다.
제조 공장에서는 데이터 분석을 할 때 원시데이터를 추출하는 쿼리를 조금씩 바꿔가며 특정 분석 모델을 수행하는 과정을 반복하여 의미 있는 분석 결과를 얻어내는 경우가 종종 있습니다. 이때 원시데이터를 가져오는 추출기의 성능은 분석 모델을 반복 수행할 수 있는 횟수와 직결되기 때문에 매우 중요한 요소입니다.
스마트 제조의 근간은 데이터 활용에 있습니다. 현재는 제조 현장의 데이터 라이프 사이클에 대한 거버넌스 체계를 확립해 가는 과정에 있으며, 관리하기 시작한 데이터를 곧 적시 적소에 활용할 수 있을 것입니다. 초기 단계의 데이터 시각화를 지나 사후 분석 중심의 제조 데이터 분석이 이루어지고 있습니다. 사후 분석에서는 무엇을 어떻게 해야 할 지에 대한 지식은 가지고 있으나 기술적인 문제로 초대용량 데이터에 적용하지 못했던 분석을 AI 기술과 빅데이터 기술의 결합으로 해결해 나가는 과정입니다.
대표적인 예가 품질 불량에 대한 원인 분석입니다. 사후 분석의 성과가 검증되면서 점차 사후 분석이 아닌 제조공정 중 실시간 분석으로 분석 시점이 앞당겨지게 될 것입니다. 그 이후에는 제조공정에 앞서 설계공정까지 분석 시점이 앞당겨질 것으로 예상합니다. 디자인 변경, 공정 변경, 소재 변경 등 막대한 비용이 필요한 파일럿 공정 및 시뮬레이션 과정이 있는데, 여기에 Predictive Analytics를 넘어 AI 기술을 접목한 Prescriptive Analytics를 제공하여 해결하는 시도가 머지않아 가시화될 것으로 예상합니다.
▶ 해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 기고자에게 저작권이 있습니다.
▶ 해당 콘텐츠는 사전 동의 없이 2차 가공 및 영리적인 이용을 금하고 있습니다.
삼성SDS 스마트팩토리사업부
2009년 미국 조지아텍 산업공학과 박사학위를 취득하고 싱가포르 국립대학교 산업공학과에서 연구원으로 근무하다가 2010년 9월에 삼성SDS 인프라사업부로 입사하였습니다. 현재 Data Scientist로서 다수의 빅데이터 과제를 진행하고 있으며 데이터분석 및 Data Scientist 양성과정을 개설하고 사내 강사로 활발히 활동하고 있습니다. 또한, CommonSDS뿐만 아니라 IE 매거진에도 빅데이터 관련 글을 기고함으로써 관련 지식을 전파하고 사내외 세미나를 통해 빅데이터 지식 교류 등 폭넒은 활동을 하고 있습니다.