loading...

업무 특화형 AI의 부상: 범용 AI를 넘어선 새로운 혁신

LLM의 대중성과 모델의 오류

대형 언어 모델(Large Language Model: LLM)의 상용화로 AI는 이제 모두가 쉽게 접근할 수 있는 공공재와 같은 도구가 되었다. IBM의 글로벌 기업 대상 조사[1]에 따르면, , AI 도입의 가장 큰 목적은 업무 프로세스를 자동화하여 소요 시간을 단축하고 생산성과 효율을 증가시키는 데 있는 것 AI 도입의 가장 큰 목적은 업무 프로세스를 자동화하여 소요 시간을 단축하고 생산성과 효율을 증가시키는 데 있는 것으로 나타났다. 이 외의 목적으로는 보안 및 위협 탐지, AI 모니터링 및 거버넌스, 비즈니스 분석과 인텔리전스 등이 있다. 이에 상용 비즈니스 애플리케이션에 AI 기능을 탑재하는 사례가 증가하고 있으며 더 쉽게 접근할 수 있는 AI 도구가 출시되고 있다. 특히 IT 자동화, 디지털 노동, 고객 관리 분야에서 많은 관심을 보이고 있다.

이미지1 [그림 1] 기업에서 AI 기술을 도입, 사용하는 분야 (출처: IBM)
  • 33% IT 프로세스 자동화
  • 26% 보안 및 위협 탐지
  • 25% AI 모니터링 및 거버넌스
  • 24% 문서 처리 및 플로우 자동화
  • 24% 비즈니스 분석 및 인텔리전스
  • 23% 고객 및 직원 셀프 서비스 자동화
  • 비즈니스 프로세스 자동화

생산성과 효율을 높이는 AI 도구들이 많이 나타나고 기업의 도입 희망도도 증가하고 있지만 동시에 도입을 결정하지 못하고 주저하는 이유도 있다. 2024년 9월에 공개된 OpenAI의 ChatGPT o1은 추론에 더욱 특화된 모델로 특히 과학, 수학 등 문제 해결 영역에 강점을 보인다. 매번 새로운 모델을 공개할 때마다 하이라이트를 받는 ChatGPT인 만큼 공개 직후 각 사용자의 테스트 결과가 소셜미디어를 통해 공유가 되었는데 사람에게는 너무나 간단해 보이는 소수점 숫자 크기 비교 문제로 ChatGPT 자체에 대한 품질 논란이 있었다.

필자도 ChatGPT o1 Preview 모델에 영어와 한국어로 간단한 생각 논리가 필요한 동일한 질문을 해보았다.

[그림 2] ChatGPT o1 Preview 모델 논리 테스트 캡쳐 이미지 [그림 2] ChatGPT o1 Preview 모델 논리 테스트

위 그림처럼 영어로 질문했을 때는 ‘father’라고 올바르게 답하였지만, 한국어로 질문했을 때는 ‘할아버지'라고 답하였다. 그러나 동일한 질문을 다시 한국어로 입력하였을 때는 ‘아버지'라고 다른 답을 내놓았다. 또한 고3 영어 모의고사 문제로 테스트할 때는 ‘Finished Thinking’이라는 완료 상태를 표시하였지만, 답은 내놓지 않았다. 이와 같은 문제로 품질 검수가 완성되지 않은 버전을 출시한 게 아니었냐는 평을 받기도 하였다.

AI 어시스턴트 도입이 어려운 이유

AI 어시스턴트는 일의 생산성과 창의성을 높이는 AI 도우미로 단어 뜻대로 나만의 비서이다. 대표적인 AI 어시스턴트로는 Microsoft 365 Copilot, 깃허브 코파일럿, Amazon CodeWhisperer가 있다. Microsoft 365 Copilot은 검색, 요약, 대화 등의 생성형 AI의 기본 기능을 넘어 오피스 프로그램에 통합되어 업무의 효율을 높이는 데 사용되고, 깃허브 코파일럿이나 Amazon CodeWhisperer는 코드를 작성하는 데 도움을 받을 수 있다.

이런 Microsoft 365 Copilot에도 서로 상충하는 의견이 나타난다. 코파일럿을 활용한 Microsoft Office 사용 후기에서 ‘유용하지만 여전히 오류에 대한 우려가 있다’는 의견이 굉장히 많다.[2] 예를 들어, 엑셀에서 선택한 셀의 데이터를 바탕으로 원형 차트를 생성해 달라는 명령을 했을 때, 항상 지정한 데이터를 제대로 사용하지 않는 경우가 있고, 데이터 인사이트 요약을 요청하면 대부분 '죄송하다'는 답변이 돌아오며, 파워포인트 슬라이드를 생성해 달라는 요청에 대해서는 낮은 텍스트 입력 한도로 인해 필요한 정보를 모두 입력하지 못하거나, 입력된 텍스트로 슬라이드를 만들 수 없다는 답변을 받는 경우가 많다. 이러한 이유로 기업 고객들은 모든 직원이 매달 30달러를 지불하며 코파일럿을 사용할 가치가 있는지 확신하지 못하고 있으며, 기대에 미치지 못한다는 의견이 많다. 실제로 PC 제조업체인 레노버는 기업용 코파일럿을 도입했지만, 한 달 후 직원들의 코파일럿 사용률이 20%나 감소했다고 한다.[3] 전반적으로 매력적인 기능을 제공하지만, 아직은 결과의 정확성이 부족한 미완성 제품이라는 평가가 주를 이루고 있다.

 엑셀 코파일럿의 대표적인 ‘데이터 인사이트’의 질문에 대한 에러답변의 캡쳐 이미지 [그림 3] 엑셀 코파일럿의 대표적인 ‘데이터 인사이트’ 에러 (출처: 미디엄)

의견이 다를 수 있는데, 이렇게 업무에 도움되는 AI 기능이 빠르게 출시되는 환경에서 모든 기업이 이를 반기기만 하는 것은 아니다. 만족할 만한 사용자 경험이 설계되어 있지 않거나, 전문 지식 분야에서 도입 가치를 크게 인지하지 못하기도 한다. 하지만 이보다 더 큰 걸림돌은 두 가지이다. 기업의 기존 IT 인프라에 통합하기 어려운 경우와 AI로부터 생성된 콘텐츠의 정확도와 신뢰도이다.

IBM과 모닝컨설트의 엔터프라이즈 리포트[4]에서는 기업의 AI 도입 또는 도입 시도가 가속화되는 추세이나, 여전히 AI의 고질적인 문제가 도입 장애물이라고 한다. AI를 사용하거나 배포하는 기업의 22%가 통합 및 확장에서 어려움을 느끼고 있고, AI 도입을 고려하는 제조기업의 44%가 AI 응답의 정확도를 의심하고 있다. 물론 기술 인재 부족에 대한 문제는 모든 기업이 공통적으로 갖고 있다. 2023년 이후 생성형 AI의 정확도에 대한 우려가 무려 5배나 증가한 것으로 나타났지만, 데이터 학습에 따라 성능이 향상되고 콘텐츠가 생성되다 보니 데이터 보안에 대한 우려도 동시에 커지고 있다.

이미지4 [그림 4] 기업의 AI 도입 방해 요인 (출처: IBM-Morning Consult)

기업의 AI 도립을 방해하는 주요 요인

  • 데이터 개인정보 보호 문제 57%
  • 신뢰 및 투명성 문제 43%
  • 도입을 위한 기술 부족 35%
  • 기타 3%

프로그래밍 코드 작성에 도움을 주는 깃허브 코파일럿은 오픈소스 코드 저장소에서 학습한 데이터를 기반으로 코드를 제안하는데, 이 과정에서 저작권이 있는 코드를 무단으로 사용될 수 있다는 우려가 제기되고 있다. 이는 오픈소스 개발자들의 권리를 침해하는 행위가 될 수 있을 뿐만 아니라 AI가 생성한 코드에서 발생한 버그나 보안 문제에 대한 책임 소재가 명확하지 않다는 점에서 기업들에 부담되는 일이다.

분야 생산성에 집중한 AI 서비스 등장

AI 도구 또는 기술을 도입한 기업에서는 최우선으로 기술 숙련도 향상에 투자하는 경향을 보인다. 검색 증강 생성(RAG, Retrieval-Augmented Generation) 기술을 통해서 생성형 AI의 주요 논란 주제 중 하나인 정확도를 높이기 위한 노력을 볼 수 있다. 검색 증강 생성은 LLM과 외부 지식 베이스를 결합하여 더욱 정확하고 신뢰할 수 있는 답변을 생성하는 기술이다. 미리 학습된 데이터만 사용하는 것이 아니라, 실시간으로 관련 정보를 검색해 사용함으로써 정보의 오류를 줄이고 최신 정보를 제공한다. 이런 이유로 최신 정보가 필요한 분야와 특정 도메인 등 특화된 지식 영역에서 유용하며, AI의 응답 정확성과 신뢰도를 높일 수 있다.

깃허브의 경우, 코파일럿의 보안에 대한 우려가 있었는데, 2024년 3월 보안상 문제가 있는 코드를 자동 수정해 주는 ‘코드스캐닝 오토픽스’ 기능을 출시하였다.[5] 깃허브 코드스캐닝 오토픽스는 개발 언어인 자바스크립트, 타입스크립트, 파이썬 코드에서 발생하는 보안 문제의 90%를 관리할 수 있으며, 발견된 취약점 중 대부분을 자동으로 수정한다. 이를 통해 코드 취약점이 이전보다 약 3배 빠른 속도로 해결된다는 것이 확인되었다. 또한, 악의적으로 데이터베이스를 조작하거나 정보 탈취 또는 악성 행위를 수행하게 하는 공격인 SQL 인젝션 및 크로스 사이트 스크립팅과 같은 다양한 보안 취약점도 수정할 수 있다.

깃허브 코드스캐닝 오토픽스 기능 사례 캡쳐 이미지 [그림 5] 깃허브 코드스캐닝 오토픽스 기능 사례 (출처: GitHub)

애플리케이션 결합, 보안의 강자 Amazon Q

기존 코파일럿의 문제를 보완하는 움직임과 함께 새로운 형태의 업무형 AI가 출시되고 있다. 비즈니스 애플리케이션의 버전에 따라 다른 모델 작동으로 인한 혼란, 결과 정확도, 신뢰성, 보안 등의 우려를 해결하면서 특정 영역에 똘똘한 AI 도구가 등장하고 있다.

Amazon Q는 고객 비즈니스에 맞춤화를 목표로 한 AI 어시스턴트이다. AWS를 기반으로 구축되어, 비즈니스 인텔리전스(BI), 고객 센터, 공급망 관리 등을 위한 생성형 AI 지원을 제공한다. 이 솔루션은 AWS 애플리케이션을 사용하는 고객이 업무를 보다 효율적으로 수행할 수 있도록 특화되어 있고, 조직이 생성형 AI를 안전하게 활용할 수 있도록 도와준다. Microsoft 365 Copilot과 유사하다고 생각할 수 있으나, AWS 애플리케이션뿐만 아니라 지라(Jira), 젠데스크(Zendesk), 세일즈포스(Salesforce) 등 업무 애플리케이션과의 협업에도 용이하고 개발, 보안에 특화되어 있다. Amazon Q는 정보와 조언을 기반으로 매우 특화된 지식을 제공함으로써, 의사 결정과 문제 해결을 가속하며 업무에서의 창의성과 혁신을 촉진하는 데 도움을 주는 것이 주목적이다. 기업 고객의 요구사항을 충족하도록 설계된 Amazon Q는 역할과 권한에 따라 각 사용자에게 맞춤형 상호작용이 가능하도록 개발되었다.

Amazon Q의 참고자료를 포함한 매우 구체적인 답변 캡쳐 이미지 [그림 6] Amazon Q의 참고자료를 포함한 매우 구체적인 답변 예 (출처: AWS)

기업 고객 입장에서는 AI가 학습하는 과정에서 기업 정보가 서비스 프로바이더에게 유출되거나 재학습에 사용될 수 있다는 보안 문제가 AI 이니셔티브를 사내로 확산하는 데 가장 큰 걸림돌이 된다. AWS에서는 이 점을 서비스의 최우선 순위로 정하고 정보 유출 및 재학습에 절대 사용하지 않는다는 것을 Amazon Q의 최대 강점으로 소개한다. 또한 Amazon CodeWhisperer를 통해 통합 개발 환경에서 Amazon Q를 활용하면 질문에 따라 참고자료가 포함된 답변을 제공하고 특정 프로그래밍 로직을 설명하여 타 코드를 무단으로 사용되지 않도록 함으로써, 생성된 정보의 정확도와 신뢰도를 높이며[6] 적용 가능한 코드와 자연어로 된 제안 설명을 제공한다.

Amazon CodeWhisperer를 이용한 코드 제안 구조도 이미지 [그림 7] Amazon CodeWhisperer를 이용한 코드 제안 구조도 (출처: AWS[7])

덧붙여, Amazon Bedrock을 함께 사용하면 고객은 AI 애플리케이션을 구축하는 데 필요한 대부분의 기능을 사용할 수 있으며 개발 과정을 빠르고 쉽게 간소화할 수 있다. 이처럼 Amazon Q는 아마존의 다양한 애플리케이션과 외부 툴에 접목과 연결이 가능하여 일관적인 사용자 경험과 AI 모델의 성능을 제공한다.

Amazon Q의 애플리케이션 확장성의 관한  Amazon Q 페이지 캡쳐 이미지 [그림 8] Amazon Q의 애플리케이션 확장성 (출처: AWS)

이제는 LMM, 세일즈포스 xGen-MM

텍스트 언어 기반인 LLM은 다양한 형태의 미디어를 통합한 결과물을 생성할 수 없어 입력하고 출력하는 정보의 한계가 있다. 만약 이미지를 프롬프트에 사용하고 싶으면 이를 텍스트로 변환하여 설명해야 한다. 이런 점을 보완한 모델이 바로 대형 멀티모달 모델(Large Multimodal Model, LMM*)이다. LMM*은 텍스트, 이미지, 음성 등 다양한 데이터 타입의 콘텐츠를 이해하고 동시에 생성할 수 있다. xGen-MM은 세일즈포스에서 공개한 오픈소스 멀티모달 AI 모델로, 시각적 언어 이해를 향상하는 데 중점을 둔 기술에 기반한다.[8]

이 모델의 중요한 특징으로는 인터리브 이미지-텍스트(Interleaved Image-Text) 처리가 가능하다는 것인데, 이것은 텍스트와 이미지 정보를 더 효과적으로 결합하여 보다 정확하고 풍부한 이해를 가능하게 하기 때문이다. 이 접근 방식은 다음의 다양한 이유로 중요하다.

텍스트와 이미지 간의 상호 보완성
텍스트와 이미지는 각기 다른 유형의 정보를 전달한다. 텍스트는 주로 구체적이고 서술적인 정보를 제공하는 반면, 이미지는 시각적, 공간적 정보를 전달한다. 인터리브 이미지-텍스트 처리는 텍스트와 이미지 간의 상호작용을 통해 두 정보가 서로 보완적으로 작용하도록 하여, 한쪽에서 설명하기 어려운 개념을 다른 쪽에서 쉽게 이해할 수 있게 한다. 예를 들어, 텍스트에서 특정 사물의 이름을 설명하고 이미지가 그 사물의 모양을 시각적으로 보여주면, 모델은 두 정보를 통합하여 더 나은 이해를 할 수 있다.

복잡한 의미 이해
교차 배열(Interleaving)을 통해 모델은 이미지와 텍스트 간의 관계를 더 잘 이해하고 처리할 수 있다. 이를 통해 텍스트에 대한 이해뿐만 아니라 이미지의 내용에 대한 문맥적 이해도 향상된다. 예를 들어, "이 강아지가 얼마나 행복해 보이나요?"라는 텍스트와 함께 강아지가 웃는 이미지가 주어지면, 모델은 행복의 개념을 이미지에서 추론하고 이를 텍스트로 연결할 수 있다.

자연스러운 데이터 표현
실제로 많은 멀티모달 상황에서 이미지와 텍스트는 번갈아 가면서 등장하거나 서로를 보완하며 등장한다. 웹페이지, 소셜 미디어, 프레젠테이션 등 다양한 환경에서 사람들은 이미지와 텍스트를 함께 사용하여 정보를 전달한다. 이처럼 교차 배열 방식은 자연스러운 데이터 표현 형식이기에, 이를 학습한 모델은 현실 세계의 데이터를 더 잘 처리할 수 있다.

컨텍스트 보존
이미지와 텍스트는 같은 맥락에서 상호작용을 할 때 중요한 정보가 상호 연결된다. 인터리브 이미지-텍스트 처리는 두 요소가 연속적이고 밀접한 관련이 있음을 모델에 명확하게 인식시킨다. 이 접근 방식은 이미지와 텍스트가 독립적으로 처리될 때 놓칠 수 있는 문맥 정보를 보존하게 한다. 예를 들어, 텍스트와 이미지를 순차적으로 배치하지 않고 완전히 별개로 처리하면, 모델은 텍스트의 의미와 이미지의 내용 사이에서 직접적인 연관성을 쉽게 파악하지 못한다. 이를 통해 정보 손실을 막을 수 있다.

다양한 응용 분야
인터리브 이미지-텍스트 처리는 여러 실제 응용 분야에서 중요한 역할을 기대할 수 있다. 예를 들어, 이미지 기반의 질문 응답, 설명 생성, 시각적 의사 결정 등을 할 때, 텍스트와 이미지를 교차 처리하여 정확한 응답을 제공할 수 있다. 자율 주행, 의료 이미지 분석, 또는 쇼핑 관련 애플리케이션에서는 이미지와 텍스트가 밀접하게 상호작용하는 상황이 많다. 이러한 상황에서는 인터리브 이미지-텍스트 처리가 필수적이다.

즉, 정리하면 AI가 텍스트와 시각적 데이터 등 다양한 소스를 결합하고 분석하여 더욱 풍부하고 유용한 결과를 도출하게 한다. 이로써 향상된 사용자 상호작용을 가능하게 하고 더욱 개인화된 응답을 제공한다. 마케팅을 위한 자료 생성, 복잡한 의사 결정 지원 등 다양한 상황과 목적에 맞게 활용하기에 적합하다.

모델 아키텍처 이미지 [그림 9] xGen-MM (BLIP-3) 모델 아키텍처 (출처: Salesforce)

xGen-MM의 도입으로 기업의 업무 영역에서 품질 향상이 기대된다. AI 챗봇을 활용한 고객 응대 시에도 이미지와 텍스트, 음성에 사용된 단어 및 톤 등을 종합적으로 분석하여 고객에게 공감하고 맥락을 이해하는 답변이 가능하며 마케팅에 적용하면 더욱 설득력 있고 성과 추적이 가능한 캠페인 생성이 가능하다. 게다가 다양한 데이터 타입들을 병합적으로 이해하고 콘텐츠를 생성할 수 있기에 다양한 형태의 데이터를 쌓는 전문 분야에서도 용이하다.

예를 들어, 헬스케어 영역에서는 사진 등으로 기록된 의료기록을 파악하여 정확한 진단이 가능하고, 금융 업계에서는 다양한 시장 보고서, 뉴스 기사, 차트 등을 이해한 AI를 통해 더 나은 투자 의사 결정이 가능할뿐더러 더 정교한 분석과 예측을 통해 고객 서비스, 판매 예측, 마케팅 자동화 등에서 개선된 성능을 발휘할 수 있다.

xGen-MM 프레임워크에는 안전 튜닝 프로토콜이 통합되어 있어, 편향되거나 잘못된 정보 제공과 같은 정확도 및 신뢰도 문제를 줄이는 데 도움이 된다. xGen-MM은 세일즈포스 Customer 360, 아인슈타인 AI 등 기존 AI 도구들과 통합되어 업무 효율성을 높이고, 다양한 산업 분야에서 더 나은 의사 결정을 지원하는 데 사용될 예정이다. 기존 세일즈포스 기능과의 통합으로 기업 고객은 기존 시스템을 대대적으로 변경할 필요 없이 멀티모달 AI의 강력한 기능을 활용할 수 있어, 사용자 업무에 도입 과정이 더욱 간편해졌다.

마무리

가트너 리서치에 따르면, 2027년까지 전문 개발자의 70%가 AI 기반 코딩 도구를 사용할 것으로 전망한다.[9] 2023년 9월 기준, 개발자의 AI 코딩 도구를 사용하는 것이 10% 미만인 것에 비하면 매우 폭발적인 성장이다. 이러한 성장에는 AI 기술들의 발전이 뒷받침되어 있다.

하지만, 기술이 성숙해질수록 코딩 도구들의 발전과 같은 일반적이고 포괄적인 AI 기술을 넘어, 특정 영역에 특화되어 기업 업무를 혁신하고 생산성을 극대화하면서 안전하게 수행하는 기술이 중심이 될 것이다. 지금까지 등장한 AI 도구의 아쉬운 점인 낮은 수행 정확도 및 데이터 신뢰도, 업무 영역의 한정적인 확장성, 그리고 취약한 보안을 보완하는 기능이 앞으로는 생성형 AI의 핵심이 될 것이다.

기존 여러 비즈니스 애플리케이션과의 일관적인 결합과 데이터를 빠르게 분석하고 요약해 주며, 이를 기반으로 비즈니스 사용자가 더 빠르고 정확한 의사 결정을 내릴 수 있도록 지원하는 다양한 형태의 데이터 활용, 그리고 강력한 보안과 프라이버시 보호 기능을 고려한 데이터 학습을 통해 더욱 정확한 결과물 생성이 가능해질 것이며 비즈니스에 특화되어 업무의 효율과 능률을 상승시키는 AI 에이전트나 어시스턴트가 강력한 게임체인저가 될 것으로 전망한다.

References
[1] IBM, Global AI Adoption Index 2023 , Jan 10, 2024
[2] PCWorld, Copilot Pro: What can Microsoft 365’s premium AI do?l, Apr 8, 2024
[3] The Wall Street Journal, Early Adopters of Microsoft’s AI Bot Wonder if It’s Worth the Money, Feb 13, 2024
[4] Morning Consult-IBM, “ IBM Global AI Adoption Index – Enterprise Report”, Nov 23, 2023
[5] Github, Found means fixed: Secure code more than three times faster with Copilot Autofix, Aug 14, 2024
[6] AWS, “ Amazon Q brings generative AI-powered assistance to IT pros and developers (preview)”, Nov 28, 2023
[7] AWS, “ Customizing coding companions for organizations”, Nov 09, 2023
[8] Salesforce, ” xGen-MM (BLIP-3): A Family of Open Large Multimodal Models”, Aug 19, 2024
[9] Gartner, Set Up Now for AI to Augment Software Development, Sep 21, 2023

▶   해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 기고자에게 저작권이 있습니다.
▶   해당 콘텐츠는 사전 동의 없이 2차 가공 및 영리적인 이용을 금하고 있습니다.


이 글이 좋으셨다면 구독&좋아요

여러분의 “구독”과 “좋아요”는
저자에게 큰 힘이 됩니다.

subscribe

구독하기

subscribe

김영욱
김영욱

SAP France의 Senior Program Manager

한국에서 컴퓨터 공학을 전공 후, 7년간 한국후지쯔에서 개발자로 근무하고, 1998년 프랑스 파리로 이주하여 Business Objects에서 개발 매니저와 프로그램 매니저를 거쳐, 현재 SAP의 클라우드 ERP 엔지니어링 그룹의 시니어 프로덕트/프로그램 매니저로 근무 중입니다. 책 <프로덕트 매니지먼트>의 저자입니다.

공유하기