loading...

챗GPT! 대화형 AI 챗봇에 꼭 필요한 4가지 인터랙션

챗GPT와 같은 대화형 AI 설계의 한계를 극복하자

챗GPT와 같은 거대 언어 모델(LLM: Large Language Model)이 등장하면서 대화형 AI에 대한 관심이 크게 높아졌다. 챗GPT는 사용자와의 대화 맥락을 이해한 텍스트 생성을 통해 자연스러운 소통을 한다는 점에서 이전 대화형 챗봇이 갖는 한계를 깨고, 기술의 가능성을 한 단계 증명했다고 볼 수 있다. 나아가 이런 기술진보의 경향은 이미지, 텍스트, 음성, 비디오등 여러 인터페이스를 통해 정보를 주고받는 멀티 모달(Multi Modal)로 까지 기술 적용의 범위가 확대되면서, 다양한 산업에서 넓은 인터랙션 범위와 특성을 가진 대화형 에이전트가 등장할 것이라 예상할 수 있다.

OpenAI와 함께 이러한 움직임을 촉발시켰던 마이크로소프트는 Bing, Dynamics 365, Teams 등에 챗GPT 기반의 Copilot 기능을 확대 적용하고 있다. 이러한 움직임은 Google[1]이나 Zoom[2]도 플랫폼 내에 대화형 AI 기능을 포함시킬 것이라는 계획을 발표하게 만들었다. 플랫폼과 대화형 AI 기능을 결합하여 제품 사용 과정에서 발생하는 사용자 문제를 즉시 해결하고, 슬라이드 작성, 검색 등의 작업 과정 내에서 사람과 AI 에이전트가 협업하는 구조로 사용자 경험이 발전하고 있다.

마이크로소프트 365에 결합된 코파일럿 기능 화면 [그림 1] 마이크로소프트 365에 결합된 코파일럿 기능 (출처: 마이크로소프트)

국내에서도 다양한 영역에서 챗GPT의 API를 활용한 대화형 AI 서비스들이 빠르게 등장하고 있다. 국내 개발사인 업스테이지(upstage.ai)는 챗GPT와 OCR 기술을 결합하여, AskUp(아숙업)이라는 카카오톡 플러그인 서비스를 시작했다. 국내 사용자에게 친숙한 카카오톡 플랫폼을 통해 챗GPT기반의 질문 서비스를 제공함과 동시에 자사의 OCR 기술의 채널과 인터페이스를 확장하려는 전략으로 보인다. 업스테이지 정보에 따르면 해당 서비스는 일주일 만에 카카오톡 채널 친구 10만 명을 돌파했고, 4월 기준 80만 명을 넘어섰다고 한다. 하지만, 장기적인 제품 라이프사이클 관점에서 그 서비스를 보았을 때는 아직 독자 제품으로서의 아이덴티티와 대화형 에이전트가 제공하고 있는 기능의 연관성은 다소 모호한 것으로 보인다. 이처럼 빠른 적용을 통해서 시장 선점 효과를 만들기는 했지만, 사용자와 협력적인 관계를 유지하면서 장기간 사용되고 있는 대화형 AI 제품은 아직 없다고 할 수 있다. 마이크로소프트의 코파일럿 사례처럼 플랫폼 내에서 연속적이고, 확장적인 사용자 경험을 만들어내기 위해서는 AI가 자동화하여 가치를 줄 수 있는 역할을 뚜렷하게 정의하고, 사용자의도와 그 소통 방식에 맞춰 정보를 제공하는 개인화 경험, 인터페이스에 대한 본질적인 고민이 필요하다. 대화형 사용자 경험에 대한 제품 설계 시 고려해야 할 인터페이스적 특성과 주의할 점에 대해서 살펴보도록 하자.

대화형 사용자 경험(CONVERSATIONAL UX)

대화형 사용자 경험(Conversational UX; 이하 CUX)은 자연어를 기반으로 한 인터랙션 방식을 말한다. 챗봇, 가상 에이전트, 가상 어시스턴트, 음성 인터페이스 등 자연어, 대화를 기반으로 한 제품, 서비스의 경험은 모두 CUX라고 할 수 있다. CUX가 등장하기 전까지 사용자는 시스템을 사용하기 위해서 복잡한 GUI의 정보 구조, 버튼 인터페이스의 어포던스(affordance: 물리적/디지털 객체와 사람 사이의 사용 방법) 등을 학습하고 적응해야 했다. 하지만 시스템이 자연어 처리 기술을 통해 소통하는 방법을 제공하게 되면서, 사용자는 많은 학습 없이도 인터페이스를 이해하고 사용할 수 있게 되었다[3]. 뿐만 아니라 시스템이 대화의 연속적인 맥락을 이어 나갈 때, 다른 인터페이스에 비해 더욱 연속적이고 확장적인 사용자 경험을 제공할 수 있다. 즉 대화 과정에서 얻은 정보를 활용해서 더욱 개인화된 사용자 경험을 제공할 수 있다는 뜻이다. CUX는 효율적이고 쉽게 정보에 접근할 수 있고 더욱 직관적으로 필요한 정보를 인식하고 수용할 수 있다. 때에 따라서 대화는 의인화의 속성을 포함하기 때문에, 사용자에게 공감과 신뢰의 감정을 제공하기도 한다.

인간과 로봇의 CUX 인터랙션 [그림 2] CUX 인터랙션

이와 같은 이점에도 불구하고 챗GPT이전까지는 인터페이스의 한계로 인해서 대화형 AI의 활용률은 낮았다. 서비스 이용 전에 기대했던 것에 비해 시스템이 동작할 수 있는 대화의 형태와 시나리오는 매우 한정적이었다. 대화를 만드는 UX 디자이너가 직접 대화의 텍스트 내용과 플로우 등을 설계해야 했기에 기능의 확장성은 매우 제한되었다. 대화형 AI 제품을 이용해 보며 시스템이 제공하는 기능과 한계를 경험해 본 사용자는 이전에 기대했던 것에 비해 훨씬 축소된 멘탈 모델을 형성하고 대화형 에이전트의 가치를 낮게 평가할 수밖에 없었던 이유이다.
덧붙여, 대화에 국한된 인터랙션 방식은 내용, 맥락을 이해하거나, 자연스러운 턴-테이킹(Turn Taking)[4]이 되지 않아, 대화의 과정에서 사용자에게 많은 불편감을 준다. 고객이 특정 금융 서비스 등에 대해서 알고자 할 때, 대화의 내용이나 맥락을 이해하지 못해 적절한 서비스가 연계되지 못하는 경우는 너무나 빈번한 예이다. 인력 비용 절감 등 공급자 주도의 대화형 에이전트 서비스를 도입하지만, 그 결과는 고객불만이 더욱 증가된 경우이다.

적절한 패턴과 유형의 에이전트 인터랙션 설계

위의 예와 같은 한계를 보완하기 위해, 인터랙션 유형을 명확히 이해하고 적절히 혼용해서 구현해 내는 것이 중요하다. 이전까지 산업에서 활용되고 있는 대화형 에이전트의 인터랙션 유형은 크게 4가지(System-centric, Content-centric, Visual-centric, Conversation-centric)로 구분할 수 있다[5]. 4가지 유형의 상호작용 방식은 대화의 목적과 맥락에 따라서 각각 다른 측면의 인터랙션 방식을 강조한다.

(1) 시스템 중심 유형 (SYSTEM-CENTRIC STYLE)

시스템 중심 유형(System-Centric Style)의 인터랙션에서 에이전트는 하나의 클래스에 해당하는 사용자의 명령만 인식하고 응답한다. 예를 들어, “음악 틀어줘", “삼성동 맛집에 대해서 검색해 줘" 등과 같이 간단한 사용자의 명령에 응답하여, 특정 동작을 실행하는 형태이다. 이 유형은 주로 웹 검색이나 음성 제어에 쓰이며, 만약 사용자가 인터페이스의 응답에 대해 추가적인 대화를 이어가고자 할 경우, 시스템은 이를 더 이상 인식하지 못하는 단점이 있다. 이와 같은 한계 때문에 사용자가 연속적으로 여러 가지 명령을 요청하더라도, 시스템은 이전까지의 대화 내용이나 맥락을 잊어버린 채, 새로운 대화인 것처럼 인식하고 실행한다.

카카오 내비에서 시스템 중심 유형의 인터랙션 사례 [그림 3] 카카오 내비에서 시스템 중심 유형의 인터랙션 사례

(2) 콘텐츠 중심 유형 (CONTENT-CENTRIC STYLE)

인터랙션 측면에서 콘텐츠 중심 유형과 시스템 중심 유형은 동일한 패턴을 가지고 있다. 하지만, 콘텐츠 중심 유형은 웹 페이지 상에서의 FAQ와 같이 텍스트 기반의 길고, 자세한 설명을 제공하는 형태의 인터랙션 방식이다. 시스템 중심 유형과 같이 2 턴 이하로 시퀀스가 제한되지만, 에이전트는 사용자의 질문에 대해, 세부 사항과 예시를 들어가며 자세한 응답을 제시한다 예를 들어, 챗GPT의 응답 방식이 전형적인 콘텐츠 중심 유형이라고 볼 수 있다.

User
  • tell me about when Christopher Columbus came to the in 2015
chatgpt
  • this question is a bit tricky because Christopher Columbus died in 1506,so he could not have come to the US in2015,but let's pretend for a moment that he did!
    if Columbus arrived in the US 2015, he would likely be very surprised at the changes that have
    occurred since he first landed in the "new world" in 1492.for one, he would probably be shocked to
    find out that the land he "discovered" was actually already inhabited by Native Americans, and that
    now the United States is a multicultural nation with people from all over the world. he would likely
    also be amazed by the advances in technology,from the skyscrapers in our cities to the smartphones
    anymore;in fact,some people argue that he was a brutal conqueror who enslaved and killed native
    people. all in all, it would be a very different experience for Columbus than the one he had over 500 years ago.
[그림 4] 챗GPT의 콘텐츠 중심 유형 인터랙션 사례

(3) 시각 중심 유형 (VISUAL-CENTRIC STYLE)

시각 중심 유형은 웹 및 모바일 인터페이스를 보조하는 형태로, 자연어, 텍스트 중심의 인터랙션을 제공하는 방식이다. 시각 중심 유형에서는 자연어 응답과 함께 버튼이나 목록과 같은 그래픽 기반의 인터랙션이 상호작용 과정에 포함된다. 예를 들어, 특정 카카오톡 챗봇을 처음 실행할 때, 챗봇이 수행할 수 있는 작업의 종류를 버튼의 형태로 사용자에게 제공하여, 선택권을 제공하는 케이스 등이 이 유형에 해당한다. 어느 정도 예측 가능한 사용자 패턴에 대해서는 사전에 정형화시킨 카테고리를 기반으로 버튼, 목록 등을 제시해서 텍스트를 직접 입력하는 것에 비해 좀 더 빠르게 원하는 결과를 얻어낼 수 있다. 제시된 케이스 중 사용자가 원하는 명령이 없을 경우, 직접 텍스트를 타이핑해 시스템에 작업을 요청하는 수순을 따른다.

카카오톡 주문하기에서 시각 중심 유형의 인터랙션 사례 [그림 5] 카카오톡 주문하기에서 시각 중심 유형의 인터랙션 사례

(4) 대화 중심 유형 (CONVERSATION-CENTRIC STYLE)

대화 중심의 인터랙션 유형은 사람의 상호작용 방식과 가장 유사한 형태이다. 해당 유형은 대화의 속성 등을 이해하고 관리할 수 있는 대화 관리(Dialog Management) 기능이 내재화되어 있다. 이는 직접적으로 목적과 의미가 내포된 대화뿐만 아니라, 대화의 양, 질, 관련성, 태도 등과 같이 대화에 담긴 여러 사용자의 맥락을 이해하고 응답한다. 대화 중심의 인터랙션은 주로 짧고, 연속적인 대화로 구성되며, 사용자는 속도감 있게 시스템과 상호작용하고 원하는 결과를 도출해 낼 수 있다.
대화 중심 유형을 사용하면 목록이나 문서를 제공하는 것 대신 구체적이고 요약된 답변을 사용자에게 제공할 수 있다. 또한 응답의 내용을 짧게 압축하되, 사용자의 필요에 따라 여러 턴에 걸쳐 대화하며 주제를 확장할 수도 있다. 대화의 방식을 사용자의 지식수준이나 선호하는 대화 형식에 맞게 조절할 수 있으며, 짧은 단위의 대화로 구성되어 있기 때문에 인터페이스의 제약 없이 모바일, 스피커 등에서 작동할 수 있다.

튜닙의 챗봇, 대화 중심 유형의 인터랙션 사례 [그림 6] 튜닙의 챗봇, 대화 중심 유형의 인터랙션 사례

대화형 AI의 발전으로 기술적인 장벽이 해소되면서 4가지 스타일 중 대화 우선(Conversation-First) 전략으로 시스템의 인터랙션 방식이 많이 변화하고 있다. 하지만 중요한 것은 “모든 대화는 인터랙션이지만, 모든 인터랙션이 대화는 아니다.”라는 것이다. 상황에 따라서 대화가 오히려 다른 인터페이스에 비해 비효율적이거나, 사용자의 불편을 야기하는 경우도 있기 때문에 사용자의 목적, 방식에 맞게 적절히 여러 유형을 혼용해야 한다.

이를 위해서는 먼저, 대화라는 매개를 무조건적으로 사용하지 않고, 사용자의 목적과 인터랙션 순간에서 대화형 인터페이스가 다른 인터페이스에 비해 효율적으로 작동할 수 있는 상황을 정의하는 것이 우선이다. 나아가 대화로 시작했지만, 콘텐츠, GUI 등 다양한 유형의 모달과 인터페이스를 상호 보완적으로 활용하며, 사용자 경험을 풍부하게 만들어야 한다. 마이크로소프트 365의 코파일럿 기능은 대화형 인터페이스와 파워포인트 등의 문서 작업 등을 연동했고, 휘발성이 강한 대화형 인터페이스의 한계를 보완하여 요청의 결과물을 즉시 시각적으로 확인할 수 있게 했다. 대화, 작업의 대상이 되는 플랫폼, 버튼 인터랙션의 조화를 통해, 연속적인 사용자 경험 선상에서 적절하게 AI와 사용자가 협업하는 구조를 이뤄낸 것으로 훌륭한 결과라고 볼 수 있다.

대화의 목적에 맞는 대화 시나리오 구성

4가지 인터랙션 패턴을 적절히 섞어서 구성하여, 대화의 목적에 맞는 대화 시나리오를 구현할 수 있다. 가벼운 목적의 대화나, 유저의 목적이 뚜렷할 경우, 사용자가 에이전트에게 특정 작업을 요청하고 수행하면 마무리하는 식의 대화가 이루어질 수도 있다. 하지만 검색 등 유저의 목적이 불명확하거나, 추천 등을 원할 경우 짧은 대화 기반의 턴테이킹을 통해서 인터랙션 하되, 발견되는 유저의 의도에 따라서 대화의 깊이나 범위를 확장해 나가는 방식으로 시나리오를 구성할 수도 있다. 교육, 의료, 산업별 적용 도메인에 따른 지식과 인터랙션 패턴에 따라 구현될 수 있는 시나리오는 매우 다양합니다. 아래 4가지 예시 케이스를 참고한다면, 대화형 인터랙션의 목적, 인터랙션의 대상이 되는 에이전트의 메타포어, 성격에 따라 적절한 시나리오를 구성할 수 있다.

1. 일상형 대화(Ordinary Conversation) : 일상형 대화는 간단한 정보를 교환하거나, 다른 사람과 친밀감을 형성하고자 할 때, 가볍게 나누는 형태의 대화 시나리오이다. 가족, 친구 등 가까운 사람과 나누는 듯한 형태의 대화이며, 뉴스 전달, 안부 확인, 조언, 잡담 등이 이러한 대화의 예시에 해당한다. 대화형 에이전트를 설계할 때에는 에이전트를 소개하거나, 대화 주제를 전환, 환기시키고자 할 때, 일상형 대화 시나리오를 구현하면 효과적이다.

2. 서비스형 대화(Service Conversation) : 은행원, 고객 서비스 상담원 등 서비스 제공자와 요청자가 나누는 대화의 형태다. 이 대화 시나리오에서 고객 및 소비자가 서비스를 먼저 요청하면, 서비스 제공자는 정중하게 인사하고, 자신을 소개하며, 서비스 요청자의 목적에 맞는 서비스를 연계한다. 여기서는 주로 시스템 중심 패턴을 사용한다. 일반적인 예시로는 ARS, 전화 상담에서 이루어지는 대화가 이에 해당되며, 이러한 형태의 대화 시나리오가 실제 금융, 민원 등의 서비스 챗봇에 구현되어 있다.

3. 교수, 학습형 대화(Teaching Conversation) : 학습 환경에서 선생님이나 튜터 등과 나누는 대화와 같이, 특정 지식을 학습시키기 위한 목적으로 제공되는 대화를 의미한다. 문제풀이, 학습 과정에서 학생이 스스로 해결하지 못하는 부분에 대해 설명을 요청하면, 대화의 대상이 되는 선생님, 튜터는 몇 차례 대화를 통해 학생이 어려워하는 부분을 파악하고 문제를 푸는 데에 필요한 지식과 방법을 제공한다. 때에 따라 튜터는 학생의 교육적인 효과를 극대화시키기 위해 답을 즉시 알려주지 않고, 학생이 스스로 문제를 해결할 수 있도록 유도하는 스캐폴딩(Scaffolding) 방식의 대화 패턴을 구성하기도 한다. GPT-4 기술이 처음 출시되었을 때, Open AI는 ‘Steerability: Socratic tutor[6]’라는 사용자 사례를 소개하며, 스캐폴딩(Scaffolding) 방식의 대화가 이제 가능하다는 점을 부각했다. 교육 플랫폼인 Khan Academy는 GPT 기술을 바탕으로 스캐폴딩 방식의 대화 시나리오를 구성하여, Khanmigo[7]라는 어시트턴트 기능을 소개했다.

4. 카운슬링형 대화(Counseling Conversation) : 치료사, 상담사 혹은 조언자 등과의 대화에서 주로 발견되는 인터랙션 패턴이다. 이 대화에서 내담자는 자신의 고민에 대한 조언을 구하고, 상담자는 고민을 경청하고 조언을 제공한다. 심리 치료에서는 치료사가 먼저 질문하고 환자가 답변하는 형태로 대화가 이루어지기도 한다. 또한 대화의 전환, 환기, 재해석 등 상담 쓰이는 특수한 전문 대화 스킬이 반영되기도 한다. 타로 및 상담 챗봇 서비스인 ‘헬로우봇(thingsflow.kr)’는 이러한 카운슬링 방식의 대화 시나리오를 잘 구현한 사례라고 할 수 있다. 캐릭터로 형상화된 에이전트가 사용자의 고민을 듣거나, 심리 검사 등을 제시하고 상담 서비스를 권유한다. GPT 등 AI 기반의 인터랙션이 들어가지 않았음에도 에이전트에게 적절한 역할과 친근한 관계 형성, 잘 구성된 인터랙션을 통해서 다수의 사용자를 확보한 서비스이다.

Khan Academy와 헬로우봇의 대화 인터랙션 예시 화면 [그림 7] Khan Academy와 헬로우봇의 대화 인터랙션 예시

대화형 에이전트 경험 디자인을 위한 5가지 요소

앞서 언급한 바와 같이, 챗GPT 이전까지 구현할 수 있는 대화의 시나리오는 매우 한정적이었다. 대화 흐름을 직접 구성하고, 사용자의 다양한 의도를 맵핑해야 되었으며, 사용자의 텍스트 내용을 일일이 디자인하는 등 하나의 시나리오를 구현하는 데에 많은 시간과 비용이 소요되었다[8]. 이로 인해 사용자는 서비스를 경험하며, 제공되는 서비스 시나리오의 한계를 경험하고, 대화형 에이전트에 대한 기대와 멘탈 모델을 축소시킬 수밖에 없었다. 챗GPT 기반의 생성형 AI 기술이 등장하면서 프롬프트 작성만으로 대화의 흐름을 구성하고, AI에게 대화 방식에 대한 가이드를 제공하여 원하는 형태의 아웃풋을 얻어낼 수 있게 되었다. 또한 텍스트 생성을 통해 대화 시나리오를 확장적으로 구현할 수 있으며, 에이전트가 제공할 수 있는 정보 제공 서비스의 범위가 넓어졌다. 이를 활용해 앞서 언급한 인터랙션 유형과 패턴을 지시한다면, 지금보다 한 단계 더 나은 대화형 인터랙션 경험을 제공할 수 있을 것은 분명해 보인다.

User / system agent
  • happy path
User / system agent
  • repair path
[그림 8] 네이버 클로바 챗봇의 대화 흐름 구성 및 디자인 과정

미래의 대화형 AI의 가능성은 무궁무진하게 확장될 것이라는 점은 분명하다. 하지만 대화라는 인터페이스 자체가 지닌 한계를 고려해, 세심하게 대화 시나리오와 인터랙션을 구현하지 않는다면 오래 지속되기는 어려운 서비스가 될 가능성이 높다. 또한 플랫폼과의 결합을 통해 상호 보완적인 역할과 가치를 만들어내야만 더욱 실재감이 높은 에이전트 서비스가 될 수 있다. 대화형 에이전트의 명확한 역할과 가치를 창출하기 위해 가장 먼저 해야 할 것은 제품의 핵심 고객 가치 제안(Customer Value Proposition)을 기준으로 필요한 구현 시나리오 범위를 설정하고, 로드맵을 구성하는 것이다. 이를 바탕으로 대화가 오히려 번거로운 수단이 되지 않도록 내용의 간결성. 그리고 AI의 오인식과 에러 등의 상황에서 유저의 목적과 의미에 대해서 되묻는 등의 오류 회복 메커니즘을 설계하는 등의 노력이 필요하다. 완성도 높은 에이전트 경험을 위해 우선순위가 높은 대화 시나리오에 대해 아래 5가지 요소[9]를 순차적으로 고려하며, 섬세하게 인터랙션을 설계하는 것을 추천한다.

1. 대화 작업(Conversational Task) : 대화형 에이전트가 수행해야 할 구체적인 태스크를 의미한다. 사용자에게 가치를 제공하기 위해서는 챗봇이 제공해야 하는 태스크를 식별하고, 시나리오를 모형화하는 것이 중요하다.

2. 성격(Personality) : 챗봇에 의인화된 성격을 부여하는 것을 의미한다. 대화의 수준에 따라 성격을 부여하는 것이 필요할 수도, 그렇지 않을 수도 있다. 대화형 에이전트에 성격을 부여하기로 결정하게 되면, 기업 혹은 제품의 브랜드 이미지와 일관된 방식으로 에이전트의 명칭, 페르소나, 캐릭터, 대화 스타일 등을 설정할 수 있다.

3. 관계(Relationship) : 대화형 에이전트가 사용자와 맺게 될 관계의 양상을 지정한다. 에이전트가 사용자와 단기적인 관계를 맺고 요청된 태스크만 수행하면 되는지, 혹은 사용자와 정기적으로 인터랙션 하며 관계를 형성할지를 고민해야 한다. 사용자와 대화형 에이전트가 장기적인 관계를 맺는 경우, 자주 반복되는 작업에 대해서 에이전트 선제적으로 작업을 추천하는 등의 서비스를 할 수 있다. 뿐만 아니라 백그라운드 내에서 이전에 사용자 활동 등을 기억하고 대화 방식을 유연하게 조정할 수 있다.

4. 백그라운드 작업(Background Tasks) : 실 생활의 다양한 정보/서비스를 연계하기 위해서 에이전트는 사용자와 대화하면서 사용자의 요청에 대한 작업을 백그라운드에서 수행해야 한다. 예를 들어, 사용자가 특정 상품을 구매하는 태스크를 수행할 때, 대화형 에이전트는 백엔드에서 데이터 베이스에 접속해서, 검색, 제품 정보 가져오기, 카트 생성, 결제 등의 태스크를 수행해야 한다.

5. 폴백 메커니즘(Fallback mechanism) : 대화형 에이전트가 사용자가 원하는 과업을 명확히 이해하지 못할 경우, 제시할 수 있는 대체 경로를 설계한다. 예를 들어, 대화형 에이전트가 특정 사용자의 의도를 식별하지 못하거나, 추천/제공한 정보와 서비스가 사용자의 선택을 받지 못한 경우에, 웹 링크 연결, 상담원 연결 등 대체 경로를 제시하고 사용자가 통제권을 가지고 목적 과업을 달성할 수 있도록 지원한다.

향후 과제

기존 제품/플랫폼과 결합하여, 더욱 개인화된 에이전트 경험을 제공하기 위해서는 인터페이스를 넘어 본질적으로 사용자가 접하는 정보 자체에 대한 신뢰도를 높여야 한다. 현재 사용자는 환각(Hallucination) 현상 등으로 인해서 챗GPT 기술의 응답 결과를 신뢰할 수 없는 경우가 많다. 특히 교육이나 헬스케어 분야에서는 부적절한 정보가 심각한 결과를 초래할 수 있기에 웹 정보 기반의 GPT 결과에 온전히 의존할 수 없다. 이러한 케이스에서는 신뢰할 수 있는 도메인 지식을 쌓아두는 데이터 베이스를 형성하고, 해당 지식을 기반으로 추론 및 응답할 수 있도록 백그라운드 작업을 설계해야 한다. 또한 인터페이스적으로도 신뢰도 높은 정보와 그렇지 않은 정보를 구분할 수 있도록 장치를 마련해 주는 것이 필요하다. 최근 챗GPT와 관련해서 정보의 출처와 근거를 제시하도록 설계하여 정보의 신뢰도와 사용자의 제어를 용이하게 하려는 시도들도 많이 등장하고 있는 것이 이 이유이다.

다음은 대화 내 문맥을 잘 이해함과 동시에, 사용자 정보 및 대화 이력에 대한 기억을 강화해야 한다. 대화형 에이전트의 경험의 범위가 확장되기 위해서는 주어진 태스크를 잘 수행하는 것을 넘어, 연속적으로 사용자의 작업을 효율적으로 관리하고 적합한 정보, 서비스를 선제적으로 연계하는 것이 필요하다. 현재의 LLM은 대화를 벗어난 사용자의 정보를 저장하고 있지 않기 때문에, 별도의 데이터 베이스를 통해 사용자 정보를 저장하고 서비스 제공 시점에 이를 적절히 그라운딩(Grounding)할 수 있도록 유도해야 한다. 실제로 마이크로소프트 코파일럿의 경우, MS Graph 기능을 통해 마이크로소프트 365 내에서 일어나는 사용자의 활동을 저장하며, 이를 요약적으로 챗GPT에게 제공하여 보다 더 적절한 결과물을 제공할 수 있도록 지원한다[10].

마지막으로, 대화형 인터페이스의 한계를 보완하며 연결성 있는 사용자 경험을 보장하기 위해서, 버튼 사진 등 입출력 모달을 확대하여 더욱 풍부한 경험을 가능하게 해야 한다. 버튼, 사진, 미리 정의된 템플릿 등을 활용하는 것은 텍스트 기반의 대화를 직접적으로 연계하여 더욱 풍부하게 만든다. 오히려 불필요하게 대화가 길어지는 것을 막고 텍스트를 입력하는 것에 비해 빠른 인터랙션을 이끌어낼 수 있습니다. 지금까지 대화형 AI 제품 디자인 시 사용자 경험을 극대화하기 위해 고려해야 할 인터페이스 특성과 시나리오 구성, 주의할 점에 대해서 살펴보았다. 확장적인 사용자 경험을 만들어내기 위해서는 AI의 역할에 가치를 줄 수 있는 부분을 뚜렷하게 정의하고, 사용자 의도와 그 소통 방식에 맞춰 정보를 제공하는 본질적인 고민이 꾸준히 필요하다.



References
[1] SearchEngineJournal, “Google Plans To Integrate Conversational AI Into Search Engine”, Apr 6, 2023
[2] Zoom, “Meet Zoom Virtual Agent”, Jan 24, 2023
[3] Microsoft, “Conversational User Experience Guide”, Nov 7, 2022
[4] 턴 테이킹(Turn-taking): 한 사람이 말하는 동안 다른 사람이 듣는 대화 구조의 일부. 대화가 진행됨에 따라 듣는 사람과 말하는 사람의 역할이 앞뒤로 바뀌면서 토론의 순환이 만들어진다.
[5] Moore, R. J., & Arar, R., 2018, ‘Conversational UX design: an introduction.’ Studies in conversational UX design, pp. 1-16
[6] OpenAI, “Steerability: Socratic tutor”
[7] OpenAI, “Khan Academy”, Mar 14, 2023
[8] Shevat, A., 2017, “Designing bots: Creating conversational experiences.”, O'Reilly Media, Inc
[9] Srini Janarthanam, “Getting started with Chatbot design”, 2019
[10] 한국지능정보사회진흥원, “마이크로소프트의 전방위 인공지능 전략-김영욱”, Mar, 2023



▶   해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 기고자에게 저작권이 있습니다.
▶   해당 콘텐츠는 사전 동의 없이 2차 가공 및 영리적인 이용을 금하고 있습니다.


이 글이 좋으셨다면 구독&좋아요

여러분의 “구독”과 “좋아요”는
저자에게 큰 힘이 됩니다.

subscribe

구독하기

subscribe

김영욱
김영욱

SAP France의 Senior Program Manager

한국에서 컴퓨터 공학을 전공 후, 7년간 한국후지쯔에서 개발자로 근무하고, 1998년 프랑스 파리로 이주하여 Business Objects에서 개발 매니저와 프로그램 매니저를 거쳐, 현재 SAP의 클라우드 ERP 엔지니어링 그룹의 시니어 프로덕트/프로그램 매니저로 근무 중입니다. 책 <프로덕트 매니지먼트>의 저자입니다.

공유하기