대화형 AI 전쟁의 서막, 승자는 누가 될 것인가?

2023-02-23 소셜크리에이터 조남호 프로

지난해 구글 AI 담당 엔지니어가 구글이 개발한 대화형 인공지능(AI)이 ‘인간 수준의 지각을 가지고 있다’라고 주장하다가 해고당하는 일이 있었죠. 그는 챗봇 람다(LaMDA:Language Model for Dialogue Applications)와 나눈 대화를 통해 “람다가 인간과 같은 대화 수준을 보여주는 것을 볼 때, 인간과 같은 권리를 누려야 한다.”라는 생각까지 갖게 된 것으로 보입니다. 그는 여기서 그치지 않고, 내부 문건까지 외부에 공개하고, ‘AI가 인간과 동일 수준의 의식을 갖고 있다면 AI의 권익도 보호되어야 한다’며 람다의 변호사를 구하려는 시도를 하다가 기밀유지 위반으로 강제 휴가 조치 후 해고되었습니다. AI에게 사람과 동일한 권리가 주어져야 할까요? 아니면, 인간과 동일한 의식이나 영혼 같은 것이 AI 안에서도 만들어지고 있다고 봐야 할까요?

AI 발전 속도가 무서울 정도로 빨라지면서, 기계가 인간과 같은 지능을 가지고 있다고 판별하는 기준이었던 ‘튜링 테스트’ 정도는 이제 의미가 없어졌습니다. 영국 수학자 앨런 튜링은 맨체스터 대학교에서 근무하던 1950년 당시 ‘생각하는 기계의 구현 가능성에 대한 분석’이라는 논문에서 인간과 유사한 지능이 있다고 판단하는 기준을 정했는데요. 사람이 기계에게 질문을 던지고 대답을 듣는 대화를 통해 ‘인간인지 기계인지 판별할 수 없다’면 기계도 인간처럼 사고할 수 있다, 즉 의식이나 지능을 지니고 있다고 보는 것이었습니다. 그런데, 이미 챗봇 AI들의 대화 수준은 이런 테스트가 의미 없을 정도로 인간보다 높은 고차원적인 수준의 대답을 들려주고 있죠. 그것이 바로 1억 명이 넘는 사용자가 ChatGPT라고 하는 AI에 열광하는 이유일 겁니다.

튜링 테스트에 대한 반론, 중국어 방 실험

미국 버클리대의 정신철학 분야 권위자 존 설(John Searle)은 ‘튜링 테스트 정도로는 기계가 인간과 같은 의식이 있다고 판단할 수 없다’는 것을 논증하기 위해 지난 1980년 ‘중국어 방(Chinese room)’이라는 사고 실험을 제안했습니다. 아래 그림처럼 방안에 중국어를 전혀 할 줄 모르는 영어만 구사하는 사람이 들어갑니다. 방안에는 미리 제공해 준 시나리오로 작성된 중국어 질문과 대답 목록이 준비되어 있다고 해보죠. 중국인 실험자가 방 밖에서 중국어로 질문지를 넣으면, 방안에 있는 사람이 준비된 질문과 대답 목록에서 골라 방 밖의 중국인에게 전달해 줍니다. 중국인 실험자가 밖에서 보았을 때, 방 안에는 중국어를 매우 잘하는 사람이 있다고 판단하겠죠. 그러나 안에 있는 사람은 전혀 중국어를 할 줄 모릅니다.

튜링 테스트와 함께 언급되는 중국어 방(Chinese room) 사고 실험

이와 마찬가지로 기계가 사람과 같이 능수능란하게 답변을 한다고 해도 기계는 결국 무한한 준비된 답안지에서 골라서 답을 할 뿐이라는 거죠. 기계는 문맥을 이해해서 답을 고를 뿐, 그 질문의 의미와 사고를 통해서 답을 하는 인간과는 다르다는 주장입니다. 튜링테스트를 통과했다고 해도, 인간과 같은 인지 능력을 갖고 있다고 보는 것은 잘못되었다는 반론을 보여주는 실험이죠.

현재 AI는 대화하는 상대가 컴퓨터라는 사실을 사전에 인지하지 못하고 있다면, 대화를 통해서 인간인지 아닌지 알아낼 방법이 없는 수준까지 발전했습니다. 그래서, 자율주행처럼 단계를 나누어 AI의 수준을 제대로 평가할 수 있는 기준이 나와야겠죠. 아직 사회적으로 합의단계에 이른 기준은 없지만, 규칙과 맥락을 이해하고 채팅으로 대답하는 수준을 초기, 특정 도메인에 대한 지식과 추론이 가능하고 다른 기계들과 협력하는 중급 레벨, 인간과 같은 의식이 존재하고 인간을 상회하는 초지능을 가지게 되는 것을 최종의 단계로 보는 것이 일반적입니다. 이런 기준으로 보면, 현재의 AI는 초보 단계에 아직 머무르고 있다고 봐도 되겠죠.

무궁무진한 능력을 숨긴 것 같은 ChatGPT, 그러나 아직은…

이런 고민을 하게 만든 AI의 최신작이자 화제의 중심은 누가 뭐래도 ChatGPT입니다. 기존 챗봇들과 달리 ChatGPT는 인터넷의 방대한 정보를 학습해서 사람이 쓴 것처럼 글을 써 내려가죠. 최근 실제로 의사 면허, 경영학 석사, 변호사 시험 등에서 ChatGPT가 합격 소식을 전할 정도로 전문적인 역량을 가진 것처럼 보입니다. 그렇지만, 2021년까지만 학습이 진행되었기 때문에 최신 정보에는 취약한 편이죠. 그럼에도 학계에서는 많은 학생들이 ChatGPT를 이용해서 논문을 작성하거나 표절할 가능성도 높다고 보고 있습니다.

그래서, ChatGPT에게 ‘논문 표절과 의료 목적으로 악용될 수 있는 우려에 대해서 어떻게 생각하는지’ 직접 물어봤습니다. ChatGPT가 내놓은 답은 다음과 같습니다.

논문 표절은 교육 분야에서 큰 문제로 작용하고 있습니다. ChatGPT를 이용하여 논문을 작성할 수 있다면, 표절이 쉬워질 수 있습니다. 이는 논문의 저작권을 침해하는 문제와, 가짜 정보의 전파를 초래할 수 있습니다. 따라서, 이 모델을 사용하여 논문을 작성하는 경우에는 명시적으로 출처를 표기하고, 적절한 인용을 해야 합니다.
의료 악용에 있어서, ChatGPT 모델은 의학 정보를 학습하였기 때문에, 사용자에게 잘못된 의료 정보를 제공할 수 있습니다. 이는 특히 의료 정보에 대한 인식이 미흡한 사람들에게 유해할 수 있습니다.
따라서, ChatGPT의 강력한 기능을 개선하면서도, 이를 악용하는 것을 막는 것이 중요합니다. OpenAI 또한 이에 대한 책임을 지고 있어야 합니다.

기본적인 연산부터 몇 가지 빈틈을 보여주는 인간적인 ChatGPT 라고 말하고 싶습니다 (출처 : ChatGPT)

구글 ‘람다’ VS OpenAI ‘ChatGPT’, 누가 더 강력할까?

기업들이 앞다투어 챗봇(ChatBot)을 고객 응대 서비스에 도입하면서 일반인들에게도 이는 낯설지 않은 풍경이 되었습니다. 많은 사람들이 챗봇과 연애를 해보려는 시도를 하거나, 사람만이 이해할 수 있는 복잡한 대화를 이어갈 수 있는지 궁금해했죠.

구글이 내놓은 람다(LaMDA)는 1370억 개에 달하는 매개 변수로 학습한 인공지능이며, 30억 개에 달하는 문서 11억 개에 달하는 대화를 익힌 것으로 알려졌는데요. 실제 대화 데이터를 이용해서 훈련된 언어 모델이기 때문에 진짜 사람과 대화하는 느낌의 응답이 가능합니다. 그래서, 기업에서 고객 서비스 제공을 위한 챗봇을 만들고자 한다면 람다를 이용하는 것이 좋습니다. 신뢰할 수 있는 데이터를 기반으로 학습되었기 때문에 예상 밖의 엉뚱한 대답을 내놓지 않죠. 람다와 ChatGPT는 트랜스포머 방식의 채팅 AI지만 학습방법은 그렇게 크게 다르지는 않습니다.

구글은 그리고 지난 2월 8일 프랑스 파리에서 새로운 챗봇 ‘바드(Bard)’를 공개했는데요. MS에서 ChatGPT를 자체 검색 엔진 Bing에 적용한 것을 공개하고 바로 대응한 것으로 보이죠. 바드(Bard)는 음유시인을 뜻으로 언어, 이미지, 음성과 AI 기술을 통합한 서비스입니다. 그런데 행사에서 바드는 ‘제임스 웹 망원경(James Webb Space Telescope·JWST)이 발견한 새로운 사실에 대해 아홉 살 어린이에게 뭐라고 설명하면 좋을까?’라는 질문에 태양계 밖의 행성 사진을 처음 찍은 망원경이라고 오답을 이야기해서 구글 주가는 8% 가까이 급락하는 사태를 맞았습니다. 그럼에도 불구하고, 알파고를 통해 AI 패러다임을 바꿨던 구글이라면 곧 완벽에 가까운 모습으로 다시 등장할 것으로 보입니다.

OpenAI의 ChatGPT는 내놓은 답변에 대한 피드백을 바탕으로 하는 보상 학습 모델을 사용합니다. 그래서 대용량의 학습 데이터와 적절한 피드백을 줄 수만 있다면 학습을 통해 지속적으로 개선될 수 있는 역량을 가지고 있죠. 실제로 이 RLHF(Reinforcement Learning from Human Feedback)라고 불리는 이 강화 학습 모델은 사람의 피드백에 의해 평가가 되기 때문에 로봇 제어, 게임 AI, 자율주행차 등에 활용되고 있습니다. 다만, 인간을 통한 피드백이 필수적이고, 보상 함수의 설계에 따라 결과가 크게 바뀌기 때문에 엄청난 비용이 들어가게 됩니다. 그래서, 나중에는 ChatGPT가 AI끼리 서로의 학습결과를 피드백하면서 알파고와 같이 학습 시간과 비용을 줄여나가지 않을까 하는 기대를 하고 있습니다.

실제로 ChatGPT는 현재 3.5버전보다 업그레이드된 4.0버전을 준비하고 있고, 이는 더욱 강력한 성능의 ChatGPT가 곧 나타날 것이라는 기대를 갖게 합니다. 그리고, Bing에 탑재된 GPT 발표에서는 내놓은 답변에 출처를 표기해서 실제 어디서 정보를 가져왔는지 클릭하면 바로 확인이 가능하도록 했습니다. 아직까지 일반인들에게 사용 공개가 된 것은 아니지만 제2의 ChatGPT 대란이 있지 않을까 싶습니다. 현재 ChatGPT가 1억 명 이상의 사용자가 몰려서 답변을 만들어내는 시간이 대폭 늘어나고, 답변도 길게 해주지 못하는 상황을 Bing에서 보게 될지도 모르겠습니다.

MS는 OpenAI에 이미 10억 달러를 투자했지만, 3월에 100억 달러를 추가로 투자하기로 했다고 하니 검색 엔진 양대 산맥인 구글과 MS가 대화형 AI 시장에서 시장 판도를 어떻게 바꿀지 기대가 됩니다. 분명 대화형 AI가 인간의 삶을 크게 바꿀 것에 대해서는 이견이 없지만, 콜센터와 같은 단순 정보 조회와 고객 응대부터 PTSD 치료를 위한 심리치료 같은 복잡한 업무까지 AI가 대체할 가능성을 보이는 점이 무섭습니다.

ChatGPT를 활용해서 코딩을 하면 ‘연봉 2억 원 개발자’ 정도의 역량이 나온다는 말을 듣고 앞으로 제 자리도 위태롭지 않을까 하는 걱정이 되기도 하고요. AI 전쟁의 승자가 누가 될지는 모르지만, 무엇보다 인간 중심의 사업 방향이 정해지면 좋겠다는 바람을 가져봅니다.

이 글이 좋으셨다면 구독&좋아요

여러분의 “구독”과 “좋아요”는
저자에게 큰 힘이 됩니다.