AI 에이전트의 시대: 인공지능이 소프트웨어를 사용하는 패러다임의 변화

2024-11-25 Mike Elgan

이 글은 IDG의 아티클을 전재하여 제공합니다.
[원문보기]

지금까지는 인간이 소프트웨어를 사용했습니다. 하지만 AI 에이전트에는 소프트웨어도 곧 소프트웨어의 사용 주체입니다. 에이전트는 기업, 정부, 그리고 각 개인의 삶에서 인공지능의 역할을 근본적으로 바꿀 가능성이 큽니다. 11월 에이전틱 AI와 관련해 가장 두드러지는 뉴스는 오픈AI가 ‘오퍼레이터’(Operator)라는 이름의 에이전트를 1월에 출시할 예정이라는 소식입니다. 오픈AI 오퍼레이터는 스스로 여러 단계의 작업을 수행할 수 있는 개인 비서라고 할 수 있습니다. 오퍼레이터는 코드 작성, 여행 예약, 일일 일정 관리 등의 작업을 수행할 수 있을 것으로 예상됩니다. 이 모든 작업은 PC에 이미 설치된 애플리케이션과 클라우드 서비스를 사용하여 수행됩니다.

오픈AI의 이번 행보는 ‘컴퓨터 유즈’(Computer Use)라는 기능을 공개한 앤쓰로픽에 뒤이은 것입니다. 해당 기능을 이용해 앤쓰로픽의 클로드 3.5 소네트는 컴퓨터에서 복잡한 작업을 자율적으로 수행할 수 있습니다. 이제 AI는 마우스를 움직이고, 특정 영역을 클릭하고, 명령을 입력하여 사람의 지속적인 개입 없이도 복잡한 작업을 완료할 수 있습니다. 이러한 도구가 정확히 어떻게 작동할지, 심지어 작동할지 여부도 알 수 없습니다. 두 가지 모두 주로 개발자와 얼리어답터를 대상으로 하는 ‘에타'(eta)라고 하는 영역에 속합니다. 하지만 이 도구들은 다가오는 에이전틱 AI의 시대를 상징합니다.

AI 에이전트란?

에이전트를 이해하는 좋은 방법은 과거와의 비교입니다. 챗GPT와 같은 AI 챗봇이 대표적입니다. 기존의 인기 있는 LLM 기반 챗봇은 사용자가 텍스트 출력(단어와 숫자)을 원하고, 기대하고, 받을 것이라는 가정을 바탕으로 설계됐습니다. 사용자가 프롬프트에 무엇을 입력하든 이 도구는 알파벳의 문자와 숫자 체계의 숫자로 응답할 준비가 되어 있습니다. 즉 텍스트 입력, 텍스트 출력을 감안해 설계됐습니다.

에이전틱 AI는 다릅니다. 학습 데이터에 곧장 뛰어들어 단어 조합을 탐색하는 방식을 사용하지 않습니다. 대신 사용자의 목표를 이해하기 위해 잠시 멈추고, 이후 목표를 달성하기 위한 구성 요소를 마련하고 계획을 세웁니다. 그런 다음 일반적으로 다른 소프트웨어 및 클라우드 서비스를 사용하여 계획을 실행합니다.

AI 에이전트에는 일반 AI 챗봇이 갖지 못한 세 가지 능력이 있습니다.

추론: AI 에이전트의 핵심에는 계획과 추론을 담당하는 LLM이 있습니다. LLM은 복잡한 문제를 세분화하고, 이를 해결하기 위한 계획을 세우고, 프로세스의 각 단계에 대한 이유를 제공합니다.

행동: AI 에이전트는 외부 프로그램과 상호 작용할 수 있습니다. 이러한 소프트웨어 도구에는 웹 검색, 데이터베이스 쿼리, 계산기, 코드 실행 또는 기타 AI 모델이 포함될 수 있습니다. LLM은 이러한 도구를 사용하여 문제를 해결하는 시기와 방법을 결정합니다.

메모리 액세스: 에이전트는 에이전트의 사고 과정에 대한 내부 로그와 사용자와의 대화 기록 등 이전에 일어난 일에 대한 ‘메모리’에 접근할 수 있습니다. 이를 통해 보다 개인화되고 상황에 맞는 상호작용을 할 수 있습니다.

AI 에이전트가 작동하는 방식을 단계별로 살펴보면 다음과 같습니다.

사용자가 에이전트에게 무언가를 입력하거나 말합니다.
LLM이 사용자의 요청을 충족하기 위한 계획을 만듭니다.
에이전트는 계획을 실행하기 위해 외부 도구를 사용합니다.
LLM은 결과를 보고 사용자의 목표가 달성되었는지 여부를 결정합니다. 그렇지 않은 경우 처음부터 다시 시작하여 LLM이 만족할 때까지 이 과정을 반복합니다.
만족스러운 결과를 얻으면 LLM은 사용자에게 결과를 전달합니다.

AI 에이전트가 다른 소프트웨어와 다른 이유

‘추론’과 ‘행동’(종종 ReACT라고 불림)이 AI 챗봇과 AI 에이전트의 주요 차이점입니다. 이 중에서도 차별점의 핵심은 ‘행동’입니다.

메인 에이전트 LLM이 더 많은 정보나 계산이 필요하거나 LLM 자체의 범위를 벗어난 다른 것이 필요하다고 판단하면, 웹 검색, 데이터베이스 쿼리, 계산, 코드 실행, API 및 전문 프로그램을 사용하여 문제를 해결하게 됩니다. 심지어 다른 AI 모델이나 챗봇을 사용하도록 선택할 수도 있습니다.

패러다임의 변화가 보이나요?

컴퓨팅이 시작된 이래로 소프트웨어를 사용 주체는 사람이었습니다. 하지만 에이전틱 AI에서는 사상 처음으로 소프트웨어도 소프트웨어를 사용합니다.

에이전트가 사용하는 대부분의 소프트웨어 도구는 인간을 감안해 설계된 일반 웹사이트와 애플리케이션입니다. 화면을 보고, 마우스로 가리키고 클릭하고, 창과 애플리케이션 간에 전환하고, 데스크톱에서 브라우저를 열고, 웹 서핑을 합니다. 그러나 이러한 모든 기능을 앤쓰로픽의 ‘컴퓨터 유즈’가 사용할 수 있습니다. 에이전트 전용으로 고안된 다른 도구들도 따로 있습니다.

에이전트가 각종 소프트웨어 도구에 액세스할 수 있기 때문에 더 유용하고 적응성이 뛰어납니다. 처음부터 LLM을 교육하거나 자동화 프로세스를 짜맞추는 대신 에이전트에게 필요한 툴을 제공하고 LLM이 당면한 작업을 알아서 하도록 할 수 있습니다. 복잡한 문제 해결을 처리하고 보다 자율적으로 작업할 수 있는 셈입니다.

다가오는 에이전트 시대의 의미

다수의 미래학자나 기술 예측가는 향후 10년간 AI가 미칠 영향에 대해 이야기할 때 에이전트를 언급하곤 합니다. AI 에이전트가 비즈니스의 많은 업무를 대신할 것이며, 더 나아가 현재 직원들이 수행하는 각종 업무를 자동화할 것이라는 전망입니다. 복잡하지만 일상적이고 반복적인 업무 상당 부분을 에이전트에게 떠넘길 수 있게 된다는 이야기입니다.

또한 에이전틱 AI는 에이전트 시스템 관리, 교육 및 모니터링과 관련된 새로운 직업, 역할을 창출할 것입니다. 아울러 에이전트를 사용하는 사이버 공격자를 방어하기 위해 에이전트가 필요한 사이버 보안 분야에도 또 다른 직무가 발생합니다.

몇 년에 걸쳐 이야기해온 것처럼 필자는 AR AI 글래스가 스마트폰을 대체할 수 있을 것이라고 믿습니다. 에이전트 AI가 이를 가능하게 할 것입니다. 사실 AI 스마트 글래스와 AI 에이전트는 서로를 위해 만들어졌습니다. AI 에이전트가 안경 카메라의 스트리밍 비디오를 멀티모달 입력(사운드, 음성 상호작용 등 다른 입력)의 일부로 사용해 지속적으로 작동하는 방식이 유력합니다.

사소하지만 예측 가능한 한 가지 예가 있습니다. 콘서트를 광고하는 간판을 보고(AR 글래스의 카메라가 해당 정보를 캡처할 수 있도록) 에이전트에게 참석하고 싶다고 말합니다. 그러면 에이전트가 티켓을 예약하고, 캘린더에 추가하고, 배우자를 초대하고, 베이비시터를 고용하고, 자율주행차가 픽업 및 하차할 수 있도록 준비하는 시나리오입니다.

다른 많은 기술과 마찬가지로 AI는 그저 도구입니다. 일부 사용자는 새로운 기술이나 지식을 배우는 대신 에이전트 AI에 의존하겠지만, 에이전트를 활용해 스스로의 역량을 개발하려는 이도 있을 것입니다. 여기서 핵심은 공상과학 소설처럼 들리는 에이전트 AI가 내년부터 본격적으로 다가올 현실이라는 점입니다.