에이전틱 AI로 멀티클라우드 관리가 가능할까?

2025-04-21 David Linthicum

이 글은 IDG의 아티클을 전재하여 제공합니다.
[원문보기]

최근에 다양한 퍼블릭 클라우드 제공업체에서 자율적으로 운영할 수 있는 에이전틱 AI 아키텍처를 설계하고 검증하는 프로젝트를 수행하는 기회를 가졌습니다. 이 프로젝트는 고객 기업을 위해 아키텍처를 구축하고, 실행 가능성을 테스트하고, 멀티클라우드 에이전틱 AI 배포를 위한 모범 사례를 개선할 수 있는지 확인하기 위한 모의실험이었습니다.

이전에도 에이전틱 AI 시스템을 설계한 적이 있지만, 제한된 환경이나 하이브리드 환경을 대상으로 한 것이었습니다. 이번에는 퍼블릭 클라우드 제공업체를 활용하여 이러한 플랫폼이 분산형 의사결정 AI를 얼마나 잘 지원할 수 있는지 알아봤습니다. 시스템이 실시간 가용성, 비용, 성능 및 기타 요소를 분석하여 서로 다른 클라우드에 워크로드를 동적으로 할당하고 확장성, 내결함성 및 효율성을 보장할 수 있는지 확인하고자 했습니다.

이 프로젝트는 기술적 실험을 넘어 귀중한 학습 경험이었습니다. 오늘날 클라우드 기술의 한계를 시험하고, 클라우드 간 오케스트레이션의 실질적인 문제를 확인하는 한편, 적응형 디자인 패턴을 연마하는 기회였습니다. 또한 이 프로젝트는 자율적인 멀티클라우드 AI 솔루션 개발을 위한 기본 전략을 다지는 기회였습니다.

이번에 배운 교훈을 고객과 동료들과 공유하고자 합니다. 그들이 자신만의 지능형 에이전틱 시스템을 구축하는 데 일조할 수 있다고 기대합니다. 이번 실험에 접근한 방법, 사용한 도구와 기법, 직면한 장애물, 그리고 그 결과는 다음과 같습니다.

시스템 요구사항

에이전틱 AI 시스템의 핵심은 자율적인 의사결정 시스템입니다. AI를 사용하여 자율적으로 작업을 할당하고 실행하며, 비용, 성능, 리소스 가용성 및 기타 요소를 균형 있게 조정하면서 변화하는 상황에 대응합니다. 아키텍처는 플랫폼에 구애받지 않도록 일관성을 유지하면서 클라우드별 기능을 균형 있게 조정할 수 있을 만큼 유연해야 합니다. 프레임워크는 다음과 같은 기능을 제공합니다.

실시간 분석을 바탕으로 가장 적합한 클라우드 제공업체에 워크로드를 동적으로 할당합니다.
장애 또는 속도 저하가 발생하는 동안 할당 경로를 재설정하여 내결함성 프로세스를 유지합니다.
다양한 클라우드 플랫폼에 호스팅된 구성 요소 간의 원활한 통신과 데이터 흐름을 통해 분산 요소를 운영합니다.

아키텍처 구성 요소

의사결정 레이어는 시스템의 핵심이었습니다. 지연 시간, 비용, 처리량, 스토리지 가용성 등의 리소스 지표를 분석했습니다. 이러한 입력에 기초하여, 워크로드를 어디로 라우팅할지 또는 작업을 실행할지 결정했습니다. 이 자율적 레이어는 다음과 같은 기능을 수행하도록 설계됐습니다.

클라우드 전반의 리소스 현재 상태를 평가합니다.
작업의 우선순위를 정하고 가장 적절한 환경에 할당합니다.
이슈(예: 병목 현상 또는 서비스 장애)를 감지하고 실시간으로 적용합니다.

이러한 목표는 클라우드 환경을 동적으로 평가하고 리소스 할당을 조정할 수 있는 모듈형 AI 기능을 구현함으로써 달성할 수 있었습니다. 워크로도는 컨테이너화되고 이식 가능해야 했으며, 이를 통해 다양한 플랫폼에서 실행될 수 있어야 했습니다.

오케스트레이션 레이어는 클라우드 전반에 걸쳐 컨테이너를 배포, 확장 및 관리하는 데 중요했습니다. 오케스트레이션 시스템은 다음과 같은 기능을 수행합니다.

AI가 생성한 결정에 따라 워크로드를 배포합니다.
AI의 의사결정을 개선하기 위해 리소스 사용량 및 성능을 모니터링합니다.
환경 전반에 걸쳐 변동하는 워크로드를 수용하도록 자동으로 확장합니다.

커뮤니케이션 레이어는 서로 다른 클라우드에서 실행되는 서비스들이 원활하게 상호작용하고 환경 전반에 걸쳐 효과적인 조정이 가능하도록 지원했습니다. 분산 스토리지 메커니즘을 통해 제공업체 간의 데이터 일관성이 유지되었고, 유즈케이스 요구사항에 따라 데이터를 복제, 캐시 또는 동기화할 수 있었습니다.

모니터링 및 관찰가능성 프레임워크를 통해 시스템은 자율적으로 작동할 수 있었습니다. 성능에 대한 실시간 가시성이 중요했기 때문에, 관찰가능성 레이어는 여러 가지 지표를 추적하고 이 정보를 핵심 AI 시스템에 제공하여 시간이 지남에 따라 의사결정을 향상했습니다. 이 레이어는 다음의 데이터를 수집했습니다.

작업 실행 성능
클라우드 관련 이상 현상 또는 병목 현상
모든 환경에 걸친 비용 추세 및 리소스 소비량

개발 프로세스

첫 번째 단계는 여러 클라우드 제공업체에 걸쳐 인프라를 배포하는 것이었습니다. 코드로서의 인프라스트럭처(Infrastructure as Code) 방식을 사용하여 각 플랫폼에 가상 네트워크, 컨테이너 오케스트레이션 환경, 스토리지 솔루션을 구축했습니다. 이러한 환경 간의 연결을 위해서는 저지연(low-latency)과 제공업체 간 통신을 지원하는 보안 터널과 피어링 연결 구성 등의 세심한 네트워킹이 필요했습니다.

AI 코어는 지능적이고 적응력이 있어야 했습니다. 시뮬레이션된 리소스 데이터를 기반으로 모델을 학습시켜서 워크로드 라우팅에 대해 신뢰할 수 있는 의사결정을 할 수 있도록 했습니다. AI 로직을 가벼운 스테이트리스(stateless) 서비스로 배포함으로써 확장성을 보장하고 모델이 진화함에 따라 쉽게 업데이트할 수 있게 했습니다.

오케스트레이션 레이어는 AI 코어와 긴밀하게 통합되어 다이나믹한 의사결정을 가능하게 했습니다. 예를 들어, 수요가 급증할 경우 시스템은 한 클라우드에서 추가 리소스를 가동하여 다른 클라우드의 지연을 상쇄할 수 있었습니다. 마찬가지로, 한 제공업체에서 다운타임이 발생할 경우, 워크로드를 다른 위치로 원활하게 라우팅할 수 있었습니다.

가장 중요한 단계 중 하나는 시스템의 스트레스 테스트였습니다. 부분적인 중단부터 전체 플랫폼 장애에 이르기까지 모든 상황을 시뮬레이션했습니다. 예를 들어, 한 클라우드의 서버 클러스터가 오프라인 상태가 되면, 시스템은 데이터나 상태를 잃지 않고 다른 클라우드의 리소스로 처리 작업을 리디렉션했습니다. 이러한 시나리오를 통해 장애 조치(failover) 중 일관되지 않은 응답 시간과 같은 취약점을 발견할 수 있었고, 워크로드 우선순위 재지정을 최적화하여 이를 해결했습니다.

도전 과제 및 해결책

클라우드 간 워크로드 연결에서는 상당히 어려움을 나타냈습니다. 지연 시간, 보안, 호환성 문제로 인해 네트워크 아키텍처를 미세 조정해야 했습니다. 데이터 교환의 신뢰성을 향상시키기 위해 보안 터널과 오버레이 네트워크를 함께 구현했습니다.

클라우드 간 비용 추적은 또 다른 도전 과제였습니다. 각 제공업체의 청구 모델이 제각각이었기 때문에 비용을 예측하고 최적화하기가 어려웠습니다. 실시간 비용 데이터를 통합 대시보드에 가져오기 위해 API를 통합했고, 이로써 AI 시스템이 예산 고려 사항을 의사결정에 포함할 수 있었습니다.

배포를 표준화하려는 노력에도 불구하고, 클라우드별 차이로 인해 때때로 정렬 오류가 있었습니다. 예를 들어, 스토리지 솔루션은 플랫폼마다 특정 작업을 다르게 처리했기에 데이터 동기화 및 검색 방식에 불일치가 발생했습니다. 플랫폼별 특성을 추상화하는 하이브리드 스토리지 모델을 도입하여 이 문제를 해결했습니다.

오토 스케일링은 환경 간 일관성이 없었습니다. 일부 제공업체의 경우 수요 급증에 대응하는 데 다른 제공업체보다 더 오랜 시간이 걸렸습니다. 리소스 제한을 조정하고 오케스트레이션 로직을 개선함으로써 예기치 않은 확장 이벤트 발생 시의 지연을 줄일 수 있었습니다.

주요 시사점

멀티클라우드 환경에서도 적절한 디자인과 도구를 사용하면 에이전틱 AI를 구현할 수 있었습니다. 이렇게 구현한 자율 시스템은 여러 클라우드 제공업체에서 운영되는 복잡한 상황을 성공적으로 해결할 수 있었습니다. 이 아키텍처는 분산형 AI 파이프라인, 엣지 컴퓨팅, 하이브리드 클라우드 통합을 포함한 더욱 발전된 유즈케이스에 뛰어난 잠재력을 가집니다.

그러나 상호 운용성, 플랫폼별 세부사항, 비용 최적화 등의 과제는 여전히 남아 있습니다. 멀티클라우드 아키텍처의 실행가능성을 개선하기 위해서는 더 많은 노력이 필요합니다. 특히 큰 문제는 비용이 예상외로 높았다는 점입니다. 퍼블릭 클라우드 제공업체의 리소스 사용료, 송신 수수료, 기타 비용이 예고 없이 발생하는 것처럼 보였습니다. 에이전틱 AI 배포에 퍼블릭 클라우드를 사용하는 것은 많은 조직에 너무 많은 비용이 들 수 있습니다. 기업에 따라서는 프라이빗 클라우드, MSP(managed services providers), 코로케이션 제공업체 등 더 저렴한 온프레미스 대안을 찾는 게 나을 수 있습니다. 이러한 플랫폼은 오늘날 시장에서 더 저렴하고 동일한 서비스와 도구를 많이 제공합니다.

이번 실험은 클라우드 환경이 역동적이고 자체 관리되는 생태계 역할을 하는 미래를 실현하기 위한 작지만 의미 있는 단계였습니다. 현재의 기술은 강력하지만, 이번 프로젝트에서 직면한 과제는 멀티클라우드 배포를 단순화하기 위한 더 나은 도구와 표준이 필요함을 시시합니다. 또한, 많은 경우, 이 접근 방식은 높은 비용을 초래한다는 점을 기억할 필요가 있습니다.

이 글이 좋으셨다면 구독&좋아요

여러분의 “구독”과 “좋아요”는
저자에게 큰 힘이 됩니다.

David Linthicum 클라우드 전문가

Deloitte Consulting의 Chief Cloud Strategy Officer