삼성 클라우드 플랫폼, 클라우드 컴퓨트(Compute) 상품의 이해
- 2023-08-03
- 작성자 최지선, 최문실
많은 사용자들이 클라우드에 대해 익숙해졌지만 여전히 각 상품들이 어떤 특징을 가지고 있고, 업무 시스템에 따라 어떤 상품을 사용해야 하는지 결정하는데 어려움을 겪고 있습니다. 특히, 시스템을 구축하고 동작하기 위한 컴퓨트(Compute) 상품의 선택은 사용자들에게는 매우 중요한 의사 결정 사항입니다. 삼성 클라우드 플랫폼 (Samsung Cloud Platform, SCP)에서는 사용자의 시스템 상황에 적합한 자원 유형을 선택할 수 있도록 5가지의 컴퓨트 상품을 제공하고 있습니다. 이 5가지 컴퓨트 상품이 어떤 특장점을 가졌는지 자세히 살펴보겠습니다.
삼성 클라우드 플랫폼, 5가지 Compute(컴퓨트) 상품 제공
많은 사용자들이 클라우드에 대해 익숙해졌지만 여전히 각 상품이 어떤 특징을 가지고 있고, 고객의 시스템을 위해 어떤 상품을 사용해야 하는지에 대한 결정에 어려운 점이 많습니다. 특히, 시스템을 구축하고, 동작하기 위한 컴퓨트(Compute) 상품은 사용자들에게 매우 중요한 의사 결정 사항입니다. 삼성 클라우드 플랫폼(Samsung Cloud Platform, SCP)에서는 사용자의 시스템 상황에 적합한 자원 유형을 선택하실 수 있도록, 아래와 같이 5가지의 컴퓨트 상품을 제공하고 있습니다.
① 버추얼 서버(Virtual Server): 클라우드 환경에 생성되는 가상화 컴퓨팅 서비스
② VM 오토 스케일링(VM Auto-Scaling): 수요에 따라 자원을 자동으로 확장/축소하는 서버 관리서비스
③ 베어 메탈 서버(Bare Metal Server): 가상화하지않고 클라우드 환경에서 단독으로 할당받아 사용하는 고성능 물리 서버
④ 멀티 노드 클러스터(Multi-node GPU Cluster): 최신 GPU 서버를 1대 이상 복수로 사용 가능한 클러스터
⑤ HPC 클러스터(HPC Cluster): HPC용 클러스터 환경(H/W, S/W)을 자동으로 구성하여 제공해주는 클러스터링 서비스
지금부터 삼성 클라우드 플랫폼에서 제공하는 5가지 컴퓨트 상품은 무엇이고, 각각 어떤 특장점을 가졌는지 소개해 드리고자 합니다.
버추얼 서버(Virtual Server)란?
기존 레거시 환경에서 IT 관리자/운영자들은 인프라 투자를 위해서 복잡한 내부 구매 프로세스 및 자원이 위치할 데이터센터의 전원/여유 공간 등 다양한 요건의 인프라 사전 검토를 거쳐야만 했습니다. 장시간의 프로세스를 거쳐 실제 발주 절차가 진행되었더라도, 서버 Delivery와 장비 설치, 네트워크 연결과 OS 설치/세팅 등 서비스를 올리기 위한 추가적인 Lead Time이 최소 3개월 이상 발생하는 것이 일반적이었습니다. 또한, 서비스의 확장/축소 시에도 매번 동일한 절차를 진행하기 때문에, 다양한 요청을 적시에 대응하기가 쉽지 않았습니다. 이런 자원 도입/구성에 들인 많은 시간과 노력은 IT 관리자/운영자들에게 전체적인 인프라 관리에 대한 부담이 되어 왔습니다.
버추얼 서버는 클라우드 서비스 적용을 검토할 때 가장 기본이 되는 가상화 컴퓨팅 자원입니다. 버추얼 서버를 사용할 경우, CPU/Memory 등 서버에서 제공하는 인프라 자원을 복잡한 프로세스를 거쳐 구매할 필요 없이, 삼성 클라우드 플랫폼이 제공하는 콘솔을 통해 필요한 시점에 사용하고자 하는 만큼 자유롭게 할당받아 사용하실 수 있습니다. 또한, 장기적으로 사용이 예상되는 자원의 경우, 약정 정책을 활용하여 더 저렴하게 이용하실 수도 있습니다.
삼성 클라우드 플랫폼, 버추얼 서버의 특장점
1) 쉽고 편리한 컴퓨팅 환경 구성이 가능하다.
첫째, 버추얼 서버는 쉽고 편리한 컴퓨팅 환경 구성이 가능합니다. 웹 기반 콘솔을 통해 VM 프로비저닝부터 모니터링, 빌링까지 사용자가 직접 셀프 서비스로 손쉽게 사용이 가능합니다. 사용할 버추얼 서버의 스펙을 정하는 것뿐만 아니라, VM이 생성될 호스트를 분산시켜 보다 높은 서비스 안정성을 준비할 수 있는 안티 어피니티(Anti-affinity)와 사용자가 실수로 자원을 삭제하는 것을 방지해 주는 삭제 보호 기능(Deletion protection) 역시 자원 생성 단계에서 설정이 가능합니다. 버추얼 서버 사용 중에 CPU나 메모리 등 주요 자원의 용량 변경이 필요할 경우, 인프라 증설을 위한 별도의 작업 없이 콘솔 상에서 손쉽게 증설/축소에 대한 신청이 가능합니다.
2) 다양한 스펙의 상품이 사전에 정의되어 있어, 골라쓰기 편하다.
둘째, 다양한 유형의 상품을 사전 정의하여 제공합니다. 삼성 클라우드 플랫폼에서는 인텔 캐스케이드레이크(Intel CascadeLake) CPU를 기반으로한 일반/대용량 VM과 A100/V100 GPU를 기반으로 한 GPU VM 상품을 제공하고 있습니다. 일반 VM은 1 vCore부터 16 vCore까지, 각 vCore 별 최대 16배수의 Memory에 대해 총 41개의 Spec을 제공하고, 대용량 VM은 24 vCore부터 96 vCore까지, 각 vCore 별 최대 12배수의 Memory에 대해 총 24개의 Spec을 제공합니다. 이런 다양한 스펙은 삼성 클라우드 플랫폼을 사용하고자 하는 고객이 기존 레거시 환경과 근접한 자원 규모를 쉽게 선택해서 삼성 클라우드 플랫폼으로 전환할 수 있도록 도와줍니다.
[여기서 잠깐!] CPU(Graphic Process Unit)와 GPU(Central Process Unit)의 차이점
일반적으로 CPU는 중앙처리장치로 주요한 컴퓨팅 자원으로 활용되고, GPU는 그래픽 및 비디오를 활성화 하는데 보조적 역할로 사용되었습니다. 그러나 기술의 발전과 함께 콘텐츠는 다양한 사진, 비디오 등 멀티 미디어로 확대되었고, GPU의 역할이 중요해지게 되었습니다. GPU는 수천 개의 스레드를 동시에 처리할 수 있는 수 백개의 코어로 구성된 특화된 마이크로 프로세서로, 병렬 처리 방식에 특화되어 있어 시간이 많이 걸리는 영상이나 고성능 그래픽 작업의 빠른 수행을 가능하게 해줍니다.
구분 | vCore | Memory (GB) | ||||
---|---|---|---|---|---|---|
x2 | x4 | x6 | x12 | x16 | ||
일반VM | 1 | 2 | - | - | - | - |
일반VM | 2 | 4 | 8 | 16 | 24 | 32 |
일반VM | 4 | 8 | 16 | 32 | 48 | 64 |
일반VM | 6 | 12 | 24 | 48 | 72 | 76 |
일반VM | 8 | 16 | 32 | 64 | 96 | 128 |
일반VM | 10 | 20 | 40 | 80 | 120 | 160 |
일반VM | 12 | 24 | 48 | 96 | 144 | 192 |
일반VM | 14 | 28 | 56 | 112 | 168 | 224 |
일반VM | 16 | 32 | 64 | 128 | 192 | 256 |
대용량VM | 24 | 48 | 96 | 192 | 288 | - |
대용량VM | 32 | 64 | 128 | 256 | 384 | - |
대용량VM | 48 | 96 | 192 | 384 | 576 | - |
대용량VM | 64 | 128 | 256 | 512 | 768 | - |
대용량VM | 72 | 144 | 288 | 576 | 864 | - |
대용량VM | 96 | 192 | 384 | 768 | 1152 | - |
[표1. 삼성 클라우드 플랫폼의 버추얼 서버 제공 스펙]
또한, NVIDIA의 최신 GPU인 A100(80G)/V100(32G)를 버추얼 서버와 결합하여 패스 스루(Pass-through) 방식으로 제공하여, 중소 규모의 성능이 필요한 AI Job 수행 시 편하게 사용할 수 있습니다. 물리 서버에 탑재된 총 8장의 GPU 카드를 1장/2장/4장/8장까지 선택 가능합니다. 특히, A100(80G)를 8장 모두 함께 사용하는 Spec(g1v128a8)의 경우, 멀티 GPU 간 통신 속도를 극대화할 수 있는 NVSwitch를 활성화해 제공하므로 GPU 성능의 강점을 충분히 활용할 수 있습니다.
구분 | V100 Type | A100 Type |
---|---|---|
GPU 세대 | NVIDIA Volta | NVIDIA Ampere |
GPU Memory | 32GB | 80GB |
Tensor Performance | 125 TFLOPs | 312 TFLOPs |
Memory Bandwidth | 4096-bit | 6144-bit |
CUDA Cores | 5120 Cores | 6912 Cores |
Tensor Cores | 640(1st Generation) | 1024(3rd Generation) |
NVLink 세대 | NVLink 2 | NVLink 3 |
총 NVLink 대역폭 | 300GB/s | 600GB/s |
Signaling Rate | 25 Gbps | 50Gbps |
NVSwitch 세대 | - | NVSwitch 2 |
NVSwitch GPU간 대역폭 | - | 600GB/s |
총 집계 대역폭 | - | 9.6TB/s |
연계 스토리지 | Block Storage - SSD | Block Storage - SSD |
[표2. 삼성 클라우드 플랫폼의 GPU 타입 스펙]
- 버추얼 서버 생성시 네트워크 설정 항목
- 서버명: (입력 조건:영문소문자로 시작하여 소문자와 숫자, -를 사용하는 3~28자로 입력하세요.)
- 네트워크 설정: VPC, 일반 서브넷, IP, NAT 사용여부 체크, 로컬 서브넷 사용여부 체크
- DNS 설정: 사용여부 체크
- Security Group: 선택 버튼 (선택 조건: 선택된 Security Group이 없습니다. 5개 이내의 Security Group을 선택하세요.)
[버추얼 서버 생성시 네트워크 설정]
3) 편리한 네트워크 설정 관리 및 안전한 보안 적용이 가능하다.
셋째, 편리한 네트워크 설정 관리 및 보안 적용이 가능합니다. 컴퓨트 상품을 생성하더라도, 실제 서비스 적용을 위해서는 외부 통신을 위한 네트워크 설정을 하는 것이 매우 복잡하고 어려운 부분 중 하나입니다. 삼성 클라우드 플랫폼의 버추얼 서버에서는 다른 네트워크 상품에서 생성한 자원을 간단하게 연계, 적용하여 사용할 수 있습니다. 버추얼 서버 생성 시, VPC 및 서브넷(Subnet), 시큐리티 그룹(Security Group)을 선택하여 자동으로 설정이 가능하고, 생성 후에도 사설 IP(Private IP)와 NAT IP 모두 설정 변경이 가능합니다. 또한, 버추얼 서버간 내부 통신을 위한 로컬 서브넷(Local Subnet)의 경우, 하나의 버추얼 서버에서 최대 3개까지 설정할 수 있어, 다양한 네트워크 구성 요건에 대응할 수 있습니다. 거기에, 버추얼 서버 생성 시 시큐리티 그룹 선택을 필수 요건으로 지정하고 있어서 더 꼼꼼한 네트워크 보안 설정이 가능합니다.
[여기서 잠깐!] 시큐리티 그룹(Security Group)
가상 머신 인스턴스가 주고 받을 네트워크 패킷에 대해 필터링 기능을 제동하는 역할, 통신을 허용할 패킷의 조건을 미리 정의한 다음, 이 규칙을 가상 머신 인스턴스에 적용하는 방식으로 여러 개의 가상 머신 인스턴스에 중복 적용이 가능합니다.
VM 오토 스케일링(VM Auto-Scaling)이란?
IT 관리자/운영자라면, 서비스 이용자 수 변동에 영향을 받지 않고, 안정적인 서비스를 제공하는 것이 중요한 포인트 중 하나일 것 입니다. 원하는 일정에, 원하는 조건에 따라 버추얼 서버를 생성/삭제할 수 있도록, 삼성 클라우드 플랫폼 에서는 VM 오토 스케일링 상품을 제공하고 있습니다. 해당 상품을 활용하면, 자원 사용량을 기반으로 사전에 정의한 조건/일정에 따라 동일한 스펙의 VM을 자동으로 추가 생성 또는 삭제하면서 다양한 상황에 대비할 수 있습니다.
삼성 클라우드 플랫폼, VM 오토 스케일링(VM Auto-Scaling) 특장점
1) 컴퓨팅 자원의 탄력적 사용이 가능하다.
첫째, 컴퓨팅 자원을 상황에 맞게 탄력적으로 사용할 수 있습니다. VM 오토 스케일링을 사용하면, 서비스의 부하량과 사용량에 맞게 탄력적으로 컴퓨팅 자원을 사용할 수 있습니다. 특정 시간대를 지정하여 예상되는 자원 사용량에 대한 스케줄링도 할 수 있으며, CPU/Memory 등 버추얼 서버 주요 모니터링 대상에 연계한 임계치 정책 설정을 통해 자원 사용량을 조절할 수도 있습니다. 또한, VM 오토 스케일링 에 사용될 로드 밸런서(Load Balancer) 및 최대/최소 서버 수량 등을 설정할 수 있어 더욱 유연한 활용이 가능합니다. 사용자가 요구하는 트래픽이 항시 처리될 수 있도록 가변적인 수요에 맞게 자원을 조절할 수 있고 이를 통해 사용자는 애플리케이션의 가용성을 향상시키는 효과를 얻을 수 있습니다.
[여기서 잠깐!] 로드 밸런서(Load Balancer)
로드 밸런서는 트래픽 과부하 시 다수의 서버로 트래픽을 분산시켜 안정적인 서비스가 유지되도록 하는 서비스를 의미 합니다.
2) 비용 절감 효과가 극대화된다.
둘째, 수요 변동에 맞춰 VM 자원이 할당되므로, 비용 절감 효과가 극대화됩니다. 시간마다 변화하는 수요 변동에 따라서 필요한 만큼만 자원을 사용할 수 있어, 불필요한 비용을 줄일 수 있습니다. 예상되는 최대 사용량을 기반으로 버추얼 서버를 항상 생성해 둘 필요 없이, 야간, 주말, 월말 등 특정 시간대 트래픽 증감이나, 실제 사용량을 기반으로 한 유연한 자원 사용을 통해 비용 절감 효과를 극대화할 수 있습니다.
베어 메탈 서버(Bare Metal Server)란?
고성능 독립 서버를 원하는 고객도 삼성 클라우드 플랫폼을 통해서 쉽고 편리한 컴퓨팅 환경 구성을 할 수 있습니다. 클라우드 환경에서 서버는 주로 가상 서버 형태를 사용하게 되는데, 컴퓨팅 활용 목적에 따라 가상 서버 대신 고성능 물리 서버가 필요한 경우가 있습니다. 하지만 고객이 물리 서버를 직접 구매해서 구축하고 사용하려면 초기 투자 비용이 많을 뿐만 아니라, 관리가 어려워 여러 가지 제약이 따릅니다. 이때 베어 메탈 서버(Bare Metal Server)를 사용하면 최적화된 성능의 컴퓨팅 환경을 구축할 수 있습니다. ‘베어 메탈(Bare Metal)’이란 용어는 원래 하드웨어에 어떤 소프트웨어도 설치되어 있지 않은 상태를 말합니다. 이것은 가상화를 위한 하이퍼바이저(Hypervisor) 없이 물리 서버를 그대로 제공하는 것으로, 어떻게 보면 클라우드 서비스와 반대되는 개념으로 들릴 수 있습니다. 그러면, 삼성 클라우드 플랫폼에서 왜 베어 메탈 서버 서비스를 제공하게 되었을까요?
[여기서 잠깐!] 하이퍼바이저(Hypervisor)
하나의 시스템 상에서 가상 컴퓨터를 여러 개 구동할 수 있도록 해 주는 중간 계층을 의미합니다.
제일 중요한 이유는 앞서 언급했듯이 고성능 때문입니다. 가상 서버는 하이퍼바이저를 거치기 때문에 물리 서버를 그대로 사용하는 것에 비해 성능 저하가 발생할 수 있습니다. 하지만, 베어 메탈 서버를 사용하면, 단독으로 물리 서버를 이용할 수 있어, 다른 리소스의 간섭 없이 고성능의 안정적인 서비스를 받을 수 있습니다. 또한 삼성 클라우드 플랫폼의 다른 서비스도 같이 사용하여, 편리하게 원하는 환경을 구축할 수 있습니다.
특히, 삼성 클라우드 플랫폼의 베어 메탈 서버는 로컬 서브넷 및 공유 블록 스토리지(Shared Block Storage) 설정이 가능하여, 오라클 DBMS(Oracle DBMS) 구축에도 최적화되어 있습니다. 그럼 베어 메탈 서버의 특장점은 어떤 것이 있을까요?
삼성 클라우드 플랫폼, 베어 메탈 서버의 특장점
1) 웹 기반 콘솔을 통해, 쉽고 편리한 컴퓨팅 환경 구성이 가능하다.
첫째, 쉽고 편리한 컴퓨팅 환경 구성이 가능합니다. 웹 기반 콘솔을 통해 베어 메탈 서버의 프로비저닝부터 모니터링, 빌링까지 사용자가 직접 셀프 서비스로 손쉽게 사용이 가능합니다. 표준 스펙(CPU, Memory, Disk 등)의 서버를 간편하게 생성하여 즉시 활용할 수 있으며, 자원 사용량 정보도 쉽게 확인이 가능합니다. 현재, 삼성 클라우드 플랫폼에서는 총 12개의 다양한 표준 스펙을 제공하고 있어 고객은 원하는 스펙을 선택할 수 있고, 운영 비용을 효과적으로 관리할 수도 있습니다. 또한, 다양한 OS 유형 및 표준 이미지를 제공하는데, 현재 제공 중인 OS는 CentOS, RHEL, Ubuntu, Windows 등입니다. OS 용 Internal Disk 외 추가로 블록 스토리지, 파일 스토리지, 오브젝트 스토리지를 연결할 수 있으며, 삼성 클라우드 플랫폼의 다양한 네트워크 서비스를 연동해 사용할 수 있습니다. VPC Firewall과 연계하여 접근을 제어하거나, 서버 간 통신을 위한 로컬 서브넷 연결과 외부 인터넷 통신을 위한 NAT IP 설정 등이 가능합니다.
[여기서 잠깐!] VPC(Virtual Private Cloud)
VPC는 클라우드 환경에서 논리적으로 독립된 고객 전용 사설 네트워크 공간을 제공하는 서비스를 의미합니다.
2) 고성능 컴퓨팅 환경도 쉽게 구성이 가능하다.
둘째, 고성능 컴퓨팅 환경 구성이 가능합니다. 삼성 클라우드 플랫폼에서는 실시간(Real-Time) 시스템, 대규모 데이터베이스, 과도한 I/O 사용이 요구되는 서버 등 빠른 연산과 고성능을 요구하는 워크로드에 적합한 서버를 물리적으로 분리된 환경으로 제공합니다. 기본 제공하는 CPU는 인텔 캐스케이드 레이크(Intel Cascade Lake)이며, 고성능을 보장하기 위해 3.0Ghz 이상의 고클럭의 CPU를 사용하고 있습니다. 삼성 클라우드 플랫폼은 다년간의 클라우드 서비스 제공 경험을 바탕으로 최적의 서버 선정 및 자체 테스트를 통해 높은 성능과 안정성을 보장합니다. 이처럼 삼성 클라우드 플랫폼은 높은 성능의 Disk I/O가 요구되는 워크로드에 적합하기 때문에 오라클 DBMS 구축에 많이 사용되고 있으며, 라이선스 또는 지원 요구 사항의 제약으로 인해 가상화되지 않은 환경에서 실행되어야 하는 애플리케이션을 사용하려는 고객에게 적합합니다.
멀티-노드 GPU 클러스터(Multi-node GPU Cluster)란?
많은 기업에서 AI를 채택하면서 학습, 추론 등 데이터 문제들을 해결할 수 있는 컴퓨팅 성능이 필요해졌습니다. 삼성 클라우드 플랫폼은 기존의 가상 서버 기반의 GPU 서비스에서, 대규모 고성능 AI 연산을 위한 베어 메탈 서버 기반의 GPU 제공 서비스를 출시하여 GPU 서비스 범위를 확대 하였습니다. 멀티-노드 GPU 클러스터는 대규모의 고성능 AI 연산을 위해 물리 GPU 서버를 가상화 없이 제공하는 서비스입니다. GPU가 장착된 베어 메탈 서버를 통해 다수의 GPU를 클러스터링 할 수 있으며, 삼성 클라우드 플랫폼의 고성능 스토리지 및 네트워킹 상품과 연계하여 편리하게 GPU 서버를 사용할 수 있습니다. 고객이 자체 GPU 플랫폼을 보유한 경우, 멀티-노드 GPU 클러스터에서 제공하는 IaaS 단독 서비스를 사용할 수 있고, 혹은 삼성 클라우드 플랫폼의 쿠버네티스 상품을 이용하여 컨테이너 기반의 멀티-노드 GPU 클러스터를 사용할 수도 있습니다.
삼성 클라우드 플랫폼, 멀티-노드 GPU 클러스터의 특장점
1) 손쉬운 GPU 클러스터 아키텍처를 구성할 수 있다.
첫째, 손쉽게 GPU 클러스터 아키텍처 구성이 가능합니다. 삼성 클라우드 플랫폼의 멀티-노드 GPU 클러스터는 고성능 엔비디아 슈퍼팟(NVIDIA SuperPOD) 아키텍처를 적용한 베어 메탈 서버를 제공합니다. 따라서 GPU를 활용한 다수의 사용자 혹은 대규모 AI 모델 학습의 고성능 분산 워크로드 처리 등이 가능합니다. NVIDIA A100(80GB) GPU 8개를 장착한 표준 GPU 베어 메탈 서버를 제공(Internal NVMe Disk, NVIDIA 2세대 NVSwitch, NVIDIA 3세대 NVLink)하며, RDMA SW Stack의 OS 표준 이미지 역시 제공합니다.
2) 삼성 클라우드 플랫폼의 고성능 네트워크와 연계 서비스도 제공된다.
둘째, 삼성 클라우드 플랫폼의 고성능 네트워크와 연계한 서비스를 제공합니다. 멀티-노드 GPU 클러스터는 삼성 클라우드 플랫폼의 네트워크 자원과 연동하여 고성능이 필요한 AI Job을 수행할 수 있습니다. 인피니밴드(InfiniBand) HDR 200Gbps 스위치를 이용하여 GPU Direct RDMA(Remote Direct Memory Address) 환경을 구성함으로써 GPU 메모리 간 데이터 IO를 직접 처리하여 AI/Machine Learning 고속 연산이 가능합니다.
3) 삼성 클라우드 플랫폼의 고성능 스토리지와도 연계 서비스를 제공한다.
셋째, 삼성 클라우드 플랫폼의 고성능 스토리지와 연계한 서비스를 제공합니다. 멀티-노드 GPU 클러스터는 삼성 클라우드 플랫폼의 다양한 스토리지 자원과 연계하여 사용할 수 있습니다. 100Gbps N/W와 직접 연동한 고성능 파일 스토리지 사용이 가능하며, 블록 스토리지 및 오브젝트 스토리지도 연계 사용이 가능합니다.
- Bare Metal Server: CPU, NVSwitch(600Gbps)
- InfiniBand HDR(200GbpsX4)I: HCA - GPU Direct RDMA 구간 - HCA
- 25 Gbps: Bock Storage(BM), OBject Storage(BM)
- 100 Gbps 고성능 스토리지: AFA NAS Storage
[그림1] 멀티 노드 GPU 클러스터 구성도
HPC 클러스터(High Performance Computing Cluster)란?
사용자의 업무 환경이 점점 다양해짐에 따라서, CAE(Computer-Aided Engineering) 애플리케이션처럼 고도로 복잡한 연산을 수행하기 위한 시스템 구성이 필요한 경우가 있습니다. 하지만, CAE구성을 위해 적합한 H/W 및 S/W를 사용자가 자체적으로 검토하고, 설치/관리 하기에는 고려해야 할 사항이 너무 많습니다. 삼성 클라우드 플랫폼에서는 이런 사용자의 니즈를 고려하여, 삼성SDS에서 사전 검토한 고성능 베어 메탈 서버 자원 및 필요한 S/W를 자동 구성하여 제공하는 HPC 클러스터 상품을 사용하실 수 있습니다.
[여기서 잠깐!] CAE(Computer-Aided Engineering)
컴퓨터를 활용하여 공학적인 설계와 분석 작업을 지원하는 기술 및 접근 방법을 말합니다. 이를 통해 제품 및 시스템의 설계, 개발 및 최적화 과정을 효율적으로 수행할 수 있습니다. CAE는 다양한 분야에서 활용되며, 기계, 전기, 전자, 구조, 열역학 등 다양한 공학 분야에서 사용될 수 있습니다.
삼성 클라우드 플랫폼, HPC 클러스터의 특장점
1) HPC 클러스터용 환경 구성을 콘솔을 통해 편리하게 할 수 있다.
첫째, 삼성 클라우드 플랫폼은 HPC 클러스터용 환경을 자동 구성하여 제공합니다. 고객은 삼성 클라우드 플랫폼의 콘솔을 이용하여 편리하게 베어 메탈 서버, 네트워킹, 파일 스토리지 자원을 생성/관리하고, 컴파일러, MPI 라이브러리, 작업 스케쥴러(Job Scheduler)를 자동 설치할 수 있습니다. 오픈소스 미들웨어는 GCC(GNU Compiler Collection), Open MPI, Slurm(Simple Linux Utility for Resource Management)을 제공하며, 제공 솔루션은 지속 확대할 예정입니다. 자동으로 설치된 작업 스케쥴러를 활용하면 가용 자원이 부족한 경우 대기 후 자원을 배정받을 수 있으며, 작업 현황 확인 및 사용 이력 저장까지 편리하게 이용 가능합니다. 또한, 베어 메탈 서버의 하이퍼 스레딩(Hyper Threading) 기능의 On/off를 제어할 수 있어, 구성하고자 하는 환경/시스템 속성에 따라 직접 선택하여 사용할 수 있습니다.
2) 고성능의 IaaS 자원을 기반으로 서비스를 제공하므로 고속 처리가 가능하다.
둘째, 삼성 클라우드 플랫폼은 고성능의 IaaS 자원을 기반으로 서비스를 제공합니다. 최대 20대의 고성능 베어 메탈 서버를 활용하여 계산 노드를 구성할 수 있으며, 베어 메탈 서버 전용 파일 스토리지에 계산 결과의 저장 및 공유가 가능하여 복잡한 연산의 고속 처리가 가능합니다. HPC 클러스터의 운영 중지 시, 사용하던 베어 메탈 서버에 대한 과금은 제외되며, 연결된 파일 스토리지의 데이터는 유지됩니다.
3) 고객이 보유한 CAE 애플리케이션을 활용할 수 있다.
셋째, 삼성 클라우드 플랫폼의 HPC 클러스터를 사용하면 고객이 보유한 CAE 애플리케이션을 활용할 수 있습니다. 삼성 클라우드 플랫폼의 HPC 클러스터 환경에서는 고객이 보유하고 있는 CAE용 애플리케이션을 직접 손쉽게 설치할 수 있어 업무의 연속성이 보장됩니다. 또한, 일반적인 원격 접속 프로그램(Putty 등) 사용이 가능하여 비용 효율적인 고성능 컴퓨팅 환경을 구성할 수 있습니다.
- SCP-E Console 접속 → 회원 가입/ 로그인 → 프로젝트 생성 → HPC Cluster 상품 신청 (마스터 노드 → 계산 노드) → 접속정보 확보 IP, UserID, PW
- 접속정보 이용 HPC Cluster 접속(Putty, Mobaxterm 등 이용 ※고객소유) → 실 사용자 등록(ID/PW) → Application 설치 (※고객소유)
[그림2] HPC Cluster 사용자 시나리오
맺음말: 편의성과 고기능성, 하나도 포기할 수 없는 두 마리 토끼를 잡는 삼성 클라우드 플랫폼
삼성 클라우드 플랫폼에서는 컴퓨트 상품을 기반으로, 변화하는 비즈니스 요구 환경에 신속하게 대응하기 위해 지속적인 개선을 고민하고 있습니다. 현재 제공하는 CPU/GPU/OS 자원뿐만 아니라, 최신으로 출시된 인텔 엘더 레이크 CPU(Aider Lake CPU), 엔비디아 A40 GPU를추가하고, 로키 리눅스(Rocky Linux), 알마 리눅스(Alma Linux)등 신규 OS 반영을 준비 중입니다.
멀티-노드 GPU 클러스터는 현재 최대 20대까지 가능한 서버 구성을 그 이상으로 확장할 수 있도록 하고, HPC 클러스터는 버추얼 서버를 활용한 오토-스케일링 구조를 적용하여 워크로드 변동에 유연하게 대응할 수 있는 계산 환경을 제공할 예정입니다.
또한 HPC 클러스터 사용자용 Web 포탈을 별도로 제공하여 Job 제출, 사전 및 사후 처리를 위한 작업 환경 제공 등을 통해 HPC 수행의 편의성을 높이고자 합니다.
클라우드 환경에서 편의성과 고기능성은 모두 포기할 수 없는 가치이니만큼, 삼성 클라우드 플랫폼을 통해 다양한 컴퓨트 상품을 용도에 맞게 활용하고 안정적인 컴퓨팅 환경 구축 및 운영에 도움이 되기를 기대합니다.
삼성 클라우드 플랫폼의 컴퓨트 상품을 만나보세요.
- 최지선 프로 / 삼성SDS
- Samsung Cloud Platform의 Compute 영역 상품 기획을 담당하고 있으며, 고객의 비즈니스 요구에 대응하여 경쟁력 있는 상품을 제공하고자 고민합니다.
- 최문실 프로 / 삼성SDS
- 다년간의 인프라 상품 기획 경험을 바탕으로, 현재는 Samsung Cloud Platform의 Virtual Server 관련 상품을 기획하고 있습니다.