수퍼톤
콘텐츠 제작의 미래,
GPUaaS로 가속화되는 AI 음성 혁명

- 수퍼톤(Supertone)은
-
인공지능(AI) 음성 합성 기술 및 서비스를 개발하는 스타트업 입니다. 2020년 3월 서울대학교 음악오디오 연구실의 이교구 교수가 삼성전자 출신 허훈 CTO외 4인과 함께
설립하였습니다.
수퍼톤은 음성 합성, 음성 변환, 실시간 목소리 변환 등 다양한 AI 기술을 통해 창의적인 음성 경험을 제공합니다. 이를 바탕으로 음악, 영화, 게임, 애니메이션 등 콘텐츠 제작 분야에서 새로운 가능성을 열고 있습니다.
산업 분야: 엔터테인먼트
2020년 이후 AI 기술은 음성 인식과 합성 분야에서 비약적인 발전을 이루며 인간의 목소리를 정밀하게 재현하고 창의적으로 확장하는 단계에 접어들었습니다. 이러한 혁신의 흐름 속에서 AI 음성 기업 수퍼톤은 삼성 클라우드 플랫폼(SCP)의 GPUaaS를 도입하여 기술 발전 속도를 획기적으로 향상시키는 것은 물론, 기술과 예술이 융합된 새로운 ‘AI 음성 르네상스‘ 시대를 선도하고 있습니다. 고성능 GPU 인프라를 기반으로 서비스 개발 사이클을 드라마틱하게 가속한 수퍼톤은, AI 음성 합성 및 향상 기술의 품질 안정성을 높이는 동시에 서비스의 빠른 시장 진입을 실현하고 있습니다.
제품 출시 속도와 사용자 경험을 동시에 개선
- 최신 H100 GPU를 탑재한 삼성 클라우드 플랫폼(SCP)의 GPUaaS 인프라 도입을 통해, 장애 없는 안정적인 MLOps 플랫폼을 구축하여 AI 모델 학습과 음성 합성 개발 사이클을 비약적으로 가속화
- SCP의 멀티노드 GPU 클러스터를 활용하여 문장 길이 제한 해소 및 자연스러운 발화 표현을 달성하여 사용자 경험 개선
빠른 시장 진입의 비결, 안정적인 멀티노드 GPUaaS
AI 음성 기술의 발전속도는 놀라울 정도로 빠르지만, 그 과정에서 반드시 해결해야 할 도전과제가 있습니다. 특히 더 많은 데이터를 이용하여 더 큰
모델을 훈련하고 안정적으로 운영하기 위한 컴퓨팅 인프라 확보는 AI 스타트업이 성장하는 데 있어 결정적인 요소가 됩니다.
수퍼톤도 예외가 아니었습니다. 창업 초기에는 연구실용 GPU 서버를 직접 구매해 호스팅하며 AI 모델을 개발했지만, 시간이 지날수록 노후화된 하드웨어와 높은 관리 비용, 인프라 전문 관리
인력의 부재, 서버 장애로 인한 데이터 손실 등의 한계에 직면했습니다.
이러한 문제를 해결하기 위해, 수퍼톤은 SCP 멀티노드 GPUaaS를 도입하여 인프라의 확장성과 안정성을 확보하고, 인프라 관리 부담 없이 AI 모델 개발에만 집중할 수 있게 되었습니다.
“온프레미스 GPU 서버들은 시간이 지날수록 하드웨어 문제로 서버 다운이 잦아졌고, 복구에도 오랜 시간이 소요됐어요. 반면 SCP의 GPUaaS는 6개월 넘게 사용하면서 단 한 번의 GPU 다운 상황에서도 하루도 안 되는 시간 내에 완벽하게 해결해 주셨죠.
GPU 장비 자체의 문제는 어디서나 발생할 수 있지만, SCP는 문제 발생 시 빠르고 적극적인 대응으로 큰 차이를 보여줬어요. 이런 신속한 대응과 문제 해결 능력이 GPUaaS 도입 후 느낀 가장 큰 시스템 안정성과 가용성 측면의 개선점이었습니다.”
– 수퍼톤 MLE팀 MLOps 엔지니어 최일지 님
TTS 모델 훈련 시간 3배 단축, 고성능 GPU 컴퓨팅 파워
수퍼톤은 2023년부터 제품 중심의 성장 기조를 채택함에 따라 TTS를 기반으로 한 제품이 전략적으로 매우 중요해졌습니다.
과거 온프레미스 환경에서 다양한 음성합성 작업의 기반 모델인 낸시(NANSY) 훈련에 2달, 그 기반으로 TTS 훈련에 6주, 전체 모델 훈련을 위해서 3달 반이 걸렸지만, SCP 인프라
도입 이후 동일한 설정에서 훈련 시간이 3배 단축되었고, 모델 아키텍처 및 훈련 방법을 최적화하여 TTS 모델 훈련을 단 4일만에 완료할 수 있게 되었습니다.
이 획기적인 속도 개선 덕분에 수퍼톤은 모델 체크 포인트를 더욱 자주 업데이트 할 수 있게 되었고, 제품의 품질을 빠르게 개선할 수 있었습니다. 기존에는 모델이 완전히 학습된 후에야 성능을
평가할 수 있었지만, 이제는 중간중간 AI 모델의 성능을 평가하고 조정하면서 출시 일정을 계획적으로 관리할 수 있습니다.
온프레미스 시스템
불안정한 시스템으로 인한 훈련 기록 유실
긴 훈련 기간
SCP 인프라
높은 시스템 안정성으로 신뢰할 수 있는 장기 모델 훈련 작업
짧은 훈련 기간
AI 음성 기술의 핵심은 사람처럼 자연스럽게 감정을 표현하고, 맥락을 이해하며, 다양한 언어와 길이의 문장을 매끄럽게 발화할 수 있는 능력입니다.
수퍼톤은 이러한 목표를 달성하기 위해 멀티 노드 GPU 클러스터를 적극 활용했습니다. 기존 온프레미스 환경에서 훈련된 AI 음성 모델은 한번에 처리할
수 있는 문장 길이가 200자로 제한되어 있었지만 이제는 300자로 확장하였고, 설정에 따라 더 길고 복잡한 문장도 얼마든지 소화할 수 있게 되었습니다. 이를 통해 특히 영어권 사용자들이
불편했던 길이 제한 문제를 해소하여 서비스의 확장에 기여하였고, 현재는 150개국 이상에서 사랑 받는 글로벌 서비스로 발돋움 하였습니다.
AI 음악 감정 표현력 향상
- 더 긴 문장처리로 자연스러운 발화 - AI가 더 긴 문장을 효과적으로 처리하도록 허용
- 스토리텔링의 몰입감 증가 - AI가 더 창의적으로 표현할 수 있도록 함
- 맥락 이해 향상 - AI가 더 깊은 의미를 이해하도록 지원
- 감정 표현력 향상 - 사용자에게 더 풍부한 감정을 전달
“AI 음성 기술의 발전은 단순한 기술적 진보가 아니라,
창작자들이 더 쉽게 창작 의도를 표현할 수 있는 환경을 제공하는 것입니다. 삼성 클라우드 플랫폼의 GPUaaS 덕분에 우리는 AI 음성 분야의 새로운 가능성을 실현해 나가고 있습니다.”
– 수퍼톤 CTO 허훈
기술지원이 곧 경쟁력! AI 기업이 믿고 맡길 수 있는 파트너십
AI 인프라는 단순히 고성능 컴퓨팅 자원을 제공하는 것 만으로는 충분하지 않습니다. 예상치 못한 문제 발생 시 신속하게 대응하고 해결할 수 있는 기술 지원이 뒷받침 되어야만 기업이 안정적으로
서비스를 운영할 수 있습니다.
수퍼톤은 SCP GPUaaS를 사용하면서 기술지원 측면에서 강한 인상을 받았습니다. 예기치 않은 오류가 발생했을 때, 삼성SDS 엔지니어팀의 끈질긴 분석과 프로페셔널한 기술지원으로 문제를
빠르게 해결했고, 이를 통해 단순한 서비스 공급자가 아닌, 기술 지원 파트너의 가치를 실감할 수 있었습니다.
- 신속한 문제 해결 - 문제 발생 시 신속한 대응
- 전문성 - SCP 전문가의 기술역량 및 노하우
- 책임감 있는 지원 - 신뢰할 수 있는 책임감있는 기술지원
“삼성 클라우드 플랫폼(SCP)의 GPU는 용광로와 같습니다. 아주 튼튼하고 깨지지 않는 늘 믿을 수 있는 존재입니다.“
– 수퍼톤 CTO 허훈
수퍼톤은,
AI 기술 오남용 방지와 신뢰도 향상을 위해 오디오 파일에 식별 가능한 메시지를 삽입 하는 오디오 워터마킹 기술을 개발하고 있습니다. 이를 통해 소유자의 동의 없이 목소리가 타인으로부터
무단으로 사용되지 않도록 보호할 것입니다. 이 뿐 아니라, AI 음성 기술을 더욱 발전시키고, LLM 및 멀티모달 AI 기술을 활용한 새로운 서비스들을 개발할 계획입니다. 이를 위해서는 더
강력한 GPU 인프라가 필요하며, SCP GPUaaS는 이러한 목표를 안정적으로 실현하도록 돕는 중요한 파트너가 될 것입니다.
AI 음성 기술이 더 정교하고 자연스러워질수록 콘텐츠 제작의 한계도 사라지게 됩니다.
수퍼톤이 그려나가는 AI 음성 기술의 미래를 기대해주세요.
적용 기술 삼성 클라우드 플랫폼(SCP) GPUaaS