기존의 사이버 보안 체계는 다양한 한계를 보여왔습니다. 암호화(Encryption)가 대표적입니다. 데이터의 실체를 숨기기 위해 암호화 키 등 특정 알고리즘을 적용하는 암호화는 대칭 키 암호화와 비대칭 키 암호화 방식으로 나뉩니다. 대칭 키 암호화는 데이터를 송신하는 측(암호화)과 수신하는 측(복호화)이 하나의 동일 키를 사용해 중간 과정에서 암호화된 데이터가 노출되더라도 기밀성을 유지하는 방식입니다. AES(Advanced Encryption Standard), DES(Data Encryption Standard) 등의 알고리즘이 대칭 키 암호화에 속합니다.
비대칭 키 암호화는 공개 키와 개인 키로 이뤄진 두 개의 키를 사용해 암호화와 복호화를 진행합니다. 즉 공개 키로 암호화를 하고, 그에 상응하는 개인 키가 있어야 복호화가 가능한 구조입니다. 일반적으로 애용되는 RSA(Rivest-Shamir-Adleman), 디지털 서명에 쓰이는 DSA(Digital Signature Algorithm) 방식이 비대칭 키 암호화에 속합니다. 대칭 키 암호화는 하나의 비밀 키를 사용하므로 효율적이고 빠르지만 송신자와 수신자가 키를 안전하게 분배받아야 하고 관리가 어렵다는 단점이 있습니다. 비대칭 키 암호화는 대칭 키 암호화보다 복잡한 방식으로 구현되므로 키가 복잡하고 연산 속도가 느립니다. 따라서 실시간 데이터 처리와 전송 등이 필요한 환경에 어울리지 않는 한계를 갖습니다.
해킹 패턴 혹은 악성 프로그램 등 일련의 공격들에서 발견한 고유의 특징을 활용한 방식, 즉 시그니처 기반의 탐지(signature-based detection)도 신속 정확한 보완책으로 알려져 있습니다. 비정상 공격들이 지니고 있는 패턴을 사전 정의 정보로 활용하므로 그에 상응한 공격을 정확하고 빠르게 탐지할 수 있습니다. 그러나 사전 정의된 정보만을 활용한다는 특징으로 인해 새로운 유형의 공격 혹은 복잡하고 연속적인 구조의 공격에 취약하다는 한계가 있습니다. 비정상 공격은 소기의 목적을 달성하기 위해 그 형태를 자주 바꾸므로 시그니처 기반 탐지 기술도 그에 맞춰 지속적으로 업데이트를 해줄 필요가 있습니다. 그에 따라 비용과 시간 문제가 발생합니다. 이처럼 기존의 보안 체계가 갖고 있는 단점을 보완하고 날로 발전하는 악성 공격에 보다 효율적으로 대응하고자 생성형 AI 기반의 보안 기술이 발전하고 있습니다.
1) 비밀번호 생성과 보호
Hitaj와 동료 연구자들이 제안한 PassGAN은 강력한 비밀번호를 판별하고 만들어주는 생성형 AI 기반 알고리즘입니다. 대규모 비밀번호 데이터를 생성형 AI가 학습하면 비밀번호의 구조와 패턴을 인식할 수 있게 됩니다. PassGAN은 패스워드의 분포를 학습하는 생성적 적대 신경망(Generative Adversarial Network; GAN)을 활용해 안전한 비밀번호의 패턴을 따르는 고유한 비밀번호를 생성할 수 있게 됩니다.
아래 그림은 PassGAN의 아키텍처를 보여줍니다. 크게 생성기(Generator Architecture)와 판별기(Discriminator Architecture)로 이뤄져 있으며 각각은 입력 데이터를 받아 심층 신경망 학습의 효율성과 정확도를 높이는 잔차 블록(residual block)을 거쳐 출력 데이터를 만들어내는 구조로 되어 있습니다.
연구자들이 PassGAN을 제안하게 된 배경 중 하나는 HashCat이나 John the Ripper와 같은 비밀번호 추측 도구의 제약을 생성형 AI로 해결하고자 하는 목적이 컸습니다. 즉 이들 도구는 사용자가 초당 수십억 개의 비밀번호를 비밀번호 해시 (hash)와 대조할 수 있게 해 주고 단어 연결(concaternation of words)이나 릿 스피크(leet speak) 방식으로 비밀번호를 만들어줍니다. 단어 연결 방식으로 만들어진 비밀번호로는 “password123456”, 릿 스피크 방식으로 만들어진 비밀번호는 ‘password’라는 평범한 단어 조합을 ‘p4s5w0rd’처럼 문자가 아닌 기호를 섞어 변형된 형태가 있습니다. 단어 연결이나 릿 스피크 방식은 실제 활발히 쓰이고 있지만 보다 많고 다양한 비밀번호를 만드는 데는 한계가 있습니다. 이런 차원에서 PassGAN은 GAN을 활용해 비밀번호 생성의 다양성과 확장성을 구현한 알고리즘으로 볼 수 있습니다. 덕분에 사용자는 추측이 어려운 비밀번호를 만들 수 있어 자신의 계정에 대한 의심스러운 접근이나 로그인 시도를 예방할 수 있게 됩니다.
2) 비정상 텍스트 탐지
피싱 이메일은 대표적인 악성 공격입니다. 피싱 이메일에는 이메일 주소를 포함해 발신 시간, 이메일 본문, 클릭을 유도하는 링크 등 다양한 텍스트가 포함되어 있습니다. 구글의 Gemini, OpenAI의 GPT 모델, 메타의 Llama 등 초거대 언어 모델(Large Language Models; LLM)을 통해 이메일의 텍스트 데이터를 분석하면 해당 이메일이 비정상(피싱)인지 정상인지 파악할 수 있습니다. LLM을 기반으로 한 피싱 탐지 시스템은 지속적인 학습과 업데이트를 통해 새로운 피싱 기법에 대응할 수 있습니다. 비정상 이메일을 탐지하기 위해서는 피싱 이메일과 정상 이메일이 포함된 데이터가 수집되어야 합니다. 이후 이메일에 포함된 각종 텍스트를 토큰화하고 공백 등 불필요한 요소를 제거하는 전처리가 필요합니다. LLM 모델은 전처리된 훈련 데이터를 학습해 패턴을 정상 이메일과 비정상 이메일 고유의 패턴을 파악하게 됩니다. 비정상 이메일에서 자주 쓰이는 키워드, 문장 구조 등이 탐지되게 됩니다. 테스트 데이터에서 일정 기준 이상의 성능이 담보된 LLM은 실제 이메일 시스템에 적용되어 실시간으로 비정상 이메일을 필터링하는 역할을 수행합니다. 덕분에 사용자는 수상한 이메일이라는 경고를 받거나 자동으로 피싱 이메일을 거를 수 있게 됩니다. LLM이 비정상 텍스트를 준수하게 탐지할 수 있는 비결은 LLM의 강력한 자연어 처리 능력 때문입니다. 단어 파악, 문맥 이해, 의미 분석, 요약, 번역 등 자연어를 다루는데 있어 필요한 거의 모든 일을 LLM이 수행 가능합니다. 이와 관련해 핵심 알고리즘으로 흔히 언급되는 주인공은 셀프 어텐션 메커니즘(Self-attention mechanism)입니다.
셀프 어텐션 메커니즘은 2017년 Neural Information Processing Systems (NIPS) 컨퍼런스에서 Vaswani를 비롯한 연구자들에 의해
3) 시뮬레이션 환경 생성
생성형 AI의 사이버 보안 활용 사례 세 번째는 시뮬레이션 환경 생성입니다. 기업들은 사이버 위협 대응력을 키우기 위해 ‘레드팀 시뮬레이션(red team simulation)’이라 불리는 모의 사이버 공격을 종종 실시합니다. 레드팀 시뮬레이션은 실제 해킹이나 사이버 공격을 모사한 훈련으로 비상시 신속한 대처는 물론 시스템 가용성, 취약점, 효율성 등을 파악하기 위한 목적으로 진행됩니다.
생성형 AI는 레드팀 시뮬레이션에 필요한 개별 요소와 환경 전반을 생성하는데 유용한 역할을 합니다. 시뮬레이션 훈련에서 모사하려는 시나리오와 공격 기술을 학습함으로써 생성형 AI는 현실성 높은 피싱 공격, 취약점 탐지, 실시간 대응 훈련 등을 가능하게 해줍니다. 대표적으로 DDoS(Distributed Denial of Service, 분산 서비스 거부) 공격을 생각해 볼 수 있습니다. DDoS 공격은 서버나 네트워크에 비정상적으로 많은 요청 트래픽을 발생시켜 시스템의 정상 작동을 방해합니다. 일부러 교통 체증을 일으켜 원활한 교통 흐름을 방해하는 것과 비슷한 공격 방법입니다.
아래 그림(Kumari & Jain, 2023)은 공격자와 목표 타깃을 포함한DDoS 공격의 개괄적인 흐름을 보여줍니다.
생성형 AI는 기수집된 DDoS 데이터에서 IP 주소, 요청 빈도, 트래픽 패턴 등을 학습해 임의의 그럴듯한 공격 데이터를 생성합니다. 여러 IP 주소에서 트래픽이 발생하는 것처럼 만들거나 트래픽의 패턴을 다양하게 생성하게 됩니다. 이는 실제와 비슷한 트래픽을 만들어 공격의 의도나 실체를 숨기기 위함입니다.
다양한 공격 패턴으로는 대량의 SYN(synchronize) 패킷을 보내 목표(victim) 서버가 리소스를 소진하게 만들어 정상 서비스를 방해하는 SYN Flood 공격, 웹 서버를 대상으로 대량의 정상 HTTP 요청을 보내 리소스를 소진시키는 HTTP Flood, 대규모 UDP(User Datagram Protocol) 패킷을 목표 서버로 전송해 네트워크 대역폭과 리소스를 소진시키는 공격 등이 있습니다.
Man-in-the-Middle (MITM) 공격 훈련도 양상은 비슷합니다. MITM 공격은 송신자와 수신자 사이에서 네트워크 통신을 중간에 가로채 변조하는 형태입니다. 이 공격의 핵심은 송신자와 수신자가 서로 정상 통신하는 것처럼 보이게 만드는 것으로 주소 결정 프로토콜(Address Resolution Protocol) 정보를 조작해 데이터를 탈취하는 ‘ARP 스푸핑(ARP spoofing)’, 가짜 IP(internet protocol) 정보를 사용하는 ‘패킷 스니핑(packet sniffing)’, DNS(Domain Name Server) 정보를 조작해 악성 사이트로 유도하는 ‘DNS 스푸핑(DNS spoofing, DNS cache poisoning)’ 등의 유형이 있습니다. 이 중 ARP 스푸핑의 경우 생성형 AI를 활용하면 IP-MAC 주소 매핑을 바꿔 특정 네트워크 환경에서 트래픽을 가로채는 시나리오를 만들 수 있습니다. AR는 IP 주소를 MAC 주소로 변환하는 프로토콜로 아래 그림(Morsy & Nashat, 2022)과 같이 보통 테이블 형태로 정리되어 있으며, 두 주소가 원활히 소통할 수 있도록 해줍니다.
생성형 AI는 특정 네트워크 환경의 구성 요소들 즉 IP 주소 범위나 현재의 ARP 테이블 정보 등을 학습해 임의의 ARP 정보를 생성 및 조작하게 됩니다. 이를 활용해 공격 대상(victim)이 갖고 있는 IP에 공격자의 MAC 주소를 매핑하도록 설정할 수 있습니다. 이에 따라 중간에서 공격자는 송수신 트래픽을 탈취할 수 있게 될 뿐 아니라 조작된 데이터를 다시 전달할 수도 있습니다. 이런 공격 시나리오를 통해 기업은 자사의 네트워크가 ARP 스푸핑에 얼마나 취약한지 평가할 수 있고, 대응은 어떻게 해야 하는지 훈련하게 됩니다.
생성형 AI는 특유의 데이터 생성 능력 덕분에 전통적인 사이버 보안책의 단점을 보완하고 더 뛰어난 성능을 보여주고 있습니다. 비밀번호 생성, 비정상 텍스트 탐지, 시뮬레이션 환경 생성 등 지금까지 살펴본 사례에서 생성형 AI와 사이버 보안의 시너지가 잘 드러납니다. 뿐만 아니라 생성형 AI는 악성 공격자의 정체를 파악하거나 속여서 유인할 수 있는 허니팟(honey pot) 시스템을 만드는데 쓰이기도 합니다. 가짜 웹사이트, 미끼 네트워크 등 그럴싸한 함정(persuasive decoy) 시스템을 만들 수 있으며, 공격자와 생성형 AI와의 대화를 통해 공격자의 특징이나 계획을 파악할 수도 있습니다. 나아가 정적인 허니팟 시스템이 아닌, 공격 트래픽의 실시간 탐지를 통해 동적으로 업데이트 되는 허니팟 시스템을 구축할 수도 있습니다.
아래 그림(Sai et al., 2024)은 사이버 보안 영역에서의 생성형 AI 응용 사례 외에도 다양한 역할이 가능하다는 것을 보여줍니다.
생성형 AI와 사이버 보안의 만남은 이전에 없던 새로운 지평을 열고 있습니다. 기존 사이버 보안책은 나름의 장점에도 불구하고 공격 기술의 발전과 빈도의 증가로 더욱 발전된 형태의 대응을 요구하고 있습니다. 이런 상황에서 생성형 AI 기술은 한층 정교하고 효율적인 보안 솔루션을 제공하고 있습니다. 비밀번호 생성, 비정상 데이터 탐지, 시뮬레이션 환경 생성 등 다양한 사례에서 생성형 AI는 사이버 보안의 중요한 기반 기술로 자리 잡고 있습니다. 앞으로도 생성형 AI 기술은 빠르게 발전하며, 사이버 위협에 대한 대응력을 더욱 강화할 것입니다. 이를 통해 우리는 더욱 안전하고 신뢰할 수 있는 디지털 환경을 구축할 수 있을 것입니다. 생성형 AI와 함께하는 사이버 보안의 튼튼한 미래가 기대됩니다.
참고자료
[1] Sai, S., Yashvardhan, U., Chamola, V., & Sikdar, B. (2024). Generative ai for cyber security: Analyzing the potential of chatgpt, dall-e and other models for enhancing the security space. IEEE Access.
[2] Garvey, B., & Svendsen, A. (2023). Can Generative-AI (ChatGPT and Bard) Be Used as Red Team Avatars in Developing Foresight Scenarios?. Analytic Research Consortium (ARC) August.
[3] Kumari, P., & Jain, A. K. (2023). A comprehensive study of DDoS attacks over IoT network and their countermeasures. Computers & Security, 127, 103096.
[4] Morsy, S. M., & Nashat, D. (2022). D-arp: An efficient scheme to detect and prevent arp spoofing. IEEE Access, 10, 49142-49153.
[5] Tan, L., Pan, Y., Wu, J., Zhou, J., Jiang, H., & Deng, Y. (2020). A new framework for DDoS attack detection and defense in SDN environment. IEEE access, 8, 161908-161919.
[6] Hitaj, B., Gasti, P., Ateniese, G., & Perez-Cruz, F. (2019). Passgan: A deep learning approach for password guessing. In Applied Cryptography and Network Security: 17th International Conference, ACNS 2019, Bogota, Colombia, June 5–7, 2019, Proceedings 17 (pp. 217-237). Springer International Publishing.
[7] Al-Asli, M., & Ghaleb, T. A. (2019, April). Review of signature-based techniques in antivirus products. In 2019 International Conference on Computer and Information Sciences (ICCIS) (pp. 1-6). IEEE.
[8] Bokhari, M. U., & Shallal, Q. M. (2016). A review on symmetric key encryption techniques in cryptography. International journal of computer applications, 147(10).
[9] Bhanot, R., & Hans, R. (2015). A review and comparative analysis of various encryption algorithms. International Journal of Security and Its Applications, 9(4), 289-306.
[10] https://www.cloudflare.com/learning/ddos/what-is-a-ddos-attack/
[11] https://www.cloudflare.com/learning/dns/dns-cache-poisoning/
▶ 해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 기고자에게 저작권이 있습니다.
▶ 해당 콘텐츠는 사전 동의 없이 2차 가공 및 영리적인 이용을 금하고 있습니다.