보안정보

전문화된 보안 관련 자료, 보안 트렌드를 엿볼 수 있는
차세대 통합보안관리 기업 이글루코퍼레이션 보안정보입니다.

챗GPT(ChatGPT)로 대변되는 생성형 AI는 게임체인저가 될 수 있을까?

2023.04.05

5,959

01. 서론

2022년 5월 미국 샌프란시스코에서 개최된 RSA 컨퍼런스에서 브루스 슈나이어(Bruce Schneier) 하버드 교수는 앞으로 벌어질 사이버 팬데믹 공격의 중심에 인공지능이 있을 것이라 전망했다. 
그는 "AI가 해킹을 시작하면 마치 외계인처럼 행동할 것이다. 이미 조금씩 현실화하고 있다. AI 텍스트 생성 봇은 이미 인간 담론을 압도한다"라고 전망했다. 또한, “AI 능력이 향상되면서 그들이 더 중요한 결정에 관여하고 있다. 이는 해당 시스템에 대한 공격으로 훨씬 큰 피해를 입힐 수 있다는 말이다"라며, AI를 활용한 공격의 위험성을 경고했다.
이미 이때 슈나이어 교수는 ChatGPT 같은 생성형 AI 붐을 예측하고 있었던 것일까? 그 후 1년이 지난 2023년 3월 OpenAI CEO 샘 알트만은 ABC와의 인터뷰를 통해 “챗GPT(ChatGPT)와 같은 인공지능 컴퓨터들이 사이버 공격에 악용될 수 있다”라고 밝혔다.

[그림 1] Bruce Schneier(Havard Kennedy School Lecturer), Sam Altmans(OpenAI CEO) (출처 : RSAC2022, CNBC)

02. 정보보호 분야에서 인공지능 빙하기 : 신뢰성과 투명성에 발이 걸리다.  

[그림 2] 인공지능 기술의 성장 (출처 : 과학기술정보통신부)

[그림 2]는 인공지능 기술의 성장을 이야기하는 그림이다. 1956년 인공지능 개념 정립부터 2021년 왓슨의 제퍼디쇼 우승, 2016년 알파고의 바둑 우승, 그리고 2023년에는 ChatGPT 이지 않을까 한다. 하나의 개념이 완성되고 이를 실용화, 서비스화에 성공하기 까지는  쉽지 않은 길이다. 

현재, 정보보호 분야에서는 인공지능에 대한 적용이 다양하게 적용되어 왔다.  악성코드를 탐지하는 멀웨어 탐지, 보안 이벤트에 대한 정오탐을 식별해 주는 보안관제, 마이터 어택(MITRE ATT&CK)과 머신러닝(Machine Learning, ML)을 통해 공격에 대한 전술 및 단계를 예측해 주는 예방(Accurate prevention), ML과 데이터 사이언스 기법을 적용하는 위협 헌팅과 포렌식 분야에서 사용되고 있다. 특히, 이제는 모든 분야에서 인공지능 내재화를 이야기하지 않으면 안 될 정도이다. 

하지만, 이러한 인공지능은 현장에서 신뢰성이라는 장벽에 부딪치고 만다. 인공지능에서 말하는 예측 결과에 대해서 보안 전문가들은 쉽게 자리를 내주지 않았으며, 오히려 자신의 자리를 위협하는 어린아이, 아니면 세상을 잘 모르는 책상머리 헛똑똑이라 취급하였다. 이를 보완하기 위해서 자동화라는 이름으로 보안 오케스트레이션 및 자동화 대응(SOAR) 시장이 증가하고,  이는 SIEM-AI-SOAR 라는 구성을 관계를 만들어냈다. 이는 당연한 수순이라고 말할 수 있다. 수집을 담당하는 SIEM, 분석을 담당하는 ML, 대응을 담당하는 SOAR 로 나타낼 수 있으며, 어떻게 보면 보안관제 분야에서 사용자들이 이야기하는 인공지능의 완성은 SIEM-ML-SOAR 를 이야기하는 것이 아닐까 한다. 단지 각각의 제품의 영역이 있고, 이를 연계한 하나의 조화된 패키지가 보안관제 분야에서 원하는 인공지능이 아닐까.

그럼 보안관제 분야 관점에서 더 자세히 살펴보자. 현재까지 보안관제 분야에서는 2가지의 형태의 인공지능 모델이 서로 부족한 부분을 채우면서 적용이 되고 있다. 

첫째는 전통적인 모델 중 하나인 분류/예측 기반의 모델 적용이다.
해당 모델의 목표는 기존의 보안관제 전문가들이 주로 수행하였던 보안 이벤트에 대한 공격유무를 판단하거나, 공격의 유형을 분류하는 것이다. SIEM 이나 단위 보안장비에서 발생하는 공격 이벤트를 수집하고, 공격의 유무나 공격 유형으로 레이블 된 데이터를 머신러닝으로 학습시켜 머신러닝이 보안 전문가를 대신하여 공격의 유/무와 공격 유형을 분류한다. 해당 성능이 잘 나오기 위해서는 레이블 된 학습데이터가 잘 구축되어야 한다. 이때 사용되는 데이터는  보안 전문가들이 보는 SIEM 이나 IDS/IPS, WAF 등과 같은 보안장비의 이벤트 및 페이로드이다. 하지만, 이러한 모델은 블랙박스(BLACKBOX) 기반이기 때문에 전문가들이 예측한 결과에 쉽게 이해하거나 설명하기가 어려운 단점이 있다. 

둘째는 예측된 결과에 대해 설명이 가능한 AI(SHAP, LIME 등) 적용이다. 
이는 첫 번째 말씀드린 분류/예측 모델의 단점을 극복하고자 적용하는 모델이다. 이때 사용하는 방법은 통계적인 방법을 사용하거나, SHAP, LIME 등 설명 가능한 알고리즘을 사용한다.  
해당 방법을 통해 인공지능에서 예측된 결과는 그래프 등을 통해 수치화되어서 설명이 가능하다. 

03. ChatGPT 기존의 방식을 깨다

이렇게 인공지능의 한계를 인식하면서 XAI, Trust AI 등을 통해 신뢰성과 투명성을 강화하고 있을 때, 2022년 11월 30일 ChatGPT가 나타났다. 그리고 2023년 3월 14일에는 GPT-4 가 공개되었다. ChatGPT는 처음부터 강렬했다. 5일 만에 100만 유저를 돌파했으며, 2달 만에 1억 명 월간 활성 사용자(MAU)를 확보하였다 [그림 3] 참조. 무엇이 이렇게 ChatGPT에 열광하게 만들었을까. 필자는 이것을 3월 16일 사티아 나델라 마이크로소프트 CEO가 이야기한 다음의 연설에서 어느정도 확인할 수 있었다. “우리는 오토파일럿(Autopilot, 자동조정)에서 코파일러(Copilot, 부조정, 공동조정)으로 이동하고 있다.”  다시 말해 우리가 인공지능에 바라는 것은 인공지능이 다 하는 것이 아닌 인간이 어느 정도까지 컨트롤이 가능한 코파일럿 형태이며, 챗GPT는 이러한 우리의 요구사항을 이해하고 적용하고 있다는 사실에 주목할 필요가 있다.

[그림 3] 100만 유저 달성에 걸린 시간 (출처 : Statista)

생성형 AI는 인간이 설명한 것처럼 머신러닝에서 예측한 결과를 숫자가 아닌 글로써 설명해 준다. 이는 기존의 분류/예측 모델, 설명 가능한  AI에서는 부족하였던 보안 전문가와 인공지능의 벽을 허물어준다. 

앞에서 이야기한 기존의 두 모델이 해당 환경에서 생성된 데이터를 기반으로 하고 있다면, 생성형 AI는 외부의 데이터 즉 대용량 언어 데이터를 기반으로 생성된 모델이라고 할 수 있다. 때문에 생성형 AI의 적용은 로컬의 데이터에 외부의 데이터를 학습하여 보안을 강화는 모습이 될 수 있다. 이는 마치 보안 분야에서의 데이터 활용이 기존의 로컬에서 수집되는 데이터(SIEM)에 외부의 위협 인텔리전스(CTI) 데이터를 연계시켜 보안을 강화하는 모델과 비슷하다고 할 수 있다. 이와 같이 정보보호 분야에서의 ChatGPT 같은 생성형 AI는 정보보호 분야의 인공지능 적용에 변화를 줄 것은 확실한 것 같다. 
이러한 생성형 AI는 앞으로 다양한 형태로 보안 분야에 스며들 수 있을 것이다. 
초기에는 ChatGPT 와 같은 단일 AI에 대해 API나 아니면 웹인터페이스 형태로 적용이 될 것이다. 

하지만, 머지않아 다양한 GPT 모델이 나올 것이며, 결국 보안담당자는 다양한 GPT 모델 중 하나를 선택하거나, 아니면 다양한 GPT 모델을 병렬로 같이 적용할 수 있을 것이다. 
그리고 다음은 내부에서 GPT 모델을 스스로 만들어서 사용하게 되지 않을까 한다. 이는 보안의 특성상 외부의 GPT 모델을 사용하기에는 어려운 환경에서 적용될 수 있을 것이다. 특히, 보안은 폐쇄된 망으로 구현되는 경우가 많기 때문에 보안에 최적화된 GPT 모델이 생성되지 않을까 하는 생각이 든다. 

04. ChatGPT를 적용할 때 주의사항

이러한 GPT 모델을 적용하는데 몇가지 조심해야 할 부분도 있다. 
첫번째로, GPT 모델은 생성형 AI 이기 때문에 잘못된 답변을 할 수 있다. 또한, ChatGPT 는 2021.09 데이터까지 학습을 하였기 때문에 더욱더 그렇다. 그리고 최신데이터까지 학습했다고 해도 잘못된 결과를 나타낼 것이다. 이것이 어쩌면 검색엔진 하고 큰 차이점일 수 있다. 이는 글을 잘 생성하는 AI 일 뿐 그것이 Fact 100% 라고 할 수는 없다는 것이다. 

아래의 [그림 4]는 ChatGPT 에게 1111 곱하기 4444를 문의한 결과이다. 여기에서 사용된 모델은 GPT-3.5 이다.  정답은 4,937,284 인데, ChatGPT는 그림에서 보는 바와 같이 4,929,844로 대답하였다. 틀린 답을 이야기 한 것이다. 아주 간단한 곱하기 수학이지만, 생성형 AI 에서는 어려운 문제이다.  

[그림 4] OpenAI ChatGPT를 통해 질의하기

두번째로, 생성형 AI를 사용하기 위해서는 데이터를 생성형 AI에게 보내야 한다. 때문에 두번째로, 생성형 AI를 사용하기 위해서는 데이터를 생성형 AI에게 보내야 한다. 때문에 보안데이터를 그대로 보내게 되면 문제가 될 수 있으며, 이렇게 보내는 보안데이터는 잘못되어 악용될 수도 있다. 때문에 생성형 AI에 전하는 데이터는 비식별화 과정을 거쳐서 생성할 필요가 있다. 

세번째, 질문을 잘해야 된다. 이를 위해서는 질문을 잘해야 되는데 이때 사용되는 프롬프트란 생성형 AI 모델에게서 결과(아웃풋)를 생성하기 위한 여러분의 명령어(인풋)를 뜻한다. 앞서 말씀드린 것처럼 고품질의 결과를 얻으려면 해당 AI 모델을 이해하는 것과 더불어 ChatGPT에게 적합한 프롬프트를 제작하는 것이 중요하다. 이를 통해 가장 효율적이면서도 정확한 답을 찾을 수 있을 뿐더러 정확한 답을 유도할 수도 있다. 

05. ChatGPT로 대변되는 생성형 AI는 보안분야의 인공지능에 게임체인저가 될 수 있을까? 아니면 단지 스쳐가는 바람일까 ?

"게임체인저(Game Changer)"는 어떤 분야에서 갑작스럽게 규칙이나 전략 등을 바꾸어 게임의 규칙을 바꾸거나, 시장을 크게 변화시키는 사람이나 기술 등을 의미한다. 즉, 게임체인저는 그 전까지의 상황과는 다른 새로운 방식으로 일을 처리하거나 새로운 아이디어로 선구자가 되어 새로운 분야를 만들어 내는 역할을 하는 것이다. 

아직은 단언하기 힘들지만, 생성형 AI는 사람과 인공지능 사이의 간격을 줄여줄 수 있는 것만은 확실한 것 같다. 그리고 그 방식을 MS가 먼저, 인공지능을 만지고, 컨트롤 할 수 있다는 욕구를 맛보게 하면서 시장을 주도하고 있다. 하지만, 생성형 AI는 이용자의 특정 요구에 따라 결과를 생성해 내는 인공지능이다. 때문에 보안분야와 같이 정확성과 신뢰성이 요구되는 곳에서는 적합하지 않을 수 있다는 시각도 있다. 하지만, 다른 시각으로 본다면 그렇지 않을 수 있다. 인공지능을 적용한다는 것은 단지 하나의 모델만 적용하는 것이 아니다. 보안관제 프로세스는 다양한 상세업무로 구성이 되어 있다. 때문에 이러한 프로세스를 완성하기 위해서는 기존의 정확성을 기반한 분류/예측모델과 인공지능 결과를 보안분석가들에게 명확히 설명하기 위한 설명형 AI, 그리고 비전문가 중심의 인공지능 결과를 설명하기 위한 생성형 AI를 활용할 수 있지 않을까? 그리고 이 바람은 그냥 스쳐가는 바람이 아니라 보안 분야를 바꿀 수 있는 게임체인저가 되지 않을까 하는 바램이 있다.