보안정보

전문화된 보안 관련 자료, 보안 트렌드를 엿볼 수 있는
차세대 통합보안관리 기업 이글루코퍼레이션 보안정보입니다.

인공지능 기반 보안 관제를 위한 사전 준비 방안

2019.11.06

12,624


■ 0.007%의 확률, 문제 해결의 교두보가 되다
지난 2016년 우리나라에서 개최된 ‘구글 딥마인드 챌린지 매치(Google DeepMind Challenge Match)’는 IBM의 딥블루(DeepBlue)가 세계 체스 챔피언에게 승리를 거둔지 약 19년 만에 치러진 인공지능과 인간의 대결로, 전 세계의 뜨거운 관심을 받았다. 특히 체스와 달리 바둑은 ‘인간만의 영역’이라는 인식이 강했던 만큼 일부 해외 인터넷 도박 사이트를 제외한 대다수의 언론은 인간의 승리를 예측했다.
그러나 2017년 ‘바둑의 미래 서밋(Future of Go Summit)’까지 인공지능 알파고(AlphaGo)는 통산 전적 73승 1패로 인간을 상대로 한 바둑 대결에서 완벽한 승리를 거머쥐게 된다. 인공지능에게 처음이자 마지막 패배를 안겨주었던 이세돌의 ‘백78수’는 0.007%의 확률로 그야말로 신의 한 수나 다름없었다.
‘알파고 쇼크’는 사회 전반에 있어 인공지능 열풍을 불러왔다. 공공, 금융, 교육, 운송 등 다양한 분야에 인공지능 기술이 연구되었고 보안 분야 또한 마찬가지였다. 악성코드 분석, 네트워크 침입탐지, 이상금융거래탐지시스템(FDS, Fraud Detection System), 소프트웨어 및 애플리케이션 취약점 분석, 비정상악성행위 분석 및 탐지 등 다양한 분야에서 회귀분석(Regression), 클러스터링(Clustering) 등 인공지능을 접목한 연구가 활발히 진행됐다.
     
[표 1] 인공지능 기술이 적용된 보안 분야 
오늘날 인공지능은 자동화된 분석 기술과 전문가의 통찰력(Insight)을 함께 제공하기 때문에 기존 보안 환경의 문제를 해결해줄 수 있는 핵심 기술로 자리 잡고 있다. 그렇기 때문에 보안 관제 분야에서도 ▲데이터 증가로 인한 오탐(False Positive)과 미처리 이벤트 및 경보로 인한 보안 관제 업무 증가 ▲고도화·지능화된 공격 기법으로 인한 신규 보안 위협 증가 ▲보안 관제 성숙도를 보유한 전문 인력 부족으로 관제요원 간의 기술 편차 발생 등 다수의 문제 해결을 위한 공통 대안으로 인공지능이 거론되는 것은 그리 놀라운 일이 아니다.
하지만 인공지능이 보안 분야의 모든 문제를 해결해줄 수 있는 만병통치약은 결코 아니다. 인공지능을 적용하려는 정확한 목표와 대상이 설정되지 않는다면, 이는 마치 활주로를 만들기만 하면 화물을 실은 비행기가 올 것이라 기대하고 기다리는 원주민들의 화물 신앙(Cargo Cult, 인과관계를 혼동해 부차적인 것을 중요한 원인으로 믿는 것)과 다를 바 없다. 즉 정확한 인과관계가 확인되지 않은 원본 데이터만으로 막연한 성과를 기대한다면, 활주로에서 비행기를 마냥 기다리는 원주민과 다를 것이 없을 것이다.
그렇다면 보안 관제라는 활주로에서 인공지능이 선사할 결과물을 탑재한 비행기가 정상적으로 이착륙하기 위해서는 어떠한 준비가 필요할까? 성공적인 인공지능 기반 보안 관제를 위하여 사전에 준비해야 할 것들에는 무엇이 있는지 또 이를 어떻게 준비해 나가면 좋을지 그 방안에 대해 이야기하는 시간을 가져보고자 한다.
■ 보안의 영원한 숙제 오탐과 미탐, 인공지능에서 답을 찾다
우리가 흔히 말하는 ‘보안 관제’는 IT 인프라의 보안 수준을 유지 및 향상시키는 것을 목적으로 중앙 집중화된 환경에서 관리적·기술적 위협 요인을 ▲식별 ▲예방 ▲탐지 ▲대응 ▲복구 ▲관리하는 전반적인 프로세스를 가리키며, 운영 및 관리하는 조직인 보안관제센터(SOC: Security Operation Center)가 수행하는 업무를 총칭한다. 보안 관제 업무를 조금 더 세분화하면 ▲보안 솔루션 모니터링 ▲보안 정보 수집 ▲인프라 보안 진단 ▲침해 사고 조사 및 대응 ▲보안 솔루션 운영 등의 하위그룹으로 분류할 수 있다.
그 중 가장 높은 비중을 차지하는 건 단연 모니터링이다. 보안 관제에서의 모니터링은 단순히 IT 인프라의 계층별 구성 요소 보호를 목적으로 구현된 보안 솔루션 이벤트를 정탐(True Positive)과 오탐(False Positive)으로 분류하는 것뿐만 아니라 ESM(Enterprise Security Management), SIEM(Security Information & Event Management)에서 단일 보안 솔루션 이벤트와 로그 등을 수집해 연관성 분석(또는 상관 분석)을 통해 시나리오 기반 경보를 생성하고 더 나아가 위협의 탐지 및 대응까지 해나가는 것을 의미한다.
그러나 빛이 있으면 어둠이 있다는 말처럼, 날로 복잡해지는 IT 환경과 지능화되는 보안 위협에 대응하기 위해 다양한 보안 솔루션들이 속속 개발, 도입되고 있지만, 이러한 다수의 보안 솔루션 도입으로 인해 보안 관리자가 관리해야 할 복잡도도 크게 증가하고 있다. 부적절한 설정(Misconfiguration)이나 보안 취약점으로 야기되는 새로운 공격 요인(Attack Vector), 그리고 보안 솔루션에서 발생되는 이벤트 양이 사람이 처리할 수 있는 일일 처리 이벤트 양을 훨씬 웃돌게 되는 것 등이 바로 그 예다.
물론 다량의 탐지 이벤트의 오탐을 처리하는 문제나 고도화·지능화된 신규 보안 위협이 기존 탐지 정책을 무력화시킴으로써 발생되는 미탐(False Negative)을 처리하는 문제는 어제오늘의 일이 아니다. 어떻게 보면 보안 관제가 시작된 그 순간부터 오탐과 미탐의 발생, 그리고 이들의 신속하고 정확한 처리는 보안 전문가를 계속해서 괴롭혀온 숙제였다. 최근에는 이러한 문제를 해결하기 위한 대안으로 인공지능의 지도학습(Supervised Learning)과 비지도 학습(Unsupervised Learning)이 부상했는데 이에 대해 더욱 자세히 알아보도록 하겠다.
     
[그림 1] 지도학습과 비지도 학습을 통한 보안 관제 방안
지도학습은 이미 알고 있는 공격(Known Attack)이나 공격 요인(Known Threat Actors)을 탐지하기 위해 사용하는 ▲시그니처 매칭(IPS, WAF, DLP, AV) ▲SIEM 정책 ▲블랙리스트 등의 결과를 바탕으로 전문가를 통해 정오탐을 사전에 학습시키는 방식이다. 사전에 학습된 공격 유형이나 공격 요인을 기반으로 이벤트의 사고처리 예측(Event Prediction)이 가능해지고 정·오탐 사고처리 자동화가 가능하게 되면서 미처리되는 이벤트와 오탐이 감소되는 효과를 가지게 된다.
예를 들어 금은방에 도둑이 들었다고 가정해보자. 다행히 금은방에는 CCTV가 동작 중이기 때문에 범행 당시 도둑의 생김새를 확보할 수 있고 범행 현장에 남아있던 지문을 통해 범인의 몽타주를 확보할 수 있어 도둑은 금방 체포할 수 있게 된다.
[그림 2] 데이터 형태에 따른 인공지능 적용 방안 및 효과
비지도 학습은 인지 못하는 공격(Unknown Attack)이나 공격 요인(Unknown Threat Actors)을 탐지하기 위해 사용하는 통계 모델(Statistical Models) 및 행위분석(Behavior Analysis), 시각 분석(Visual analysis)을 전문가가 아닌 알고리즘에 의해 분류해 공격의 가시성을 확보하는 방식이다. 전문가에 의해 학습된 내용을 기반으로 하지 않고 알고리즘에 의해 결과가 도출되기 때문에 비정상행위 탐지(Anomaly Detection)를 통해 사용자의 변칙 활동이나 이상행위를 탐지함으로써 기존에 알려지지 않은 위협인 미탐을 탐지하는 효과를 가져올 수 있다.
금은방에 도둑이든 상황을 다시 한 번 예로 들어보자. 앞의 경우와 다르게 이번에는 사건 현장에 CCTV가 없고 지문이 발견되지 않아 도둑의 생김새도 몽타주도 알 수 없는 상황이다. 다만 도둑이 금은방에 들어오는 방식, 훔쳐 간 물건의 종류, 도주 방식 등을 통해 도둑을 찾아내는 추리 과정에 도움이 될 만한 분류를 정리함으로써 도둑을 지목해낼 수 있을 것이다.
■ 인공지능 기반의 보안 관제를 위한 사전 준비
지도학습과 비지도 학습은 인공지능을 활용해 보안 관제의 오탐 및 미탐의 문제를 해결하는 데 도움을 주는 결정적 실마리가 되고 있다. 그렇다면 이제 보안 관제라는 활주로에 우리가 원하는 비행기를 순조롭게 이착륙시키기 위해 관제탑에서는 어떠한 업무를 수행해야 하는지, 인공지능 기반의 보안 관제를 위해 필요한 사전 준비 과정을 크게 세 가지 단계 ▲인공지능을 통해 무엇을 하고자 하는지 결정하는 ‘목표 설정’ ▲인공지능을 어디에 적용할 것인지 결정하는 ‘적용 대상’ ▲적용 대상에서 사용할 ‘데이터 선택’ 등으로 나눠 설명해보고자 한다.
그렇지만 이에 앞서 인공지능이라는 기술을 통해 무엇을 하고자 하는지, 그에 대한 정확한 목표를 설정하는 게 무엇보다 중요하며, 또 선행돼야 한다는 사실을 명심해야 한다. 목표 설정 없이 무작정 기술을 적용하려 하는 것은 에베레스트를 정복하려는 등산가가 최신 유행하는 여름용 슬리퍼만을 신고 산을 오르게 되는 결과를 초래할 수 있다. 다시 말해 축구를 잘 하기 위해 축구화를 신고 등산을 수월하게 하기 위해 등산화를 신듯이, 보안 관제에 인공지능을 적용할 때에도 사전에 이루고자 하는 목표를 명확히 설정해야 그에 맞는 적절한 준비가 가능해지는 것이다.
     
[표 2] 인공지능 기반 보안 관제를 위한 체크리스트(출처: 이글루시큐리티 보안분석팀) 
[표 2]는 보안 관제에 인공지능 기술을 적용하는 일부 사례를 바탕으로 작성된 예시다. 사실 보안관제센터를 구성하고 있는 보안 장비의 현황이나 현재 갖춰져 있는 보안 관제 프로세스 등 실제 관제 환경은 각 기업 및 기관에 따라 상이하기 때문에 위의 내용이 무조건 옳다고는 할 수 없다. 하지만 이를 참고해 목표 설정, 적용 대상 결정, 데이터 선택의 3단계에 따라 각각의 환경에 적합한 인공지능 적용 프로세스를 수립해보도록 하자.
가장 먼저 목표 설정이다. 앞서 한차례 언급했듯이 인공지능을 통해 무엇을 하고자 하는지 그 목표를 명확히 하는 것은 매우 중요한 일이다. ▲보안관제센터에서 운영 중인 보안 관제 대상들의 관제 기준에 따른 위험도 분류에 따라 지도학습을 통해 위험한 이벤트를 찾아내고자 하는지 ▲방화벽, 웹 로그, 시스템 로그에서 발생하는 데이터를 알고리즘에 의해 학습시키는 비지도 학습을 통해 숨겨진 이벤트(Unknown Attack, Unknown Threat Actors, False Negative)를 찾아내고자 하는지, 인공지능을 통해 달성하고자 하는 목표를 설정한다.
목표가 수립되면 구현 방법에 따라 적용 대상의 결정과 데이터의 선택이 이뤄지게 된다. 지도학습의 경우 기존 보안관제 프로세스에서 사용되는 정책이나 경보설정을 승계해 이벤트의 유효성을 판단하기 때문에 기존의 보안관제 프로세스 정립이 필요하다. 즉 이는 보안 관제요원이 보안 솔루션에서 탐지된 이벤트를 처리(정오탐 분류)하기 위해 이벤트 명, 이벤트의 페이로드(Payload), CTI 정보, 인프라 취약점 정보, 익스플로잇 존재 유무, CVE 위험도 등을 토대로 공격의 유효성과 위험도를 판단하는 과정을 자동화시키는 것이다.
[그림 3]의 ‘WebAttack_BruteForce_PHPMyAdmin’과 같이 동일한 탐지 명의 이벤트가 탐지되더라도 지도학습을 기반으로 한다면 공격 대상이 PHP 이외의 언어를 사용한다거나, 스캔성 공격이라거나, 패치 되지 않은 PHPMyAdmin 페이지의 취약점이 존재한다거나 등의 조건으로 인해 위험도는 다르게 나타난다. 따라서 정확도(Accuracy)를 높이기 위해서는 보안 도메인 지식을 바탕으로 데이터의 특성(Feature)과 라벨링(Labeling) 작업의 통해 도출된 결과를 해석하는 능력이 핵심이라 할 수 있겠다.
  
[그림 3] 지도학습 기반의 보안 솔루션 이벤트 탐지 예시
반면 비지도학습은 웹 로그, 시스템 로그 등 로그나 패킹을 알고리즘을 통해 학습시켜 알고리즘의 결과를 기반으로 하기 때문에 지도학습에 비해 상대적으로 정성적이다. 이에 지도학습에 활용되는 자산의 중요도에 CTI 정보 등을 연계한다면 보다 위험도를 높일 수 있을 것이다.
■ 활주로에 비행기를 안전하게 착륙시키는 방법
지금까지 보안 관제에서 발생하고 있는 오탐과 미탐의 문제를 해결하기 위해 인공지능의 지도학습과 비지도 학습을 적용하는 방법, 그리고 성공적인 인공지능 기반 보안 관제 체계 구축을 위한 사전 준비 방안에 대해 살펴봤다. 현재 인공지능이 오탐과 미탐의 가장 강력한 해결 방안으로 거론되고 있는 건 사실이지만 현실적으로 인공지능 기술이 적용된다고 해서 오탐률이 제로화되거나 미탐이 없어지는 일은 일어나지 않을 것이다.
보안 관제의 탐지 지표를 정확도와 위협의 가시성(Threat Visibility)의 두 갈래로 나눠 평가해보자면, 여전히 정확도 측면에서는 기존의 패턴 기반 상관분석(Correlation Analysis)이 뛰어나고 위협의 가시성 측면에서는 알고리즘 기반의 머신러닝(Machine Learning)이 효과적이다. 통계 모델링(Statistical Modeling)은 전문가의 경험에 기반해 정확도와 가시성 사이에서 아슬아슬한 외줄타기를 하고 있다.
위협의 가시성을 확보하고 정확도를 높이기 위해서는 무엇보다 입력 데이터(Input Data), 라벨의 일관성(Label Consistency), 그리고 특징 추출(Feature Extraction)이 중요하다. ‘쓰레기를 넣으면 쓰레기가 나온다(Garbage in, Garbage out)’는 말처럼 제대로 된 데이터를 입력하지 않으면 원하는 결과를 얻을 수 없게 된다. 이를 위해서는 기존에 보안 관제 업무 프로세스를 확실히 이해하고 충분한 데이터의 확보, 데이터의 정오탐을 판단하는 기준에 대한 사전 정리가 반드시 필요하다.
이제 인공지능 기반의 보안 관제를 위한 활주로의 준비는 끝이 났다. 현재의 보안 관제 프로세스를 제대로 이해하고 인공지능의 적용을 통해 도출하고자 하는 목표를 명확히 수립함으로써 보안 관제라는 활주로가 인공지능이 선사한 결과물을 탑재한 비행기들로 가득해지길 기대하는 바다.