보안정보

전문화된 보안 관련 자료, 보안 트렌드를 엿볼 수 있는
차세대 통합보안관리 기업 이글루코퍼레이션 보안정보입니다.

보안관제 지능화 동향 및 전망

2022.04.06

28,920


 

 

 

 

01. 사이버 현황 및 트렌드의 변화 

 

많은 사람들의 생명을 앗아간 신종 코로나바이러스 감염증(COVID-19) 팬데믹에 따라, 기존의 사회 체계를 뒤흔드는 큰 변화가 일어나고 있다. 사이버 환경 역시 이와 같은 흐름에서 예외는 아니다. 재택·원격 근무 및 사회적 거리두기 확산에 따라 IT 인프라 사용과 네트워크 트래픽이 증가하면서, 공격자가 노릴 만한 공격 표면은 더욱 넓어졌다. 

급격한 디지털 전환에 발맞춰 정교한 사이버 공격이 증가하면서, 방대한 보안 경보를 신속히 처리해야 하는 보안관제 담당자들의 어려움은 더욱 가중되고 있다. 새로운 형태의 보안 위협을 모두 해결할 수 있는 슈퍼맨과 같은 역할을 기대하나, 기하급수적으로 생성되고 있는 보안 이벤트에 대응하기에는 역부족인 상황이다. 

실제로 아래의 글로벌 보안 기업 시스코(Cisco) 자료에 따르면, 보안관제센터의 보안장비에서 발생한 경보 중 확인 및 처리 과정을 거치지 않은 경보가 많으며, 처리 과정을 거친 경보에서도 적지 않은 오탐(false positives)이 발생하고 있음을 확인할 수 있다. 

 

  

[그림 1] 보안관제센터(SOC)에서 발생한 경보 처리 현황 (2008) (출처: 시스코)

 

 

이러한 사이버 환경의 어려움을 해결하기 위해 가장 필요한 것은 무엇일까? CES 2021과 RSAC 2021, 그리고 시장조사기관인 가트너에서 공통적으로 지목하는 요소가 있다. 바로 외부의 힘으로 인해 변형된 상태에서 원래의 상태로 되돌아가려는 힘을 의미하는 ‘회복탄력성(Resilience)’이다. 현재의 사이버 보안체계에서는 언제든지 공격과 침입이 일어날 수 있으므로, 이러한 위기 상황에서 더 빨리 회복할 수 있는 힘이 꼭 필요하다는 것이다. 

 

로힛 가이(Rohit Ghai) RSA CEO는 2021년 RSAC 2021 기조연설을 통해, “현재의 사이버 환경에서는 ‘회복탄력성(Resilience)’이 필요하다. 넘어졌을 때 다시 일어나는 것만으로는 충분하지 않다. 잘 회복되려면 잘 넘어지고 넘어졌을 때 이를 잘 견뎌 매번 더 강해진 상태로 일어설 수 있어야 한다”며 회복탄력성의 중요성을 강조한 바 있다. 

 

그렇다면 회복탄력성(Resilience)을 강화하기 위해서는 무엇을 필요할까? 여러 해결책이 있지만 그중 의사결정을 위한 유용한 정보를 의미하는 ‘인텔리전스’의 중요성이 많이 강조되고 있다. 알려지거나 알려지지 않은 위협이 발생할 시 이를 잘 탐지하고 분석하여 대응하기 위해서는, 각 단계마다 올바른 의사결정이 필수적으로 요구되기 때문이다. 

 

 

02. 보안관제에 인텔리전스를 구현하기 위해 필요한 3가지 방안 

 

앞 절에서 설명한 바와 같이, 사이버 위협이 지능화되고 보안 위협과 탐지되는 보안 이벤트 양이 기하급수적으로 증가하면서, 그 어느 때보다 보안관제 인텔리전스 구현의 중요성이 대두되고 있다. 이전부터 보안관제 분야에 인텔리전스를 구현하기 위한 여러 방법이 적용되어 왔지만, 본 글에서는 크게 ▲ 데이터 확장을 통해 지능을 더하는 방법, ▲ 머신러닝을 통해 사용자의 경험을 지능화하는 방법, ▲보안 오케스트레이션 및 자동화·대응(SOAR)을 통해 관제프로세스를 지능화하는 방법, 이렇게 세 가지로 구분하고 각각의 방법에 대해 상세히 알아보도록 하겠다. 

 

1) 데이터 확장을 통해 지능을 더하다 (eXtended)

 

사이버 환경에서 침입을 탐지한다는 것은 어떤 의미일까? 네트워크 패킷에서 악의적인 행위를 인지하고, 이를 이벤트화하는 것으로 정의할 수 있다. 이전부터 보안관제 분야에서는 악의적인 행위를 탐지하기 위해 많은 노력을 기울여왔다. 그 첫 단추는 데이터를 수집하는 것에서부터 시작한다. 탐지 시스템 및 분석 솔루션 고도화를 통해 좀 더 많은 데이터 종류와 연관된 선진화된 분석이 가능하게 되었다. 

 

 

  1-1) 더 많은 것을 더 많이 수집한다 (다다익선) 

 

가트너는 ‘eXtended’를 ‘확장한다’ 또는 ‘모두’를 의미하는 것으로 정의하고 있다. 이는 다시 말해, ‘데이터의 변수를 확장한다’는 개념으로 해석할 수 있다. 사용되는 데이터의 양도 중요하지만, 데이터 변수를 통해 데이터의 질을 향상하는 것 역시 매우 중요하다. 특히, 머신러닝과 같은 목적으로 사용될 때는 더욱 양질의 데이터가 마련되어야 한다. 이러한 배경에서, 네트워크 탐지 및 대응(NDR), 단말 탐지 및 대응(EDR) 등을 활용한 네트워크와 사용자 엔드포인트 영역에서의 수집 및 분석 영역이 확대되고 있다. 

 

 

[그림 2] 데이터 형태에 따른 분류 및 특징

 

 

그림 2와 같이 보안 데이터의 형태를 다섯 단계로 나눌 경우, 보안관제 전문가들은 어떤 데이터를 확인할까? 관련 업무에 따라 차이는 있겠지만 일반적으로 경보(alert) 또는 이벤트(event)를 살펴보고, 상세 분석이나 사후 분석을 수행할 시에는 로그(log), 원본 데이터(raw data), 패킷(packet) 등을 낱낱이 확인할 것이다. 

 

그림에서 보는 바와 같이 위 단계로 올라갈수록 신뢰성과 데이터의 양은 급격히 감소하지만, 그 데이터가 가지고 있는 의미(knowledge)는 높아지는 것을 확인할 수 있다. 반면 아래 단계로 내려갈수록, 데이터가 수집되는 장비와 데이터 유형은 더 많아진다. 아래 단계의 데이터를 살피는 경우, 이상 행위를 놓치는 것을 최소화할 수 있다. 그러나, 의미 없는 데이터(garbage)가 많거나 이 방대한 데이터를 처리할 시스템이 뒷받침되지 않는다면, 되레 데이터 속에서 봐야 할 것을 놓치는 경우도 일어날 수 있다. 

 

 

  1-2) 위협 인텔리전스 (외부의 위협정보도 수집한다)

 

데이터는 네트워크를 지나는 트래픽뿐만 아니라 외부에서 발생하는 위협 정보인 ‘위협 인텔리전스(Threat Intelligence)’ 또는 ‘사이버 위협 인텔리전스(Cyber Threat intelligence)’까지 확장될 수 있다. 가트너는 ‘현재 존재하거나 발생 가능한 위협에 대응하기 위한 결정을 위해 해당 위협에 대한 맥락(Context), 메커니즘, 지표, 예상 결과 및 실행 가능한 조언 등을 포함하는 증거 기반의 지식’으로 위협 인텔리전스를 정의하고 있다. 

 

보안관제 분야에서는 어떻게 위협 인텔리전스를 활용하고 있을까? 이전에는 얼마나 더 많은 정보를 수집하느냐에 중점을 두었다. 그러나 이제는 개개의 사이트에 부합하는 위협을 얼마나 정확히 수집하는지, 그리고 이를 자동적으로 시스템에 적용하여 활용할 수 있는지에 더 큰 무게를 두고 있다. 즉 ‘실행 가능한 인텔리전스(Actionable intelligence)’의 중요성이 대두되고 있다고 말할 수 있다. 다양한 수집처에서 다양한 데이터 형식으로 공유되는 위협 인텔리전스에 어떤 핵심 정보가 포함되어 있느냐에 따라 보안 담당자의 의사결정이 달라질 수 있기 때문이다. 

 

 

  1-3) 내부 자산의 정보 및 취약점을 수집한다

 

네트워크 트래픽, 외부 위협 정보와 더불어 내부 자산의 정보 역시 매우 중요하다. 보호해야 할 자산에 대해 보다 상세하고 정확한 정보를 수집하고 있다면, 보다 신속한 판단 및 대응이 이뤄질 수 있다. 컴퓨터 역사상 최악의 취약점으로 불리는 ‘로그포제이(Log4j)’를 활용한 공격 역시, 자산에 대한 정보 파악이 미흡했던 탓에 더 많은 혼란이 발생했음을 확인할 수 있다. 

 

 

2) 분석가의 경험에 지능을 더하다 (Machine Learning)

 

다음으로, 머신러닝을 통해 보안관제 전문가와 분석가의 경험을 지능화하는 방법에 대해 알아보도록 하겠다. 그동안 보안관제 분야에서는 초동 분석 및 상세 분석 수행에 많은 시간과 인력을 투입해 왔다. 하지만 빠르게 진화하는 공격 기법을 따라잡기에는 한계가 있었다. 전문가마다 경험 및 역량 수준에 차이가 있고, 한정된 수의 전문가들이 판단하기에는 너무나 많은 이벤트가 발생하기 때문이다. 이에 이러한 어려움을 해결하고자 머신러닝을 통해 분석가의 경험을 모델링하고자 하는 시도가 지속되고 있다. 

 

 

  2-1) 머신러닝을 통한 분석

 

경험을 모델링하기 위해서는 무엇이 필요할까? 양질의 학습 데이터와 보안에 최적화된 알고리즘이 요구된다. 머신러닝은 보안 분석가들의 경험이 데이터화한 학습 데이터를 통해 보안을 배우게 될 것이다. 

 

기존에 보안 분석가들은 탐지 패턴, 침해사고 이력, 대상의 취약점 현황, 개인적인 경험 등을 활용해 침입방지시스템(IPS) 등의 보안 장비에서 탐지된 보안 이벤트를 분석 및 선별하여 왔다. 그림 3은 IPS에서 발생한 이벤트 중 페이로드 부분이다. 머신러닝은 이러한 특징과 보안 분석가들의 경험을 토대로 판단을 하게 된다. 

 

  

 

[그림 3] 보안관제 요원들이 판단을 위해 분석하는 보안 이벤트 중 페이로드 부분 예시

 

 

보안 분석가들은 ‘새벽에 들어온 이벤트인지’, ‘위협 국가에서 접속한 사용자인지’, ‘공격에 사용되는 패턴이 많이 들어있는지’ 등 분석에 사용되는 특징과 통계적인 특징을 도출하고, 이를 머신러닝이 알아볼 수 있도록 전처리해 데이터화하고 있다. 머신러닝 분야에서는 이를 ‘피처(feature)’로 정의하고 있다. 단위 보안 장비에서 제공된 정보와 도메인 지식을 토대로 정보를 조합하여 공격의 특징을 추출하는 개념이다. 

 

  

 

[그림 4] 피처 정의 및 전처리 된 데이터 예시

 

 

이렇게 전처리된 데이터들은 크게 숫자형과 텍스트형으로 분류될 수 있는데 머신러닝은 이를 토대로 정탐과 오탐을 구별하는 모델을 만들게 된다.  

 

이러한 지도 학습과 더불어 다양한 보안 이벤트와 로그 등의 연관 분석을 통해 보안장비에서 탐지되지 않은 이상 행위를 찾아내는 비지도 학습도 이뤄지고 있다. 

 

하지만, 위와 같이 보안 분석가들의 경험을 머신러닝에 잘 적용하기 위해서는 반드시 고려해야 할 사항이 있다. 먼저, 분석가의 경험을 지능화하려는 명확한 목적이 있어야 한다. 다시 말해, 명확한 목적 아래 데이터 사이언스 방법론을 통해 모델을 생성할 때 비로소 의미 있는 모델이 만들어질 수 있다. 

 

또한, 이러한 모델을 더욱더 정교하게 표준화하기 위한 학습 데이터가 요구된다. 보안 분석가들이 스노트 룰(Snort Rule) 등의 각종 해킹 패턴을 토대로 분석했던 기존과는 달리, 머신러닝 모델은 학습 데이터를 기반으로 스스로 인지하고 판단 기준을 만들어 분석한다고 말할 수 있다. 침해 사고에 대한 학습 데이터를 실 데이터 기준으로 수집, 분석하여 특징을 찾아내는 것이다. 

 

그러나 머신러닝이 학습할 양질의 학습 데이터를 만드는 것은 결코 쉽지 않다. 오랜 기간 보안 데이터를 분석하고 공격자와 맞서 싸워온 경험과 역량이 요구되는 까닭이다. 이러한 배경에서 한국인터넷진흥원(KISA)은 이글루시큐리티를 비롯한 주요 보안 기업과의 협업을 통해 양질의 보안 학습 데이터를 생성하고 이를 민간에 개방하는 ‘사이버보안 AI 데이터셋 구축사업’을 2021년부터 진행하고 있다.

 

 

  2-2) 보안관제 전문가와 머신러닝 사이의 간극(gap)을 줄여라 

 

또한, 보안관제 전문가의 관점과 머신러닝 관점의 간극(gap)을 좁힐 필요가 있다. 지금까지의 경험에 따르면, 머신러닝이 도출한 예측 값과 분석가의 관점에 적지 않은 차이가 발생하는 것을 확인할 수 있다. 이를 해결하고자 머신러닝 모델이 특정 이벤트를 왜 정탐 또는 오탐으로 판단했는지 그 근거를 제공하는 ‘설명 가능한 AI(eXplainable Artificial Intelligence, XAI)’ 기술이 적용되고 있다. 이를 통해 머신러닝의 예측 과정을 이해하고, 머신러닝 모델을 통해 도출된 결과를 개선할 수 있게 된다. 

 

 

[그림 5] 설명 가능한 AI (XAI)

 

 

3) 프로세스에 지능을 더하다 (Orchestration)

 

다음으로, 분석 및 대응과 같은 보안 프로세스에 지능을 더하는 방법에 대해 짚어보도록 하겠다. 이 방법은 최근 ‘보안 오케스트레이션 및 자동화·대응(Security Orchestration, Automation & Response, SOAR)’으로 구현되고 있다. 다양한 보안 상황 별 대응을 위한 시나리오와 절차를 데이터화한 ‘플레이북(Playbook)’을 토대로 단순 업무는 자동 처리하게 하는 형태다. 

 

가트너는 ‘다양한 사이버 위협과 관련해, 대응 수준을 자동으로 분류하고, 표준화된 업무 프로세스에 따라 보안 업무 담당자와 솔루션이 유기적으로 협력할 수 있도록 지원하는 플랫폼’으로 SOAR를 정의하고 있다. SOAR 적용을 통해 보안 전문가들은 단순 반복적인 업무 처리에서 벗어나, 보안 전문가의 판단이 반드시 필요한 복잡한 업무에 집중할 시간을 더 얻게 될 것이다. 

 

 

 

[그림 6] SOAR의 정의 (출처: 가트너)

 

 

단, 프로세스에 지능을 더하기 위해서는 반드시 복잡한 보안 상황 별 명확한 업무 프로세스 구현이 이뤄져야 한다. 또한, 레스트풀 API(RestFul API)와 사이버 위협정보 공유 규격(STIX/TAXII) 등에 기반해 제품 간의 긴밀한 연계가 뒷받침되어야 한다. 특히, 국내 보안 제품의 경우 제품 간 연계가 미흡한 수준이므로 보안관제를 지능화하기 위해서는 이 부분에서 빠른 개선이 요구된다. 

또한, 데이터와 프로세스에 ‘사이버 킬 체인(cyber kill chain)’, ‘마이터 어택(MITRE ATT&CK), ‘디펜드(D3FEND)’ 등의 공격 전술 및 기술이 더해진다면, 올바른 공격 및 방어 판단을 내리는 데 도움이 될 것이다. 최근에는 마이터 어택 매트릭스를 보안관제에 적용하고자 하는 시도가 더욱 늘어나고 있으나, 아직까지는 대부분 관련 이벤트와 건수를 매핑하는 수준에 머무르고 있다. 앞으로는 최신 공격 전술 및 기술을 보안 업무에 보다 잘 활용하기 위한 시스템과 솔루션 도입이 증가할 것으로 예상한다. 

 

 

 

[그림 7] 보안 프레임워크 예시

 

 

03. 결론 및 전망 

 

2000년 대 초반부터 약 20여 년에 걸쳐, 보안 분야에서는 끊임없는 발전이 이뤄졌다. 사이버 공격을 신속하게 탐지, 분석하여 대응하고자 많은 데이터가 수집되었고, 보안관제 전문가의 분석을 거쳐, 정형화된 프로세스를 통한 대응이 이뤄졌다. 이제는 더 나아가 보안관제에 ‘인텔리전스’, 즉 지능을 더하기 위한 개선이 이뤄질 때다. 보안관제의 지능화를 통해 얻을 수 있는 기대 효과, 지능화 구현을 위한 필수 요건, 앞으로의 전망을 아래와 같이 정리한다. 

 

첫째, 보안관제 전문가들은 데이터 확장을 통해 침입에 대한 보다 명확한 판단을 내릴 수 있게 될 것이다. 즉, 탐지한 이벤트의 오탐율과 미탐이 감소할 것이다. 그러나, 이를 탐지할 이벤트가 줄어든다고 해석해서는 안 된다. 그동안 확인하지 못했던 이벤트들을 탐지하게 되면서, 보안 전문가들이 처리해야 할 이벤트는 더 많아질 수도 있다. 하지만, 보안의 사각지대는 분명히 줄어들 것이다. 

 

둘째, 분석가의 경험을 지능화하여 머신러닝에 적용함으로써, 필터나 연관 분석, 통계 분석을 통해 탐지 및 분석을 수행했던 기존에 비해 훨씬 신속하고 정확한 결과를 얻을 수 있게 될 것이다. 단, 이러한 효과를 극대화하기 위해서는 각 분석 방법에 대한 명확한 이해가 이뤄지고 서로 간의 장점이 긴밀히 연결되어야 한다. 또한, 머신러닝을 적용하기 위해서는 도메인에 대한 정보, 최적의 알고리즘, 양질의 학습 데이터가 필요하다. 머신러닝의 도출 과정을 명확히 설명할 수 있는 ‘설명 가능한 인공지능(XAI)’도 필요한 기능 중 하나다. 

 

셋째, 프로세스를 지능화하기 위한 프로세스가 정립되어야 한다. 무엇을 자동화해야 할지 모르는 조직에서는 자동화 도입이 되레 또 다른 업무를 발생시킬 수 있다. 경보 접수부터 자동 차단까지의 일련의 과정이 물 흐르듯 잘 이뤄지기 위해서는, 보안 업무에 대한 명확한 정의, 위협 상황에서 발생할 수 있는 모든 경우의 수를 프로세스화한 보안관제방법론이 뒷받침되어야 한다. 

 

마지막으로 협업과 연계의 중요성은 아무리 강조해도 지나치지 않을 것이다. 이를 1904년 발생한 볼티모어 대화재에 빗대어 볼 수 있다. 신속한 화재 인지를 통해 충분한 소방 인력과 장비 지원이 이뤄졌고 완벽에 가까운 대응 프로세스가 마련되어 있었음에도, 수많은 인명 피해와 막대한 재산 피해가 발생했다. 원인은 무엇일까? 급수를 공급받는 소화전의 규격이 달랐기 때문이다. 보안 분야 역시 마찬가지다. 보안관제 지능화를 구현하기 위해서는 각 구성 요소와 시스템, 프로세스 간의 연계 및 관련 전문가들 간의 긴밀한 협업이 수반되어야 한다.

 

지금까지 보안관제를 지능화하기 위한 세 가지 방법에 대해 알아보았다. 데이터, 머신러닝, 프로세스 자동화 모두 급격한 발전을 거듭하고 있다. 이러한 요소들 간의 긴밀한 연계를 통해 진정한 의미의 보안관제 지능화가 이뤄진다면, 날로 고도화되는 사이버 위협에도 보다 유연하게 대응할 수 있지 않을까?