보안정보
전문화된 보안 관련 자료, 보안 트렌드를 엿볼 수 있는
차세대 통합보안관리 기업 이글루코퍼레이션 보안정보입니다.
차세대 인공지능 보안관제에 꼭 필요한 기술 3가지
2021.06.02
15,917
[그림 1] 전세계 기업들의 인공지능 사용 목적 (출처 : TATA Consultancy Services)
[그림 2] 인공지능 기반 사이버 보안 시장 성장률 (출처 : Markets and Markets)
그렇다면 인공지능이 보안관제 분야에서 각광받는 이유는 무엇일까? 우선 매일 새롭게 생성되는 보안 이벤트를 비롯하여 매년 보안 데이터가 기하급수적으로 증가하는 추세 속에, 5년 내에는 수십 배에 달할 것으로 예측되고 있다. 그러나 이렇게 기하급수적으로 증가하는 보안 데이터의 분석을 위한 인력이나 장비를 수십 배 늘릴 수 있는 기업은 현실적으로 많지 않다. 자원이 절대적으로 부족한 가운데 1초에 수백, 수천 만 건을 처리할 수 있는 인공지능은 보안관제 시장에서 매력적으로 평가 받지 않을 수 없다. 또한 보안 전문가 부족 현상이 심화되고 있다. 사이버 보안 전문가들로 구성된 비영리 단체 (ISC)²의 사이버 보안 인적자원 연구(Cybersecurity Workforce Study) 보고서에 따르면, 2019년을 기준으로 전 세계 약 400만명의 보안 전문가가, 아시아 태평양 지역에서만 약 260만명의 보안 전문가가 부족한 실정이라고 한다. 이에 전문가와 비슷하거나 혹은 더 나은 수준의 관제 역량을 보이는 인공지능을 적극적으로 도입하고자 하는 건, 어찌 보면 너무나 당연한 수순이라 할 수 있겠다.[그림 3] 사이버 보안 인적자원 부족 현상 (출처 : (ISC)² Cybersecurity Workforce Study, 2019)
이처럼 현 시대의 보안관제에 있어, 그리고 더 나아가 앞으로의 보안관제에 있어 인공지능이 필수불가결한 존재가 되었다는 점은 이제 누구나 인정하는 사실이다. 그러나 그럼에도 불구하고 아직까지 인공지능 도입을 망설이게 하는 이유는 무엇일까? 인공지능 보안관제 도입을 고민하게 하는 근본적인 문제점을 짚어보고, 그 해결책에 대해 논의하는 시간을 가져보고자 한다. ■ 문제점 우선적으로 문제가 되는 것은, 인공지능 보안관제를 도입한다고 하더라도 사용자가 충분히 준비되어 있지 않다는 점이다. 현재 인공지능 보안관제는 단순히 솔루션의 도입만으로 끝이 아니다. 도입한 솔루션에 사용할 데이터를 추출, 분석 및 가공해야 하며 그 후 다시 보안 전문가가 직접 학습 방향을 정하는 레이블링(labelling) 작업을 거쳐야 하고, 최종적으로는 데이터에 맞는 머신러닝 알고리즘을 선택해 해당 알고리즘에 대한 충분한 지식을 가지고 각종 하이퍼 파라미터들을 선택할 수 있어야 한다. 그래야 진정으로 인공지능을 활용하고 또 도입했다 말할 수 있지만, 현실적으로 이 모든 과정을 이해하고 실행할 수 있는 전문가가 부족하다는 한계가 있다.
[그림 4] 머신러닝 프로젝트 각 작업에 할당되는 시간 비율 (출처 : 커그니리티카(Cognilytica))
또 사이버 보안은 그 특성상 데이터가 굉장히 방대하다. 1초 동안 백만 건의 보안 이벤트가 발생한다고 가정했을 때 하루에 약 900억 건의 데이터가 발생하게 되고, 인공지능이 놓칠 확률(미탐율)이나 잘못 예측할 확률(오탐율)이 로또 1등 당첨과도 같은 814만 분의 1이라해도, 하루 평균 약 1만 건의 이벤트는 놓치거나 잘못 판단하게 된다는 결과가 도출된다. 물론 기존의 보안관제와는 궤를 달리하는 처리량이지만, 그보다 대다수의 인공지능 기반 솔루션들은 사람에 비해 더 치명적인 공격과 덜 치명적인 공격을 구분해내는 게 미숙하여 이러한 오탐과 미탐이 더욱 심각한 상황을 야기할 수 있다는 문제가 있다. 비밀번호 5회 오류와 대규모 DDoS 공격을 놓고 보았을 때 사람은 쉽게 각각의 잠재적인 피해 수준을 가늠할 수 있지만, 인공지능의 입장에서는 그저 다른 종류의 보안 이벤트로 판단될 수 있는 것처럼 말이다. 마지막으로 오늘날 대부분의 인공지능 솔루션들이 예측 결과에 대한 근거 데이터 및 이유를 제시하지 못하는, 이른바 ‘블랙박스’ 형태의 솔루션이라는 점 역시 지적되는 사항 중 하나다. 이는 곧 예측 결과에 대한 신뢰도 하락으로 이어지게 되는데, 실제로 IBM의 한 조사 결과에 따르면 대다수의 기업이 내부 인력 부족 및 데이터에 대한 신뢰 부족을 이유로 인공지능 도입을 망설이고 있다고 나타났다.
[그림 5] 기업들이 AI 도입을 망설이는 이유 (출처 : IBM 기업가치연구소)
결국 사이버 보안에 인공지능이 정착하고 더 큰 효과를 보기 위해서는, 상술한 문제점들에 대한 해결책이 강구되어야 할 것이다. 그렇다면 차세대 인공지능 보안관제 솔루션에는 어떠한 기능들이 탑재되어야 하는 것일까? ■ 해결책 인공지능 솔루션의 도입을 고려할 때 기업이 가장 우려하는 것은 바로 인공지능과 데이터 전문가의 부재이다. 인공지능 플랫폼에 무수히 많은 머신러닝과 딥러닝 알고리즘이 탑재되어 있다고 한들 사용자가 이에 대한 이해나 경험이 부족한 경우, 사실상 이 모든 게 무용지물 되어버릴 가능성이 높기 때문이다. 현재 인공지능 솔루션을 제공하는 기업들은, 점점 더 많은 알고리즘들을 자사의 플랫폼에 확대 적용하고 있다. 사이버 보안에는 다양한 유형의 데이터가 존재하지만 모든 유형을 아우를 수 있는 알고리즘은 존재하지 않기 때문이다. 예를 들어 랜덤 포레스트(Random Forest)나 서포트 벡터 머신(SVM)과 같이 가장 많이 쓰이는 지도학습 알고리즘들도, 각각의 알고리즘이 가장 잘 활용될 수 있는 데이터가 다르다. 각 데이터에 맞는 알고리즘을 어떻게든 고르는 데 성공했다면, 이제는 초매개변수(Hyper Parameter)라는 것을 적절히 선택할 차례다. 앞선 알고리즘 중 랜덤 포레스트(Random Forest)를 골랐다고 가정해보자. 그렇다면 이제 머신러닝 학습을 어떤 기준으로 진행할 것인지 결정해야 하는데, 가장 대표적인 머신러닝 플랫폼 사이킷-런(Scikit-Learn)의 랜덤 포레스트(Random Forest)만 봐도 지니 불순도(Gini Impurity)와 엔트로피(Entropy) 사이 선택의 기로에 또다시 놓여지게 된다. 여기까지 용케 좌절하지 않은 사용자일지라도 각각을 인터넷에 찾아보는 순간, 머리가 지끈 아파올 것이다. 이와 같은 인공지능의 진입 장벽은 결국 사용성 저하로 이어지게 된다. 막상 도입은 했지만 이를 사용할 수 있는 사람이 부재한 것이다. 이러한 문제점을 해결하기 위해 최근에는 AI by AI, 즉 인공지능을 위한 인공지능 방식이 대두되고 있다. 누구나 인공지능을 쉽게 또 최대한 활용할 수 있도록, 인공지능을 통해 인공지능을 학습시키고 사용자에게는 인공지능이 단순히 파악할 수 없는 중요한 판단만 맡기는 것이다. 다른 관점에서 보자면 이는 곧 인공지능을 더 잘 활용하고 있는 솔루션일수록, 그 기능을 사용자에게 오픈하고 홍보하던 예전의 방식과는 달리, 더 숨기고 더 높은 수준의 자동화를 통해 충분한 역할 분담이 이루어져야 한다는 것이다. 인공지능을 찾아볼 수 없는 솔루션이 더 좋은 솔루션이라고 단정 지을 수는 없지만, 적어도 사용자에게 무조건 더 많은 옵션을 주는 것이 더 좋은 솔루션이라고도 볼 수 없다는 의미다. 인공지능을 사용할 준비가 되었다면, 다음은 그 바탕이 되는 데이터의 준비가 요구된다. 인공지능은 어떠한 보안 이벤트를 단순히 공격인지 정상인지 판단하는 것에서 끝나는 게 아니라, 어떠한 공격을 더 빠르게 처리하고 대응할 것인지 다시 말해 대규모 데이터 속에서 우선 순위까지 판단해 제공해줄 수 있어야 한다. 아래 <그림6>에서 볼 수 있듯이, 사이버 공격은 그 유형 별로 기업에 입히는 피해 규모가 다르다. 그리고 이러한 피해액은 인공지능이 쉽게 추론할 수 없는 정보이기 때문에, 도출 가능하게끔 데이터를 구성함과 동시에 이를 바탕으로 우선 순위를 추론할 수 있는 기능을 모색해야 한다.
[그림 6] 사이버 공격 유형별 연간 총 피해액 (출처 : Cybersecurity for Finance)
단순히 정상과 비정상을 이진 분류(Binary Classification)하는 인공지능은 DDoS 공격과 봇넷(Botnet) 공격을 동일 선상에 놓고 ‘공격’이라 판단할 것이지만, 이로 인해 입을 수 있는 피해의 차이는 약 6배에 달한다. 반대로 만약 특정 환경이 DDoS에 대한 대비가 잘 되어 있거나, DDoS의 대상이 우연찮게 비어 있는 IP 주소로 널 라우팅(null routing)의 효과를 보는 경우, 기업의 실질적인 피해액은 발생하지 않을 것으로 예상되기에 다른 공격을 더 우선시해야 한다. 한 마디로 보안 장비에서 나오지 않는 데이터가 실제로는 더 중요할 수 있다는 말이다. 이러한 배경에서, 비 보안 데이터를 얼마나 잘 녹여낼 수 있는지의 여부가 앞으로의 인공지능 솔루션을 평가하는 데 있어 중요한 요소로 자리잡게 될 것이다. 앞서 상술한 두 가지의 문제를 해결한다 해도, 인공지능에게는 아직 마지막 산이 남아있다. 바로 우리가 인공지능을 얼마나 신뢰할 수 있느냐 이다. 사이버 보안은 단순히 캐글(Kaggle)이나 데이콘(DACON) 등의 인공지능 경진 대회처럼 모든 예측에 대한 답안지를 들고 있지 않다. 우리가 흔히 예측 정확도나 정밀도를 계산할 때는 답을 알고 있는 학습 데이터 중 검증 데이터를 따로 분리하여 교차 검증하는 식이지만, 이 정확도가 예측 시에도 적용되리라는 보장은 그 누구도 할 수 없다. 게다가 현장은 대회에 비해 신경 써야 하는 요소들이 무궁무진하다. 하루 수천만 건의 예측이 맞는지 틀린 지 확인하는 것조차 쉽지 않으며 그 예측 결과가 설령 맞다 판단되더라도, ‘인공지능이 공격으로 예측하였으므로 차단 처리함’이라는 식의 대응은 비단 대한민국뿐 아니라 어떤 곳에서든 시기 상조다.
[그림 7] XAI 예시 (출처 : 마이크로소프트 Bonsai)
이러한 상황에서 가장 필요한 기술은 최근 각광 받고 있는 설명 가능한 인공지능, 이른바 XAI(eXplainable AI)다. 설명 가능한 인공지능이란, 말 그대로 예측 결과에 대해 사람이 이해할 수 있는 방식으로 근거를 제시할 수 있는 인공지능을 일컫는다. 위의 <그림7>처럼 인공지능이 결혼식장의 사진을 보았을 때 단순히 결혼식 또는 식장이라는 예측으로 끝나는 것이 아니라, 왜 결혼식이라고 판단했는지에 대한 여러 논리적인 설명을 제시해주는 게 XAI의 주된 기능이라 할 수 있다. 이를 통해 인공지능이 사용자가 원하는 방향으로 알맞게 학습 되었는지 또 예측 결과는 믿을만한지 판단할 수 있으며, 더 나아가 기존에 사용자가 미처 생각하지 못했던 새로운 근거를 발견하게 되는 시발점이 되어줄 수도 있다. ■ 마치며 이미 인공지능은 보안관제와 떼려야 뗄 수 없는 핵심 기술 중 하나로 자리잡았다. 보안관제의 미래는 인공지능에 달려 있다 라는 말이 여기저기서 끊이지 않는 만큼, 보안관제와 인공지능은 시너지가 클 것으로 꾸준히 기대 받는 분야다. 이에 인공지능 도입은 점차 가속화되고 있으며 이제 가까운 시일 내에 인공지능 기술이 적용되지 않은 보안관제는 찾아보기 힘들뿐 아니라, 앞으로의 보안관제는 인공지능을 중심으로 진행될 것으로 생각된다. 하지만 모든 기술이 그렇듯, 현재의 인공지능만으로 부족한 상황이 머지 않은 미래에 올 것이라 예상된다. 인공지능의 발전과 함께 사이버 위협 또한 끊임없이 진화하고 있기 때문이다. 그럼에도 다가올 새로운 위협에 대응하기 위한 차세대 인공지능 보안관제에 꼭 필요한 AI by AI, 비 보안 데이터의 활용, XAI 기술에 대해 논해보았다. 차세대 보안관제에 대한 기대가 높아지는 지금, 인공지능은 새로운 도약을 향해 나아가고 있다.