보안정보

전문화된 보안 관련 자료, 보안 트렌드를 엿볼 수 있는
차세대 통합보안관리 기업 이글루코퍼레이션 보안정보입니다.

사이버 보안 분야에서 바라본 인공지능

2019.06.03

8,404


 

 

1. 개요

 

영화 아이언맨(Iron Man, 2008)에서 주인공 토니 스타크가 인공지능 비서인 자비스와 말장난을 치는 장면을 볼 때만 하더라도 인공지능(Artificial Intelligence)이 이렇게 빨리 찾아올 줄은 상상도 하지 못했다. 요즘 우리에게 친숙한 단어인 “인공지능”은 스마트폰(시리, 빅스비 등) 및 인공지능 스피커(카카오미니, 네이버 클로바 등) 등의 다양한 시스템을 통해 이미 친근하고 쉽게 접할 수 있게 되었다. 

 

인공지능이란 인간처럼 생각하고 행동하는, 마치 지능을 가진 것처럼 보이는 시스템을 총칭한다. 우리가 흔히 생각하는 인공지능은 영화 속 장면처럼 스스로 생각하고 행동해 인간에게 위협을 주는 초고도로 발달한 지능적인 기계이거나, 감정이 존재해 인간과 사랑에 빠지는 모습이다. 그러나, 안타깝게도 현실은 아직 우리가 생각하는 만큼 기술이 발전되지 않았다. 이러한 간극은 인공지능을 공부하고 있는 사람들에게 많은 혼란을 야기하고 있다.

 

현재 우리 생활에 접목해 있는 인공지능은 대부분 인간처럼 사고하고 행동하는 게 아니라 일정한 패턴을 가지고 문제를 해결하는 방식이다. 예로 애플社에서 개발한 시리(Siri)에 ‘안녕 자비스'라고 말하면 '토니 스타크 사장님이십니까?’, ‘잠깐만요. Potts양에게 저녁 먹으로 늦게…’ 등 서너 개의 답변을 통해 인공지능과 대화가 된다고 말하지만 사실은 이미 정의된 규칙의 모음을 이용해서 지능을 흉내 내는 것이다.

 

 

 

[그림 1] 애플社 시리(Siri) 답변 예시

 

 

▶ 인공지능이 필요한 이유

 

현재에도 인공지능은 다양한 분야에서 연구가 활발히 이뤄지고 있는데 이는 "인간"을 대체하기 위해서라기 보다는 인간의 "노동"을 대신할 수 있을 거라 기대하기 때문이다. 달리 말해, 정답이나 결론이 정해져 있는 분야에서는 인간보다 처리 속도가 월등히 빠르며, 거의 동일한 수준의 처리 결과를 나타내는 등 시간과 비용을 절감할 수 있다는 점에서의 긍정적인 효과를 바라보고 있다. 

 

최근 근로기준법 개정으로 법정근로시간이 주 68시간에서 주 52시간으로 제한됨에 따라 인력 투입에 대한 기업의 부담이 많이 늘어난 것은 물론, 워라벨(Work and Life Balance)이 중시되는 사회문화가 대두되면서 보안관제 시장과 같은 24시간 교대 근무에 대한 기피 현상이 발생하고 있어 사이버 보안 분야에서의 인공지능의 필요성이 더욱 더 요구되고 있는 실정이다. 심지어 2025년 전 세계 데이터 규모가 현재보다 약 10배 정도 증가할 것으로 전망되면서, 방대한 양의 데이터 모니터링과 처리를 한정된 인력과 자원으로 해결하기에는 턱없이 부족할 것이라 생각된다.

 

특히, 보안 분야에서 인공지능 도입은 궁극적으로 "업무 자동화"를 하기 위함이라고 말해도 무방하다. 따라서 인공지능을 도입하기에 앞서, 사람이 수행하던 업무를 자동으로 처리하는 시스템을 구축하기 위해서는 이제껏 당연하게 해왔던 보안 이벤트 분석 방법, 오탐/과탐/미탐에 대한 처리, 보고서 형태, 보고 체계 등 각 절차에 대한 정의 즉, "업무 표준화"가 우선 수립되어야 할 것이다.

 

이러한 일련의 과정들이 제대로 수행되었을 때 비로소 보안 분야에 특화된 인공지능 연구 및 그 활용 방안에 대해 고민해 볼 수 있을 것이다. 

 

 

2. 사이버 보안에서 인공지능 활용 시 고려해야 하는 사항

 

자판기커피의 맛이 기계마다 다르다고 느껴본 적이 있는가? 커피맛이 다 똑같다고 느낄 수 있지만 자판기기계마다 배합 비율이 조금씩 다르다고 한다. 유독 내 입맛에 맞는 자판기 커피를 마시며 한 번쯤 '원두, 설탕 그리고 프리마를 어떤 비율로 설정했길래 그렇게 맛있을까?', '왜 우리 회사에 설치된 자판기 커피는 맛이 없을까?'를 고민을 해 본 사람이 있을 것이다. 

자판기커피로 유명한 강릉 커피 거리는 예전부터 그곳에 설치된 자판기의 커피 맛을 잊지 못한 사람들이 다시 찾아오면서 유명지가 되었다고 한다. 실제 강릉에서 마시는 자판기 커피가 다른 곳에서 마시는 것 보다 맛있다고 느끼는 이유는 바다를 바라보며 마실 수 있는 낭만적인 분위기나 많은 사람들의 입소문 때문일 수도 있지만, 강릉 자판기 커피만의 커피맛을 만들기 위해 원두, 설탕, 프리마의 비율을 수 차례 연구했을 수도 있다.  

 

이처럼 최상의 커피 맛을 내기 위해 시행착오를 거쳐 황금비율의 커피를 만들어 내듯, 인공지능 연구도 정확한 결과를 도출해 내기 위한 수 많은 연구결과로 최적의 인공지능 알고리즘을 구현한다는 점에서 서로 유사하다고 볼 수 있다. 

특히, 사이버 보안 분야에서는 어떠한 알고리즘을 사용하는가에 따라 '정탐률'과 '오탐률'이 달라지므로 알고리즘에 대한 지속적인 연구는 매우 중요하다.

 

인공지능 알고리즘은 데이터의 종류, 학습하는 방법, 결과를 도출하는 방식에 따라 분류될 수 있으며, 기계가 학습하는 방식은 크게 2가지가 있다. 이미 결과를 알고 있는 데이터 셋(이하 학습 데이터)을 이용한 학습을 지도학습, 결과를 알 수 없는 학습 데이터를 가지고 학습하는 것을 자율 학습(비지도 학습)이라 한다.

 

발신된 신규 이메일이 스팸 메일인지 아닌지 판단할 때와 같이 새로운 데이터에 대한 결과를 예측하거나 종류를 판단할 때 주로 지도학습 알고리즘을 사용하며, 결과를 모르는 샘플 데이터를 이용하여 유사한 특징을 가지는 것들끼리 묶는 군집화를 할 땐 비지도 학습 알고리즘을 많이 사용한다. 

 

 

지도학습

(Supervised Learning)

§명시적 정답으로 학습
§예츨 모델 등에 사용

SVM

인공신경망

Naïve Bayes

Linear regression

자율학습

(Unsupervised Learning)

§명시적 정답 없이 학습
§군집화 등에 사용

K-means

DBSCAN

 

[표 1] 학습방법에 따른 대표적인 알고리즘 종류

 

 

앞서 말했듯이, 맛있는 커피가 완성되는 데는 원두, 설탕, 프리마의 3박자 황금비율이 필요한 것처럼 사이버 보안 분야에서 인공지능 시스템을 적용하기 위해서는 다음 3가지 사항을 모두 만족해야 한다.

 

 

 

[그림 2] 인공지능 시스템 구현의 조건

 

 

▶ 정확한 탐지를 위한 알고리즘

 

정확도(Accuracy)란 정상적인 패킷인 경우는 탐지하지 않고 실제 공격이 발생했을 때는 탐지하는 확률을 의미한다. 따라서 정확성을 고려한다면 명확한 답이 존재하는 데이터로 학습하는 지도학습 알고리즘을 사용하는 것이 더 바람직하다고 볼 수 있다.

 

 

 

[그림 3] 정확도 계산 방법

 

 

그러나 지도학습 알고리즘은 학습 데이터셋의 구성 비율(정상 데이터와 비정상 데이터의 비중)이 한쪽으로 지나치게 편향되어 있으면 정확도가 떨어지는 과적합(OverFiting) 현상이 발생할 가능성이 존재하므로 사용에 주의해야 한다. 또한, 학습 데이터셋에 대한 결과를 매칭하는 라벨링 작업을 사람이 직접 해야 한다는 한계점과 혹여 잘못 라벨링 된 학습 데이터를 가지고 지도학습을 한 경우 잘못된 결과를 나타낼 문제가 있다. 

 

이러한 문제점들은 기본적으로 충분한 학습 데이터셋이 많으면 많을수록 극복될 것으로 생각되나, 무엇보다 제일 중요한 것은 준비된 학습 데이터셋에 대한 정확한 라벨링이며, 이는 적지 않은 시간과 비용, 그리고 전문 인력이 필요하다는 현실적인 한계가 있다.

 

 

▶ 제로데이 공격(알려지지 않거나 변형된 공격) 탐지를 위한 알고리즘

 

 

세상에는 정형화되지 않은 다양한 형태의 행위들이 존재한다. 이러한 행위들 사이에 숨은 공격들은 기존에 알려진 "시그니처" 기반으로 탐지하는 데 많은 어려움이 있다. 그러나 데이터의 패턴이나 구조적인 특징을 추출하여 비슷한 성격의 행위를 군집화하는 자율 학습 알고리즘을 사용하면 이러한 알려지지 않은 신규 공격들을 선별하는데 효과적일 것이다.

 

최근 제로데이 공격이나 보안 장비에서 탐지되지 않도록 하는 변형된 공격을 효율적으로 탐지하기 위해 자율 학습 알고리즘과 샌드박스 기술을 접목한 보안 솔루션 제품들이 다수 등장하고 있다. 특히 서버뿐만 아니라 일반 사용자 단말에서 발생하여 이상 행위를 탐지하는 EDR(Endpoint Detection and Response Tools) 제품의 경우 악성코드, 랜섬웨어와 같은 사이버 공격뿐만 아니라, 특정 권한이 필요한 파일에 대한 비정상적인 접근 등 내부 직원(일반 사용자) PC에서 발생한 이상 행위에 대한 탐지도 가능할 것으로 알려졌다.

 

하지만 자율 학습 알고리즘은 참/거짓이라는 답이 존재하는 것이 아니라, 특징이 비슷한 데이터들을 묶어 주는 것으로 해당 묶음이 정상 행위에 속하는지 혹은 비정상 행위에 속하는지를 판단하기에는 조금 어렵다. 

따라서 수많은 정상 행위와 비정상 행위를 효과적으로 구별하기 위해서는 정상 행위에 대한 학습이 선행되어야 한다는 한계가 있다. 

 


 

[그림 4] 군집화 예시

 

 

▶ 신속한 탐지 및 대응이 필요한 이유

 

 

신속한 탐지와 대응은 사이버 보안에서 필수불가분한 요소이다. 기존에는 보안 장비에서 이상 행위가 탐지되면 분석가가 해당 내용을 분석하여 악성 여부, 침해 여부 및 서비스 영향도를 파악한다. 만약 악성 행위로 판단되면, 분석한 내용을 기반으로 새로운 탐지 패턴이나, 시그니처를 생성하여 보안 솔루션에 적용한다. 이러한 과정들은 절차마다 담당자가 다를 경우가 대부분이며, 담당자에서 담당자로 사건이 이관될 때 낭비되는(알게 모르게 버려지게 되는) 시간이 적지 않으며, 사람이 직접 판단하기에 분석가의 역량과 그날의 컨디션에 따라 분석 내용이 상이해질 가능성이 존재한다.

 

이러한 문제점들은 "업무 자동화"가 된다면 자연스레 해결될 것으로 예상된다. 절차와 절차 간의 시간 낭비가 발생하지 않을 것이며, 동시다발적으로 발생하는 공격에 대해서도 한 번에 분석 및 새로운 공격에 대한 패턴이 실시간으로 업데이트되어 신속한 대응이 가능해지는 등 시간적 단축에 상당한 이점이 있다.

 

 

3. 마무리

 

인공지능에 관해 공부하다 보면 문득, 인공지능이 지금의 빅데이터 기반 탐지 방법과 다른 점이 무엇인가에 대해 의문점이 드는 경우가 있다. "공격 패턴"을 기반으로 탐지한다는 점에서는 인공지능을 통한 탐지와 기존의 탐지 방법이 크게 다르지 않다고 느낄 수도 있지만, 인공지능만의 장점은 바로 "학습"이다. 기존에는 탐지 패턴과 룰 정책을 수동으로 하나하나 확인하고 생성해야 했다면, 인공지능을 통한 탐지는 주어진 데이터를 통해 스스로 학습하여 탐지 패턴과 정책 등을 "자동"으로 생성하는 "자동화 모델링" 과정이 존재한다는 점에서 가장 큰 차이가 있다. 이는 업무 자동화를 통한 효율성뿐만 아니라 시간과 비용 절감의 효과까지 챙길 수 있다.

 

물론, 요즘같이 급변하는 세상에 "완벽한 자동화"를 구현하기까지는 현실적으로 여러 난관에 봉착하겠지만 앞으로 고도화 된 알고리즘에 대한 연구와 이를 관리 감독할 전문 인재 배양 등 끊임없는 투자가 이뤄진다면 언젠가는 영화 속에서만 보았던 인공지능이 실현되지 않을까 조심스럽게 예상해 본다.

 

 

4. 참고자료

 

[1] 서울과학기술대학교 산학협력단, 머신러닝 기반 악성코드 분석 알고리즘 적합성 연구, 한국인터넷진흥원, 2017

[2] 아주대 사이버보안학과 교수, 인공지능 기반 금융권 보안관제 동향 및 향후과제, 전자금융과 전자보안, 2017

[3] 보안기술연구팀, 머신러닝을 활용한 해외 기업의 악성파일 탐지 연구 소개, 금융보안원, 2018

[4] 조성래, 성행남, 안병혁, SVM과 인공 신경망을 이용한 침입탐지 효과 비교 연구, 한국산학기술학회눈문지 제17권 제2호, 2016

[5] 가천대학교 산학협력단, 머신러닝기반의_침해사고_공격분석_방안_연구, 한국인터넷진흥원, 2017