보안정보

전문화된 보안 관련 자료, 보안 트렌드를 엿볼 수 있는
차세대 통합보안관리 기업 이글루코퍼레이션 보안정보입니다.

데이터 중심 머신러닝으로 신뢰성과 성능, 두 마리를 모두 잡아보자

2022.08.10

1,428

인공지능을 도입한다는 건 무엇을 의미하는 걸까. 영화 <아이언맨> 속 자비스(Javis)와 같은 전천후 비서를 가지게 된다는 뜻일까. 아니면 영화 <마이너리티 리포트> 속 프리크라임(Pre-crime)이 범죄 장소와 시간, 범죄자를 예측해 사건 발생 전 잡듯이, 미리 알기 어려운 것들을 예측해주는 시스템의 등장을 가리키는 걸까. 너도나도 인공지능을 말하고 있지만, 이에 대한 명확한 정의를 내릴 수 있는 사람은 많지 않다. 그러나 인공지능에 대한 각각의 정의가 다를 지라도 ‘인공지능이 지금보다 더욱 쉽고 편리하게 우리의 상태를 개선해줄 것’이라는 기대감은 비슷할 것이라고 생각한다.

01. 아직 사이버 팬데믹(Cyber Pandemic)은 오지 않았다

지난 6월 6일부터 9일까지 나흘간에 걸쳐 미국 샌프란시스코에서 개최된 RSA 컨퍼런스 2022(RSA Conference 2022)에서 로힛 가이(Rohit Ghai) RSA 최고경영자(CEO)는 기조연설을 통해 ‘변화(Transform)’에 대해 이야기하며 세상은 그 어떤 것도 예측하기 어렵다고 강조한 바 있다. 코로나19로 인한 전 세계적인 팬데믹(Pandemic)도 미리 알지 못했고, 러시아와 우크라이나 전쟁 또한 사전에 예측할 수 없었다. 이에 추후 사이버 팬데믹(Cyber Pandemic)에 직면하게 된다면, 이는 코로나19보다 더욱 빠르게 확산돼 사회 전체를 큰 혼란에 빠트리게 될 것이라 경고하며, 그를 막기 위한 대응책 중 하나로 인공지능을 꼽았다. 그와 함께 또다른 강연자였던 브루스 슈나이어(Bruce Schneier) 하버드 교수 역시 사이버 팬데믹 공격의 선봉은 인공지능이 될 것이라 전망했다.

오늘날 보안업계 속 인공지능을 살펴보면, 마치 빅데이터 기술처럼 거의 모든 분야에 녹아들어가 있다는 점이 가장 눈에 띈다. 더불어 공격자들이 인공지능 기반의 솔루션을 속이거나 중단시킬 수 있는 다양한 공격 수단을 물색하면서, ‘적대적 인공지능’에 대한 우려가 커지고 있다는 점 역시 괄목할 만하다. 더 나아가 데브섹(DevSec)과 같은 소스관리를 위한 오픈소스, 멀웨어 탐지 오픈소스, 디지털 포렌식과 대응 등 인공지능에 대한 전방위 오픈소스 진형이 구축되고 있는 것으로 보아, 보안 분야의 인공지능 기술 평준화는 이미 시작된 것으로 판단된다. 그리고 이렇듯 인공지능의 역할과 활용 범위가 점차 확대됨에 따라 인공지능 모델에 대한 투명성이나 공정성, 윤리적 기준에 대한 논의도 꾸준히 이어지고 있는 추세다.

그러나 그와는 별개로 막상 인공지능을 현장에 적용할 때에는 데이터 부족, 도입 목표 미흡, 인공지능에 대한 신뢰 부족, 전문 인력 부족 등의 이유로 만족할 만한 성과를 얻지 못하고 있는 실정이다. 정보보안 다방면에 있어 인공지능 도입이 활발히 이뤄지고 있는 것에 비해 느껴지는 효용성에 대한 체감은 적다. 문제는 어디에 있는 것일까? 처음 보안업계에 등장한 이후 꽤나 많은 부침을 겪어오며 주요 기술 중 하나로 자리잡게 된 인공지능이지만, 사이버 팬데믹의 대항마로서 그 역할을 다 할 수 있을까? 이에 인공지능을 바라보는 관점을 다시금 짚어보고, 그 효과를 극대화할 수 있는 방안에 대해 함께 고민하는 시간을 가져보고자 한다.

02. 이제는 데이터 중심(Data-Centric)의 인공지능을 말할 때

원론으로 돌아와 간단히 말하면 인공지능 시스템은 코드(Code)와 데이터(Data)로 구성된다. 여기서 코드란 알고리즘이나 모델을 뜻하고, 데이터는 학습에 필요한 데이터를 뜻한다. 이는 다시 말해 인공지능 시스템의 성능을 향상시킨다는 건 크게 두 부분으로 나눠 접근해볼 수 있다는 말과 같다. 코드를 향상시키는 방법과 데이터를 향상시키는 방법이다. 또 다른 말로는, 모델 중심의 접근법과 데이터 중심의 접근법이 되겠다.

먼저 모델 중심의 접근법은 이미 수집된 데이터와 적합한 알고리즘을 선택하고, 하이퍼파라미터 튜닝과 같은 과정을 통해 이를 최적화 시키는 방안을 말한다. 맞춤형 모델을 구축하기 위한 훈련에 집중하는 것이다. 그에 반해 데이터 중심의 접근법은 데이터의 일관성을 핵심으로 두고, 데이터의 양도 중요하지만 그보다 데이터의 품질을 향상시키는데 더 많은 투자를 진행하는 방안이다. 모델 또는 알고리즘을 고정시키고, 데이터에 대한 조정을 통해 데이터의 질을 높이는데 집중한다.

지난 2021년 3월, 세계적인 인공지능 전문가 앤드류 응(Andrew NG) 교수는 자신이 주최한 유튜브 웨비나를 통해 그동안의 인공지능 발전 대다수가 뛰어난 모델을 개발하는데 집중이 되었다면, 이제는 모델 중심의 인공지능 시대가 아닌 데이터 중심의 인공지능 시대가 도래했다고 선언한 바 있다. 또한 테슬라의 인공지능 책임자 안드레아 카르파티(Andrej Karpathy) 역시 인공지능 성능 개선을 위해선 데이터 중심으로 접근해야 한다 주장하며, 데이터 중심 접근법에 힘을 실었다.

[그림 1] ‘데이터 중심 인공지능’을 외치는 앤드류 응과 안드레아 카르파티 (출처: DeepLearning.AI & 트위터)

아래의 표는 앤드류 응 교수가 데이터 중심 인공지능을 주장하며 세미나를 통해 공개한 사례다. 컴퓨터 비전을 이용하여 철강 합판이나 태양광 패널 등의 결함을 찾는 문제에서 모델을 고치는 작업을 했을 때와 데이터를 고치는 작업을 했을 때 개선된 시스템의 성능 차이를 보여준다. 우선 모델을 개선했을 때는 기본 기준치보다 0~0.04%의 극히 미세한 향상이 있었다. 그에 비해 데이터를 개선했을 때는 그 증가폭이 최대 16.9%를 기록하는 등 전반적으로 훨씬 큼을 알 수 있다. 앤드류 응 교수는 실환경에서는 이와 유사한 사례가 더욱 많다 덧붙이며, 데이터 중심의 인공지능 접근법을 다시금 강조했다. 같은 맥락으로, 보안 분야 역시 머신러닝 기반의 솔루션 등이 도입되면 초기에는 모델 중심의 성능 향상이 이루어 진다면, 운영 후에는 데이터 중심의 성능 향상으로 그 초점이 변경됨을 경험할 수 있다.

[표 1] 모델 중심 vs 데이터 중심 접근 비교 사례 (출처: A Chat with Andrew on MLOps: From Model-centric to Data-centric AI 세미나)

현실적으로 인공지능 프로젝트 진행 시 가장 많은 시간이 소요되는 건 데이터 준비에 대한 부분이다. 클라우드팩토리(Cloudfactory)에 따르면, 인공지능 프로젝트에 들어가는 전체 시간 중 약 80%가 데이터 수집, 정제와 같은 데이터 관련 업무이며, 인공지능 모델/알고리즘 및 배포 관련 업무가 약 20% 정도의 비중을 차지한다고 한다. 그러나 안타깝게도 이렇듯 데이터에 상당한 시간에 투자되고 있음에도 불구하고, 만들어진 학습 데이터는 많은 노이즈와 편향으로 오염되어 있는 경우가 많다.

[그림 2] 데이터셋 분포에 대한 4가지 형태 (출처: HBR (October 2016))

데이터의 정확도는 예측 결과의 정확도와 직결된다. 위 그림에서도 볼 수 있듯이 첫번째, 정확한(Accurate)한 데이터셋을 바탕으로 만들어진 인공지능 모델은 정확히 목표한 대로의 결과를 낸다. 그에 비해 두번째, 목표와 다소 떨어진 과녁 옆에 분포한 데이터로 구성된 데이터셋은 그 정확도가 많이 낮아지게 된다. 세번째, 한쪽에 치우친 편향된 데이터셋의 모델은 특정 상황에서만 높은 정확도를 갖고 그 외의 경우에는 맞지 않는 결과를 도출한다. 마지막으로, 노이즈가 많고 편향된 데이터셋을 통해 만들어진 모델은 의도한 바와 전혀 맞지 않는, 최악의 결과를 보여주게 된다.

이러한 배경에서, 인공지능 모델 결과에 대한 투명성과 공정성을 가지기 위한 노력이 꾸준히 이어지고있다. 먼저 투명성을 향상시키기 위해, 인공지능이 의도한 대로 잘 학습되었는지 또 신뢰할 만한 예측 결과가 도출되었는지를 판단할 수 있도록 도와주는 설명 가능한 인공지능(eXplainable AI, XAI) 기술이 지속적으로 연구되고 있으며, 이를 위한 알고리즘으로 LIME, SHAP, Google What-if 등이 제안되고 있다. 또 공정성을 측정하는 메트릭(Metric) 설계 등의 방법으로 편향(Bias)을 없애고 데이터 불균형에 영향을 받지 않는, 공정한 인공지능을 개발하고자 하는 움직임 역시 점차 본격화되고 있다.

03. 보안 전문가의 입장에서 신뢰성과 성능, 두 마리를 잡기 위한 전략

그렇다면 이러한 흐름에 따라 보안업계에서 그리고 보안 전문가의 입장에서 신뢰성과 성능, 두 조건을 모두 충족하는 인공지능을 구현하기 위한 4가지 전략을 다음과 같이 제안한다.

첫째, 다름을 인정한다.

가장 먼저, 보안 분야에서 어떠한 위협을 판단할 때 인공지능이 보는 관점과 보안 전문가가 보는 관점이 다름을 인정해야 한다. 보안 전문가들은 오랜 시간 문자열 패턴이나 시그니처, 침해 지표와 위협 인텔리전스를 통해 이를 식별하고 분석해왔다. 전문가의 관점에서 보면 이해가 쉽고 한 눈에 보이는 것들이다. 그러나 인공지능은 수집된 학습 데이터 내에서 알고리즘을 거쳐 만들어진 모텔을 통해 바라본다. 서로 접근하는 관점이 다르다.

둘째, 설명 가능한 인공지능(eXplainable AI) 기술을 적용한다.

이렇듯 다름을 인정하고 나면, 이제는 어떤 부분에서 다른지를 알아야 한다. 그리고 이를 도와주는 게 바로 ‘설명 가능한 인공지능’이다. 과거 우리는 인공지능이 하는 예측에 대해 명확한 근거나 이유를 전달 받지 못했다. 모델이 학습하는 데이터에는 우리가 미처 생각하지도 못한 부분이 포함되어 있을 수 있지만 의도한대로 잘 학습되었는지 또 왜 이러한 결과를 도출하게 되었는지, 우리는 이유를 알지 못한 채 그저 결과값만을 받아볼 수 있었다. 다시 말해 과거 인공지능 모델은 결정의 근거 파악이 불가능한 블랙박스(Black box) 형태를 가졌지만, 설명 가능한 인공지능 모델은 인공지능이 왜 이 이벤트를 고위험 이벤트라 판단했는지, 결과의 도출 과정을 이해할 수 있도록 알려줌으로써 인공지능과 보안 전문가 입장 간의 간극(Gap)을 줄여 준다.

[그림 3] 설명 가능한 인공지능(eXplainable AI)을 통해 구현된 보안관제 화면 (출처: 이글루코퍼레이션 SPiDER TM AI Edition)

셋째, 편향(Bias) 및 불균형을 제거한다.

학습을 위해 제공된 데이터가 모델의 목적을 다 충족하지 못한다면, 편향된 특정 결과를 도출하게 된다. 실례로, 일전 어느 한 기관에서 수집한 데이터를 정제하여 학습 데이터로 활용한 적이 있는데 아주 기본적으로 탐지되어야 하는 이벤트가 탐지되지 않는 경우가 있었다. 구축된 학습 데이터가 특정 공격 유형에 편향되어 있어 그 외 소수 데이터 유형의 정확도가 낮아진 까닭이었다. 학습 데이터에 잠재된 편향 원인이 있는지를 사전에 평가하고, 문제가 될 수 있는 편향을 제거하는 과정이 요구되는 이유다.

이러한 배경에서, 최근에는 학습 데이터의 편향을 제거하기 위한 움직임이 본격화되고 있다. 특히 보안 분야에서는 클래스별 불균형 비율이 심각하게 크다. 정상적인 데이터 안에서 악의적인 행위를 찾아내는 그 고유의 특성 탓이다. 아래의 표에서 볼 수 있듯이, 많은 연구에서 활발히 사용되는 데이터셋 역시 높은 불균형을 보이고 있다. 이에 보다 정확한 예측 결과를 위해서는 학습 데이터, 테스트 데이터, 배포 시, 피드백 시 등 인공지능 데이터 학습 프로세스 전반을 세밀하게 구분하여 편향이나 불균형 등의 문제를 내포하고 있진 않은 지 점검할 필요가 있다.

[표 2] 침입탐지 데이터셋 종류별 불균형 비율 (출처: 이글루코퍼레이션)

넷째, 적대적 인공지능(AI)으로부터 학습 데이터를 보호한다.

마지막으로, 적대적 인공지능으로부터 학습 데이터를 보호해야 한다. 악의적인 사용자들은 학습 데이터에 대한 변조를 지속적으로 노린다. 또 모델이 만들어진 후에는, 악의적인 테스트를 통해 모델의 특성을 끊임없이 파악하고자 할 것이다. 이에 공격자들의 위협을 사전에 파악하고, 기존의 보안 대책을 활용하여 학습 데이터에 대한 보안 모델의 편향성과 탐지 범위를 지정한 모델에 대한 보안, 그리고 운영하면서 직면하는 보안 위협에 대하여, 지속적으로 모니터링하고 기술을 보완해 나가야 할 것이다.

[그림 4] 인공지능 보안 강화를 위한 3가지 관점 (출처: 이글루코퍼레이션)

그렇다면 인공지능을 적용하고 난 후에는 어떻게 해야 할까. 보안에서 새로운 기술 및 기법이 적용된다는 건, 그에 따른 새로운 위협이나 관리 포인트가 등장하게 된다는 것과 같다. 다시 말해 인공지능을 활용한 방어 기술뿐만 아니라 인공지능을 악용한 공격 기술 또한 증가하고 있다는 의미다. 인공지능을 도입하는 사례가 많아지면 많아질수록 인공지능을 겨냥한 공격 역시 다양하게 개발되고 있는 상황이다. 이러한 추세 속에 가트너(Gartner)는 위협 벡터로 쿼리 공격, 데이터에 악의적인 코드 삽입 등을 새로이 도출하고 있으며 보안업계에서는 인공지능 모델의 무결성, 데이터 무결성 등이 제시되고 있다. 이를 바탕으로 새로운 공격 유형은 모델에 대한 위협, 모델에 대한 추론, 조작 등으로 정의해볼 수 있겠다.

현재 인공지능에 대한, 특히 보안 분야 속 인공지능에 대해서는 ‘새로운 보안 패러다임의 포문을 열었다’라는 긍정적인 평가와 ‘본격적인 성과를 내기까지는 아직까지도 시간이 걸릴 것’이란 부정적인 관측이 공존하고 있다. 다만 확실한 건 처음 등장했던 순간부터 지금까지, 보안업계 속 인공지능은 꽤나 매력적이며, 우리가 지금까지 보지 못했던 부분을 볼 수 있게 해주고 또 생각하지 못한 방법으로 접근할 수 있도록, 한 마디로 이전에는 불가능했던 것들을 가능하게 해주고 있다는 사실이다.

영화 <매트릭스>에서 모피어스는 주인공 네오에게 ‘길을 아는 것과 그 길을 걷는 것은 다르다’며 실행의 중요성을 강조했다. 인공지능을 너무 대단하게 혹은 어렵게 생각하지 말고, 지금까지 언급했던 것들을 토대로 데이터 중심으로 차근차근히 접근해 나간다면, 신뢰성과 성능 모두를 잡을 수 있는 인공지능을 만나게 될 것이라 생각한다.