보안정보

전문화된 보안 관련 자료, 보안 트렌드를 엿볼 수 있는
차세대 통합보안관리 기업 이글루코퍼레이션 보안정보입니다.

업무 연속성 계획(BCP) 및 재해복구 계획(DRP)의 중요성

2022.12.06

2,525

01. 서론

현대 사회에서 전자기기는 우리 일상의 많은 부분에서 사용되고 있다. 대부분의 전자기기들은 특정 프로그램을 포함하였으며 이 프로그램은 인터넷에 연결되어 다양한 기능을 지원한다. 재난으로 인한 가용성 저하가 발생할 경우, 해당 프로그램을 사용하는 모든 단말기에 영향을 미칠 수 있다. 만약 각종 재난이 야기한 서비스 불능 상태에서 빠르게 회복하지 못한다면 해당 기간 동안 고객에게 정상적인 서비스를 제공할 수 없고, 이로 인해 고객은 금전적 피해를 비롯한 예측할 수 없는 많은 피해를 입게 된다.

2022년 10월경 게임부터 택시, 금융, 메신저 등 수많은 서비스를 제공하던 카카오의 시스템이 구축되어 있던 데이터 센터에 화재가 발생하였다. 해당 사건으로 인해 카카오가 제공하던 대부분의 서비스가 장시간 중단되어 큰 불편함을 초래하였다. 카카오 측은 해당 사태로 인해 피해를 입은 고객에게 피해 구제 접수를 받았고 접수 시작 5일 만에 4만 5천여 건이 접수된 것으로 알려졌다. 즉시 산정이 가능한 피해 보상액 규모는 약 400억 원에 달한다. 또한 카카오는 국정감사 등에서 공식적으로 무료 서비스 이용자에게도 구제 절차에 따라 폭넓은 보상을 약속했는데, 무료 서비스 이용자에 대한 보상은 전례가 없어 구체적인 피해 보상 규모는 가늠하기 어려운 상황이다.
다행히 해당 사건으로 인한 큰 인명피해 및 재해는 발생하지 않았으나, 가까운 미래에는 기업들이 제공하는 서비스가 이번처럼 고객에게 끊임없는 동영상 시청, 대화, 게임 환경을 제공하는 것이 아니라 우리의 삶에 더욱더 깊고 넓게 침투할 것이다. 예를 들어 자동 운전, 공정 AI 등과 같이 사람의 목숨과 직접적인 연관이 있는 서비스의 가용성이 보장되지 않는다면 수많은 목숨을 앗아가고, 막대한 규모의 금전적 피해를 입힐 수 있는 재해가 발생할 것이다.

이번 호에서는 인재, 기상재해 등의 천재지변에도 가용성을 유지하고, 서비스 불능 또는 가용성 저하 상태에서 빠르게 정상 서비스 상태로 복귀하기 위한 업무 연속성 계획 및 재해복구 계획의 개요와 계획 수립 절차를 통해 계획 수립 시 고려하여야 할 점을 알아보고, 마지막으로 재난 사례들을 살펴보며 업무 연속성 계획 의무화의 법제화에 대한 필요성을 알아보려 한다.

02. 개요

업무 연속성 계획 (BCP : Business Continuity Plan)이란 재난 발생시 비즈니스 연속성을 유지하기 위한 방법론이다. 이는 인재 (man-made disaster)와 천재지변, 테러 등을 포함한 각종 재난, 재해로 인한 업무 중단이 발생할 경우 최대한 빠른 시간 내에 핵심업무를 복구함으로써 기업 업무의 연속성을 유지하는데 목적을 둔다. 9·11 테러 이후 세계적으로 급부상 하였으며 국내에서는 2019 COVID 바이러스에 이어 2022년 10월경 발생한 카카오 데이터 센터 화재 사건으로 인해 업무 연속성 계획 수립 및 서비스 이중화(다중화)를 의무화 하는 등 중요성이 부각되고 있다.

03. 관련 용어

재해 복구(DR: Disaster Recovery) : 업무 연속성 계획(BCP)과 재해복구(DR)는 같은 의미로 사용되는 경우가 있으나 업무 연속성 계획은 IT뿐 아니라 조직이 제공하는 모든 업무 영역에 대한 연속성을 유지하기 위한 계획이고, 재해복구(DR)는 재해복구 센터, 재해복구 시스템 등 IT 영역에 국한된 의미로 주로 쓰이는 용어이다.

ISO22301 : 2000년 8월 러시아 핵잠수함 침몰사건, 2001년 911테러를 포함한 각종 테러와 자연재해의 위험이 대두되면서 국제표준화기구(ISO)가 발간한 비즈니스 연속성 경영시스템 국제표준

업무 영향 분석(BIA : Business Impact Analysis) : 업무 연속성 계획의 핵심 절차로 재해로 인해 정보시스템 중단 시 업무별 영향도를 분석하여 복구 우선순위를 정하는 절차이다.

복구 목표 시간(RTO : Recovery Time Object) : 서비스 중단 시 금전적 손실 등의 피해를 수용할 수 있는 최대 시간으로 중요한 서비스일수록 빨리 복구해야 하므로 RTO가 짧다.

목표 복구 시점(RPO : Recovery Point Objective) : 서비스 중단 시 데이터 손실을 수용할 수 있는 최대 시간으로 중요한 서비스일수록 데이터가 유실될 경우의 피해가 크므로 RPO가 작다.

데이터 센터(IDC : Internet Data Center) : 데이터 센터란 시스템 운영에 필요한 물리적 장비(서버, 네트워크, 스토리지 등)들을 한곳에 모아 유지·관리하는 시설이다. 기업별로 자체적인 데이터 센터를 운영하는 경우와 전문 데이터 센터 제공 업체를 이용하는 경우가 있다.

인재(man-made disaster) : 인재란 인적 재난이라고 표현하며 인간의 고의 또는 실수에 의해 발생하는 재난을 말한다.

카오스 엔지니어링(Chaos Engineering) : 카오스 엔지니어링이란 DVD 사업을 하던 해외 대기업 넷플릭스가 인터넷 동영상 스트리밍 서비스를 위한 클라우드 시스템 도입 시에 고안한 방법론이다. 기본 개념은 시스템에 의도적인 장애를 일으키고 장애가 발생한 부분, 프로세스를 개선해 나가며 결과적으로 더 안정적인 시스템을 구축하는 것이다.

재해복구설비(DRS : Disaster Recovery System) : 재해복구센터라고도 불리며 업무가 중단되었을 경우를 대비하여 주 데이터 센터의 데이터를 백업하거나, 이중화를 통해 재해 발생 시에 중단된 업무를 재개하기 위한 설비를 말하며 재해복구시스템의 종류는 다음과 같다.

[표 1] 재해복구 시스템 유형

04. 업무 연속성 계획 수립 절차

사업 연속성 계획에서 가장 중요한 것은 업무별 영향도를 평가하여 이에 따른 복구우선순위와 복구목표시간(RTO)를 설정하는 것이다. 중요도에 따른 복구목표시간을 설정했다면 복구를 위해 필요한 자원을 파악하고 복구목표시간을 충족할 수 있도록 구체적인 복구계획을 수립하여야 한다. 업무 연속성 계획을 수립한 뒤 주기적으로 실제 상황을 가정한 훈련을 통하여 BCP의 실효성을 검증하고 개선점을 도출해 끊임없이 개선해나가야 한다.

1) 비상조직체계

특이사항 발생시 조직 및 개인별로 명확한 역할이 부여되어 있지 않다면 재난 상황에 대한 효율적인 대응이 불가능하고 이로 인해 복구의 속도가 늦어져 RTO 및 RPO를 만족시킬 수 없게 된다.
이에 따라 업무 연속성 계획 수립 절차의 첫 단계는 먼저 재난 상황 발생시에 대응하기 위한 비상조직체계를 구성하고 개인별 역할을 명확히 규정하여 관련자들에게 공표하여 재난 상황에 효과적으로 대응할 수 있도록 하여야 한다.

2) 업무 영향도 분석(BIA)

BCP의 핵심 절차로 전체 사업에 존재하는 업무를 파악하고, 분야별로 분류하고 업무별로 전체 사업에 미치는 영향도를 파악해 재난 발생시 우선복구순위를 설정하는 과정이다. 모든 업무에 대한 프로세스 및 중요도를 파악하고 이를 바탕으로 복구 목표 시간을 설정해 이를 준수하기 위한 복구 계획을 수립한다. 설정된 복구 목표 시간을 준수하기 위해선 복구에 필요한 자원의 종류와 양을 정확히 파악하여야 한다.

[표 2] 기업대상 정부지원내용·애로접수창구 안내 및 업무연속성계획(BCP) 가이드라인 2판 개정, [4.BCP 사내 교육용 자료]

이처럼 업무 프로세스, 우선순위, 영향도 등을 포함한 정보가 정확하지 않다면 업무 영향도 분석 이후의 단계들을 정확히 수행할 수 없기 때문에 BCP의 핵심 절차라고 할 수 있다. 업무별 중요도를 설정하기 위해선 업무 항목별 점수화가 필요한데, 보통 계층 분석법(AHP: Analytic Hierarchy Process)기법 등의 정성적 방법을 활용한다. 이는 사업 전체의 업무는 서로 분야와 성격이 달라 정량화된 방법으로 우선순위를 산출하기엔 변수가 많기 때문이다. AHP 기법은 중요도를 평가할 업무에 대한 이해도가 높은 관리자급의 담당자를 대상으로 설문조사를 실시한다. 항목들의 가중치 및 항목별 점수를 설정하고 이를 토대로 업무별 복구 우선순위를 산정한다.

3) 복구 시 필요 자원 산정

업무 영향도 분석에 따른 목표 복구 시간과 목표 복구 시점을 달성하기 위해 필수적인 준비 단계이다. 업무에 대한 복구 우선 순위와 복구 목표 시간을 정의 했다면 해당 업무를 복구 목표 시간 내에 정상화하기 위해 필요한 모든 자원을 식별해야 한다. 이때 자원에는 IT 시스템, 데이터, 원자재 등이 포함되며 반드시 필요 인적 자원을 정확히 식별하고, 비상시 배치될 인력에 대해 공표해야 한다. 또한 배치 인력에게 정확한 행동강령을 반복 훈련시켜 실제 상황에서 혼란 없이 복구 계획을 실행할 수 있도록 한다. 재난 발생시에는 복구에 필요한 자산들을 필요한 만큼 지정된 시간 내에 수급하기 위한 프로세스가 마련되어 있어야 한다. 해당 과정이 부적절할 경우 실제 복구 과정에서 필요 자원의 부족으로 복구 계획에 차질이 생길 수 있으므로 반드시 업무에 필요한 모든 자원의 종류와 양을 정확히 파악하고 수급 프로세스를 적절하게 수립하여야 한다.

4) 비상 연락망 구축 및 지속적인 교육훈련

재난 상황에 임직원의 안전과 빠른 재해복구를 위하여 비상 연락망을 구축하고 재난 발생시 집결 장소를 정해 실종자에 대비하여야 한다. 또한 복구 계획에 맞게 인력들을 적재적소에 배치하기 위하여 인력의 역할, 연락처 등을 포함한 정보를 최신화하고 공표한다.

5) 지속적인 교육과 훈련

재난 발생 시 복구 계획을 모두 수립하였다면 정기적으로 실제 상황을 가정한 훈련을 통해 계획의 실효성을 검증하고 개선점을 도출하여야 한다. 또한 넷플릭스가 차용했던 방법인 ‘카오스 엔지니어링‘ 기법처럼 사전 경고 없이 임의의 장애를 특정 부분에 일으켜 시스템 운영의 탄력성을 높이는 것 또한 BCP의 실효성을 높이는 데에 도움이 될 것이다.
‘카오스 엔지니어링’이란 넷플릭스가 비디오 스트리밍을 위한 분산 클라우드 시스템을 도입하던 시기에 고안한 방법으로 핵심 원리는 의도적으로 장애를 일으켜 시스템의 탄력성을 더 높일 방법을 알아낸다는 것이다. ‘카오스 엔지니어링’은 데이터 센터에서 무장한 원숭이가 날뛰는 상황을 가정한 ‘카오스 몽키’부터 한 지역의 모든 시스템을 중단하는 ‘카오스 콩‘ 으로 나아갔다. 이 방법론은 재난 사태로 인해 한 곳의 데이터 센터가 완전히 무력화되어도 고객에게 끊임없는 서비스를 제공하는 것을 목표로 하는 실제 상황을 가장한 훈련이라고 할 수 있다.

05. 재난 사례

업무 연속성 계획을 잘 수립하고 이를 이행하여 심각한 서버 장애와 데이터 유실이 우려되었으나 재해 복구가 잘 이루어진 사례인 2001년 9월 11일 세계무역센터(WTC) 쌍둥이 빌딩 테러 사태와 국내에서 2022년 10월경 발생하여 현재 의무화가 법제화 되어있지 않은 부가 통신사업자 및 여러 분야의 기업들에 대한 DR센터 및 서버 이중화(다중화)의 의무화와 ‘데이터 센터의 재난관리시설 포함’을 대두되게 한 카카오의 데이터센터 화재 사고를 살펴보려 한다.

1) 2001년 9월 11일 세계무역센터(WTC) 쌍둥이 빌딩 테러 사태

2001년 9월 11일 민간 항공기를 납치한 테러조직이 세계무역센터(WTC) 쌍둥이 빌딩을 폭파한 테러가 발생하였다. 해당 테러로 인해 발생한 인명피해는 2,800명에서 3,500명에 달하였으며 정확히 측정하기 힘든 정도의 막대한 규모의 재산피해가 발생하였다.

세계적인 투자은행인 모건 스탠리(Morgan Stanley)는 WTC에 본사를 두고 3천명 이상의 임직원을 상주시키고 있었다. 테러 당일 모건 스탠리의 직원들은 수년간 진행해온 훈련 덕분에 신속한 대피가 이루어 졌으며 즉시 비상대응계획을 수행하고 재해복구 시스템을 가동하여 대부분의 인원이 생존하고 테러발생 바로 다음날 업무를 재개할 수 있었다. 이러한 재해 복구 능력은 20여년이 지난 지금도 훌륭한 재해복구 사례로 손꼽히며 해당 사건으로 인하여 우리나라의 금융권도 업무 연속성 계획의 수립 등 재난 시 대응체계 수립이 의무화 되었다.

모건 스탠리의 비상대응계획은 1993년에 발생한 테러사건 이후 다른 테러 사건들에 대비하기 위해 비상대응계획을 적정하게 수립하고 실제 재난 상황을 가정한 모의훈련을 주기적으로 시행하여 비상대응계획의 실효성을 검토하였다. 비상대응 계획엔 비상연락망, 집합 장소 등을 명시하여 직원들의 안전을 도모한 결과 최악의 테러에서도 대부분의 임직원을 생존시킬 수 있었다.

또한 모건 스탠리는 재난 상황에 대비하여 Hot Site 단계의 재해복구시스템(DRS)을 유지하고 있었으며 해당 복구 센터에 모든 데이터를 백업하고, 올바른 재해복구시스템 배치 방법에 따라 한 가지 재난에 모든 재해복구시스템과 주 정보시스템이 같이 영향을 받지 않도록 재해복구 시스템을 본사와 다른 지역에 위치시켜 엄청난 규모의 테러에도 업무 연속성을 장기간 잃지 않고 바로 다음날 서비스를 재개할 수 있었다.

복구시스템을 유지하기 위하여 엄청난 규모의 비용을 투자하고 있었으나 해당사건으로 인하여 모건 스탠리는 고객들의 신뢰를 얻었으며 현재까지도 과거를 발판 삼아 완벽에 가까운 대응을 했다는 평가를 받고있다. 이러한 비상시 안전을 위한 과감한 비용 투자와 과거를 통해 개선점을 발견하고 개선하여 더 나은 기업으로 발전한 것은 모든 기업의 귀감이라고 생각한다.

2) 2022년 카카오 데이터 센터 화재

2022년 10월경 국내 굴지의 대기업 카카오의 데이터 센터에 화재가 발생하였다. 911 테러와는 반대로 빠른 시일 내에 시스템이 복구가 될 것으로 기대하였으나, 모든 서비스 복구에 100시간이 넘는 시간이 걸려 재난 대응에 아쉬움이 있었다는 평가를 받았다.

화재는 데이터 센터의 보조배터리 역할을 하는 UPS를 원인으로 발생하였다고 발표되었다. 해당 화재로 인해 카카오가 제공하던 대부분의 서비스가 100시간이 넘게 서비스 불능 상태에 빠졌다. 이는 DR 센터가 존재하지 않았거나, 업무 연속성 계획의 실효성의 미검증, 평상시 재난대응 훈련 미흡 등 여러 가지 원인이 있었을 것으로 유추된다. 다음은 카카오 측 공식 발표이다. ‘국내 여러 데이터 센터에 데이터를 분할 백업하고 외부 장애 대응을 위한 이원화 시스템을 가지고 있으나 이번 화재는 예상하지 못했던 규모의 재난이고, 데이터 센터 전체가 영향을 받는 것은 이례적인 상황으로 복구하는데 예상보다 오랜 시간이 걸렸다’라고 밝혔으며 이를 통해 유추해 보자면, 이원화 시스템이 존재했으나 같은 데이터 센터 안에 존재했다는 의미로 생각된다. 이러한 배치는 한 가지 재난에 모든 데이터 센터가 영향을 받을 수 있는 배치였으므로 안전한 배치 방법과는 거리가 있었던 것으로 판단된다.

카카오의 모든 서비스가 장시간 마비되었던 것은 아니다. 카카오 대부분의 서비스가 마비된 상태에서 카카오뱅크는 다른 서비스와 달리 비교적 빠르게 서비스가 복구되었는데, 이는 911 테러의 영향을 받아 국내에서 2006년부터 시행된 금융권 기업의 BCP 의무화 조치 덕분인 것으로 보인다. 업무 연속성 계획은 2006년부터 은행권 리스크 부문의 ‘고급 측정법’ 승인 요건에 포함되었으며 현재도 시행되고 있다. 시중의 금융권 기업들은 각종 재난 등 전산 관련 이슈 발생 시 업무 연속성 계획에 따라 재난 복구를 시행하며 주 데이터 센터의 데이터를 다른 지역에 존재하는 재해복구시스템에 백업하며 Mirror Site 수준을 유지하고 있다. BCP의 의무화 조치로 인해 카카오 뱅크 또한 업무 연속성 계획이 잘 수립되어 있었기 때문에 다른 서비스에 비해 빠르게 복구가 되었을 것으로 예상되며 이는 재난대응계획 의무화의 법제화가 실효성이 있다는 의미라고 생각한다.

해당 사건으로 인하여 데이터 센터의 재난 관리 시설 포함 및 공공기관 및 금융권 기업 외 부가 통신 사업자를 포함한 다양한 기업들의 DR센터 및 시스템 이중화(다중화)를 의무화하는 법안이 여야에서 추진되고 있다. 또한 과기부는 소방청과 함께 90개의 데이터 센터를 대상으로 재난관리에 대한 실태 점검을 시행하고 있다. 이에 대해 일각에서는 ‘소 잃고 외양간 고친다’라는 평을 하는데, 필자의 생각은 조금 다르다.

모건 스탠리가 1993년도에 발생했던 테러를 발판 삼아 비상 대응계획을 개선하였고 이를 개선한 덕분에 더 큰 테러에서 사상자가 거의 발생하지 않고 본사가 완전히 무너지는 물적 피해 속에서도 빠른 시간 내에 서비스를 복구했던 것처럼 우리나라의 기업과 정부 또한 이번 사건을 계기로 더 안전하고 완전한 서비스를 제공할 수 있는 환경을 만든다면 미래에는 이번 사건을 과거를 교훈 삼아 미래의 더 큰 피해를 막았다고 평가할 수 있을 것이라고 생각한다.

06. 결론 및 시사점

기술이 발전함에 따라 다양한 기술들이 우리 삶에 더욱더 깊고 넓게 관여하고 있다. 현대의 기술은 대화 메신저, 예약시스템 등의 단순 편의성을 위한 기술만 존재하는 것이 아니다. 단순 편의성을 넘어서서 일상생활에 필수적인 국가재난관리 시스템, 아파트 출입관리 시스템, 디지털 자동차 키 등의 서비스와 오작동 시 심각한 인명사고를 초래할 수 있는 자동화 공장, 인공지능 주행 등의 기술 또한 발전하고 있다.

재난으로 인해 이러한 기능들의 가용성이 저하되어 사용이 불가하다면 작게는 자택으로의 출입이 불가하고 크게는 공장 사고, 대규모 교통사고 등의 2차 재난으로 이어질 수 있다. 그렇기 때문에 재난 상황에서 2차 피해를 막고 안전하고 편안한 삶을 영유하기 위하여 BCP 및 DRP의 수립이 필요하다.

하지만 현재의 법제도 상으로는 공공기관 및 특정 서비스에 한해서만 BCP 및 DR 센터 등의 재난대책 수립이 의무화 되어있어 많은 기업들에 대한 사업 연속성 계획의 존재 유무 및 실효성에 대한 검토가 미흡한 실정이다. 또한, 사회 분위기 상으로 재난 상황은 수십년에 한번 일어나며 이를 방지하기 위한 투자는 낭비라는 생각이 팽배해있는 상황이며, 많은 기업이 재난 대책 훈련 시 실제 상황을 가정하지 않은, 사실상 무의미한 훈련을 반복하고 있다. 때문에 BCP가 수립되어 있는 기업이더라도 실제 재난 상황에 적용할 수 있는지, 즉, 현재 수립되어 있는 업무 연속성 계획이 실효성이 있는지에 대한 의문이 남는다.

따라서 이번 카카오 데이터센터 화재 사건을 발판으로 정부와 기업이 협력해 현재 의무화 되어 있는 분야의 기업뿐 아니라 더 많은 분야 기업에 대한 BCP·DR센터의 수립 의무화를 법제화하고 이에 대한 실효성을 정기적으로 검토하는 제도를 신설하고 지속적으로 관리해 BCP와 실전같은 훈련의 중요성을 제고하여 재난 상황에서도 수립된 업무 연속성 계획에 따라 빠르게 서비스를 복구해 대규모 2차 재난을 막을 수 있도록 노력해야한다고 생각한다.