보안정보
전문화된 보안 관련 자료, 보안 트렌드를 엿볼 수 있는
차세대 통합보안관리 기업 이글루코퍼레이션 보안정보입니다.
데이터 활성화를 위한 보안 강화방안 : 프라이버시 보존기술(PETs, Privacy Enhancing Technologies)
2021.04.06
23,620
01. 데이터 활성화를 위한 데이터 경제(Data Economy)의 개요
코로나19라는 블랙스완은 전세계적으로 전례없는 경기침체와 저성장 ∙ 양극화 현상의 변화를 야기하고 있다. 코로나19의 위기 극복을 위해 정부에서도 사람중심의 포용국가 기반을 토대로 디지털뉴딜, 그린뉴딜을 통한 글로벌 경제선도 국가발전전략인 ‘한국판 뉴딜’을 추진하고 있다. 디지털뉴딜은 비대면 수요를 충족켜 ‘디지털 전환(Digital Transformation)’이 가속되고 관련 산업이 활성화 되어 ‘디지털경제(Data Economy)’로 이동되는 경제 패러다임의 전환을 이끌고 있다.
2011년 글로벌 리서치 업체인 가트너(Gartner)에서 발표한 ‘How to Plan, Participate and Prosper in the Data Economy’를 통해 처음 등장한 개념인 ‘디지털경제(Data Economy)’는 경제성장과 일자리 창출 동력의 목적으로 2014년 유럽집행위원회가 도입하면서 널리 알려지게 되었다. 파이프라인 형태의 산업구조를 통한 자원통제, 내부프로세스 최적화, 고객가치 확대를 추구하는 기존 산업혁명 모델은 데이터 기반의 Hyper-Connection환경과 디지털 전환 전략과 결함되면서 외부자원과 상호작용을 통해 생태계 가치 극대화를 도모하는 플랫폼 형태로 진화하면서 신규 제품과 서비스 창출을 위한 핵심요소로 데이터가 부각되고 있다.
스마트시티, 스마트 팩토리, 자율주행 등 다양한 산업분야에서 지능화 기반 산업혁신을 위한 필수요소로 데이터가 자리잡으면서 ‘데이터를 가장 잘 다루면서, 가장 안전하게 다루는 나라’를 국가비전으로 정하고 데이터 활용 규제혁신 계획을 발표하여 데이터 활성화를 위한 선제적 대응을 수행하고 있다. 세계적인 데이터 경제 흐름에 대응하기 위해 해외에서도 데이터 및 AI분야에 선제적 전략투자를 통한 글로벌 경쟁력 확보 및 상용화 추진을 위한 플랫폼 육성과 경제육성 전략을 앞다투어 발표하고 있다.
구분 |
주요관점 |
데이터 경제 활성화를 위한 상세 혁신동인 |
Political |
데이터 활성화와 개인정보보호 Trade-Off 상호관리 |
1) 국내 법규제 현황 - 데이터 3법, 데이터 활성화 전략과 보안강화 방안 재정 - 한국판 뉴딜, 디지털뉴딜 10대 핵심과제로 데이터댐 선정 2) 국외 법규제 현황 - EU, 일반 개인정보 보호법(GDPR)을 통한 정보주체 권리보장 - 미국, 2020.01 캘리포니아 소비자 개인 정보 보호법(CCPA)발효 - 러시아, 2015.09, 러시아 연방법 내 개인정보보호법 - 중국, 글로벌 데이터안보 이니셔티브의 후속조치로 개인정보보호법 입법 준비 |
Economy |
사용자맞춤형 제품 및 서비스를 통한 경제적 가치창출 |
1) 마이데이터(MyData) : 금융정보 통합조회, 재무현황분석, 신용관리∙정보관리 지원, 금융상품 정보제공 추천 2) 위치기반서비스(LBS) : 공공안전, 위치기반과금, 추적, 위치기반 정보제공 |
Social |
Open Data, Open Source 기반 활용 증대 |
1) Open Data : Kaggle, 데이터 바우처(데이터 판매, 공급), 데이터 댐 2) Open Source (Framework, Platform, Model) : ELK Stack, Hbase, Cassandra, MongoDB, BERT, GPT-3 |
Technology |
데이터 수집ㆍ가공ㆍ거래ㆍ활용 기반기술 |
1) 인프라기술 : Cloud(IaaS, PaaS, SaaS), 병렬컴퓨팅(GPGPU, TPU, IPU) 2) 데이터분석기술 : 협업필터링(Collaborative Filtering), 콘텐츠 기반 필터링, AI, Machine Learning, AutoML, 자연어처리(STT, TTS, TF-IDF, Word2Vec, Word-Embedding) |
[표 1] 데이터 경제 활성화를 위한 관점별 주요 혁신동인
데이터를 활용한 경제적 가치 창출과 서비스 향상이 산업전반에 미치는 영향은 항상 긍정적일 수는 없다. 일례로 2016년 발표된 Microsoft의 AI챗봇 테이(Tay)와 2020년 스캐터랩의 이루다 사태들은 무분별한 데이터 수집 및 데이터 분석을 통한 개인 식별화 기술을 통해서 차별, 불공정, 사생활 침해 등과 같은 부정적인 영향이 산업전반에 미치는 영향에 대해서 인지하는 계기가 되었다.
‘구슬이 서 말이라도 꿰어야 보배’라는 말처럼 데이터를 통한 가치창출을 통해 산업전반의 파급력을 감안한다 하더라도 개인정보가 보장되지 않는 데이터 활용으로 인한 문제들은 데이터 경제발전에 저해요인으로 지목되고 있다. 이러한 사회적 요구를 해소하기 위한 방안으로 주목받고 있는 기술이 ‘프라이버시 보존기술(PETs, Privacy Enhancing Technologies)’이라 할 수 있다. 따라서 이번 호에서는 데이터 활용과 보호라는 양면적 조건을 해소할 수 있는 기술인 프라이버시 보존기술에 유형과 세부기술에 대해서 살펴보고 이를 통해 안전한 환경에서 데이터를 통한 가치 창출의 방안에 대해서 모색해 보고자 한다.
02. 데이터 활용과 보호를 위한 프라이버시보호기술 주요내용분석
본격적인 프라이버시보호기술을 설명하기에 앞서 빅데이터의 패러다임 변화와 특성에 대해서 살펴보고자 한다. 기존의 Traditional Data영역은 ERP, SCM, CRM, MES 등의 기업정보시스템이 가진 정형화된 기업 내부데이터를 주로 사용해 왔다. 그러나 최근에는 사물정보, 인지정보, 사물정보 등 비구조화된 비정형 데이터와 외부 Data Broker를 통해 규모(volume), 속도(velocity), 다양성(variety), 가치(value), 진실성(veracity), variability(가변성)의 6V의 특성에 기반한 ‘데이터 모네타이제이션(Data Monetization, 데이터를 통한 수익창출 등의 경제활동)’로 확장되었다.
정형데이터 기반의 Traditional Data는 가공 및 제어가 손쉬운 반면, 반정형 및 비정형 데이터의 경우 수집대상 및 방법에 따라 직접적인 개인정보가 수집되지 않더라도 다른 정보와 쉽게 결합하여 특정 개인을 식별할 수 있는 간접식별정보 등 추가정보 결합으로 재식별이 가능한 문제들이 야기될 확률이 높아지기 때문에 빅데이터 환경에서 데이터 보호 및 활용을 위해서는 ‘프라이버시보호기술(PETs, Privacy Enhancing Technologies)’이 필요하게 된다.
프라이버시보호기술은 △ 암호화된 상태에서 검색이 가능한 암호화 기술인 ‘검색가능 암호화(Searchable Encryption)’, △ 데이터3법으로 부각되고 있는 가명정보의 비식별기술인 ‘프라이버시 보호모델(k-anonymity, l-diversity, t-closeness)’, △ 개인정보가 암호화된 상태에서 검색가능한 기술을 통해 지식이나 패턴을 발견해대는 ‘프라이버시 보존형 데이터마이닝(PPDM, Privacy Preserving Data Mining), △ 동형암호 원천기술을 보유한 전 세계 5곳 중 한곳인 서울대 수리과학부 천정희 교수가 이끄는 `혜안(HEaaN.STAT)`의 동형암호 등이 프라이버시보호기술의 대표적인 예시라고 할 수 있다.
프라이버시보호기술 중 성능 및 안전성을 보장할 수 있는 기술 중 △ 프라이버시 보호모델, △ 연합학습(Federated Learning), △ 재현데이터(Synthetic Data), △ PPDM(Privacy Preserving Data Mining), △ 동형암호(Homomorphic Encryption)의 개념과 주요 특징에 대해서 [표 2] 프라이버시보호기술 유형별 특징 비교’를 기반으로 자세한 내용을 설명하고자 한다.
구분 |
프라이버시 보호모델 (K-Anonymity) |
연합학습 (Federated Learning) |
재현데이터 (Synthetic Data) |
PPDM (Privacy Preserving Data Mining) |
동형암호 (Homomorphic Encryption) |
개념 |
가능한 추론형태와 프라이버시 노출에 대한 정량적인 위험성을 규정하는 방법 |
다수의 클라이언트와 하나의 중앙서버가 탈중앙 환경에서 협력해서 데이터 모델 학습 |
원본데이터와 유사한 통계적, 확률적 특징을 가지는 임의데이터 |
개인정보가 포함된 빅데이터에서 개인정보를 보호하면서 데이터 분석기술 |
암호화된 상태에서 데이터 연산이 가능한 암호 기술 |
특징 |
연결공격(Linking Attack)대응 |
데이터 분석결과만 외부로 전송하여 데이터 직접유출X |
GAN활용 |
통계처리나 기계학습에 사용 |
양자내성암호 튜링완전성 |
장점 |
직관적이고 단순 |
학습결과를 취합해 더 높은 정확도의 모델 도출 |
샘플수를 무한대로 증가 가능 |
랜덤화 기법을 통해 실용화 가능 |
데이터를 암호화 하여 외부전송 |
단점 |
재식별 가능성 존재(동질성, 배경지식, 쏠림, 유사성) |
모델수립 시 평가 필요 |
불일치로 인한 예측 정확도 감소 |
SMC기반 PPDM은 컴퓨팅 환경에 따라 실효성 모호 |
처리속도 한계 |
[표 2] 프라이버시보호기술 유형별 특징 비교
1) 프라이버시보호모델
개인정보 활용을 위해 데이터3법 개정으로 ‘가명정보’의 개념이 도입되면서 ‘개인정보보호법 제28조제1의2항(정의)’와 ‘개인정보보호법 제28조의2(가명정보의 처리 등)’의 관련법령을 기반으로 개인에 관한 정보가 포함된 정보를 처리하는 과정에서 사생활 침해 등의 문제를 해소하기 위해 특정 개인에 대한 정보가 노출되지 않도록 기술적 안전조치(가명처리)를 수행해야 된다.
가명정보를 생성하기 위한 데이터 비식별화 적용기법은 가명처리(Pseudonymization), 총계처리(Aggregation), 데이터삭제(Data Reduction), 데이터범주화(Data Suppression), 데이터마스킹(Data Masking)등이 존재하며 비식별화된 정보의 적정성을 판단할때 프라이버시 보호모델(k-익명성, l-다양성, t-근접성)을 사용하여 재식별여부를 판단하게 된다.
식별조치 |
개념 |
상세기법 |
장∙단점 비교 |
가명처리 (Pseudonymization) |
개인식별정보를 다른 값으로 대체하여 직접식별을 제한하는 기법 |
휴리스틱가명화(Heuristic Pseudonymization) 암호화(Encryption), 교환방법(Swapping) |
(장점) 완전비식별화 가능 (단점) 일반화된 값으로 대체되어 분석에 한계 발생 |
총계처리 (Aggregation) |
개인정보에 대한 통계값(전체 및 일부)를 적용하여 비식별화 하는 기법 |
총계처리(Aggregation), 부분총계(Micro Aggregation) 라운딩(Rounding), 재배열(Rearrangement) |
(장점) 민감정보에 대한 비식별과를 통해 통계분석(전체, 부분)용 데이터셋 작성에 유리 (단점) 데이터 결합과정에서 개인정보 추출 또는 예측 가능 |
데이터삭제 (Data Reduction) |
개인식별정보의 특정 데이터 값을 삭제 처리 |
식별자 삭제, 식별자 부분삭제 레코드삭제(Reducing Record), 식별요소 전부 삭제 |
(장점) 민감정보의 완전삭제로 예측 및 추론 불가 (단점) 데이터 삭제로 다양한 분석 및 유효성 등 신뢰성 저하 |
데이터범주화 (Data Suppression) |
단일 식별정보를 그룹 대표값으로 변환(범주화) 하거나 구간값으로 변환(범위화)하여 고유정보 추적 및 식별방지 |
감추기, 범위 방법(Controlled Rounding), 랜덤 라운딩(Random
Rounding), |
(장점) 통계형 데이터로 다양한 분석 및 가공가능 (단점) 작은 범주를 사용하는 경우 추적 및 예측 가능 |
데이터마스킹 (Data Masking) |
개인식별정보의 전체 및 일부를 대체값(공백, *, 노이즈 등)으로 변환하는 기법 |
임의 잡음 추가(Adding Random Noise) 공백(black)과 대체(impute) |
(장점) 완전비식별화 가능 (단점) 마스킹 정도에 따라 추적 및 예측여부 영향 |
[표 3] 데이터 비식별화 적용기법(출처 : 프라이버시 비식별 조치 가이드라인 일부 재구성)
프라이버시보호모델의 가장 기본적인 모델인 k-익명성은 주어진 데이터 집합에서 같은 값이 적어도 k개 이상 존재하도록 하여 다른정보로 쉽게 결합하지 못하게 하는 기법을 의미한다. k-익명성 기반의 비식별화 기법은 비식별화 대상의 Feature(Dimension)가 증가할수록 더 많은 데이터 삭제가 필요해지면서 데이터 손실(Loss)양이 증가되는 ‘차원의 저주(Curse of Dimensionality, 데이터 차원이 증가할수록 알고리즘 실행이 까다로워 지는 현상)’문제로 인한 예측의 불안정이 발생되게 된다.
[그림 2] 프라이버시 보호모델 적용 및 적정성 평가 프로세스(출처 : 개인정보 비식별조치 가이드라인 일부 재구성)
연결공격(Linkage Attack)을 대응하는 k-익명성을 만족하더라도 △ 동질성공격(Homogeneity Attack, - 데이터 집합에서 동일한 민감한 정보를 이용하여 공격 대상의 민감한 정보를 알아내는 공격), △ 배경지식공격(Background Knowledge Attack, 주어진 데이터 이외의 공격자의 배경 지식을 통해 공격 대상의 민감한 정보를 알아내는 공격), △ 쏠림 공격(skewness attack, 민감한 정보가 특정한 값에 쏠려 있을 경우, l-다양성 모델이 프라이버시를 보호하지 못함) 및 △ 유사성 공격((similarity attack, 익명화된 레코드의 민감한 정보가 서로 비슷하다면, l-다양성 모델을 통해 익명화된다 할지라도 프라이버시가 노출되는 공격)등이 추가로 발생되기 때문에 값의 의미를 고려하여 프라이버시 모델을 적용해야 한다.
2) 연합학습(Federated Learning)
빅데이터의 분석을 통해 경제적 가치를 획득하기 위한 일반적인 데이터 분석 프로세스는 정형, 반정형, 비정형의 대용량 데이터를 고성능 서버에 저장하여 모델을 학습하고 실제값과 예측값을 비교하여 오차(Error)를 줄이는 방식으로 학습이 진행된다. 이러한 방식은 고성능 서버에 데이터를 업로드 해야 하기 때문에 시간 및 개인정보 이슈가 발생되게 된다.
연합학습(Federated Learning)은 2016년에 Google AI에서 발표된 ‘Communication-Efficient Learning of Deep Networks from Decentralized Data’를 통해 처음 공식화되면서 주목받기 시작했다. 기존의 데이터 학습과 달리 중앙에서 데이터를 모아서 학습하는 것이 아니라 모바일 기기 보유자의 디바이스를 이용하여 사용자 기기에서 학습하는 ‘온디바이스(on-device)’ 방식을 통해 생성된 모델을 중앙에서 취합하는 학습모델을 의미한다.
분산하여 학습(Learning)한다는 측면에서 분산 학습(distributed learning)와 유사한 개념이라고 생각할 수 있으나 분산학습은 하나의 모델을 병렬적으로 학습하기 위한 목적으로 독립적인 데이터가 동일한 분포를 가진다고 가정하고 분석하게 된다. 하지만 연합학습의 경우 서로 이질적인 데이터를 학습하기 때문에 별도의 가정이 포함되지 않는다. 따라서 연합학습은 분산학습는 다른 △ Non-IID(Independent and Identically Distributed), △ Unbalanced, △ Massively distributed, △ Limited communication 등의 속성을 최적화 하기 위한 방향성을 제시하고 있다.
[그림 3] 일반적 데이터 흐름도(위)와 연합학습에 의한 처리 방식 비교(아래)
(출처 : 연합학습으로 AI 빅브라더 문제 해소, 서강대학교 정보통신대학원 대우교수 유성민)
연합학습은 하이브리드 컴퓨팅(Hybrid Computing)과 영지식증명(ZKP, Zero-Knowledge Proof)의 기술적 원리를 기반으로 운영된다. 포그 컴퓨팅과 클라우드 컴퓨팅의 혼합개념인 하이브리드 컴퓨팅은 사용자 단말의 자원을 활용하는 포그 컴퓨팅과 학습결과를 중앙에서 수집하는 클라우드 환경을 통해 최종적인 학습모델을 생성하게 된다. 영지식증명의 경우 원본데이터(raw data) 노출없이 추론을 돕는 기술이기 때문에 연합학습에 데이터 프라이버시 향상의 효과를 제공하게 된다.
최근에는 중앙에서 취합된 학습모델이 저장되는 중앙서버의 단일장애지점(SPoF)문제를 대응하기 위해서 완전 탈중앙 학습(Fully Decentralized Learning)을 통해 Peer to Peer방식의 학습방법을 통해 문제를 해결하고자 한다. 완전 탈중앙 학습은 분산형 네트워크 구성을 적용하기 때문에 신뢰성 문제 및 네트워크 토폴로지 상에 비동기 통신 문제 등이 발생되어 신뢰성 및 안전성에 저해요인으로 작용될 수 있다. 최근에 발표된 ‘Advances and Open Problems in Federated Learning’에서는 완전 탈중앙 학습을 위한 블록체인(Block-Chain)이나 스마트컨트랙트(Smart Contact)를 해결방안으로 제시하기도 한다.
또한 해당 논문에서는 사용자 기기와 중앙서버간의 연합학습의 상황에 따라서 소수의 신뢰있는 사용자를 대상으로 하는 Cross-silo Federated Learning과 다수의 사용자를 대상으로 하는 Cross-device Federated Learning으로 분류할 수 있다. 결국은 연합학습을 통한 데이터 프라이버시 향상과 효율성을 유지하기 위해서는 네트워크 안전성이 보장되지 않은 상태에서도 안정적인 연합학습 알고리즘을 만드는 방법에 대한 고려가 필요하다.
구분 |
Datacenter distributed learning |
Cross-silo federated learning |
Cross-device federated learning |
Setting |
대량의 IID데이터 학습 단일 클러스터 및 데이터 센터 내에서 학습 |
조직(의료, 금융)으로 구성한 연합학습 수행 |
다수의 모바일 기기 및 IoT기기로 구성한 연합학습 수행 |
Data distribution |
균형있는 분포의 데이터가 중앙데이터센터에 저장 |
로컬에 데이터가 생성되며 탈중앙환경으로 존재 독립된 데이터는 동일한 분포와 별개(Non-IID) | |
Orchestration |
중앙화 |
중앙 오케스트레이션(central orchestration) 서버 및 서비스가 전체 학습을 조정 중앙서버에서 데이터 직접접근 불가 |
[표 4] 분산 연합학습, Cross-silo 연합학습, Cross-device 연합학습의 차이점 비교
(출처 : Advances and Open Problems in Federated Learning 내 Type1 일부 번역)
3) 재현데이터(Synthetic Data)
재현데이터(Synthetic Data)는 원본과 최대한 유사한 통계적 성질을 보이는 가상의 데이터를 생성하기 위해 개인정보의 특성을 분석하여 새로운 데이터를 생성하는 기법으로 원본 데이터의 포함 여부에 따라 △ 완전 재현 데이터(Fully Synthetic Data), △ 부분 재현 데이터(Partially Synthetic Data), △ 하이브리드 재현 데이터(Hybrid Synthetic Data)로 구분되기도 한다.
재현데이터 기법을 사용하는 대표적인 기술인 GAN(Generative AI)은 Generator(생성자)가 생성한 모조데이터(Fake Data)를 실제데이터(Real Data)와 유사하게 생성하여하는 것이 목적인 생성 모델(Generative Mode)을 통해서 주어진 트레이닝 데이터의 특성을 학습해 유사한 데이터를 생성(Generate)하여 최종적으로는 생성자는 원본데이터와 유사한 데이터 분포를 획득할 수 있게 한다.
재현데이터를 사용하는 경우 정보 손실을 줄이기 위해 민감변수에 한해서만 재현데이터를 적용하는 부분 재현 데이터 기법을 적용하는 경우 재현된 부분의 원본 데이터가 남아 있지 않기 때문에 재식별위험이 높지 않지만 비민감정보 상에서는 여전히 정보노출의 위험이 존재하기 때문에 경우에 따라 차분프라이버시와 같은 추가적인 Privacy 보호기술을 적용이 필요할 수 있다.
[그림 4] GAN(Generative AI) 동작 방식 개념도
4) PPDM(Privacy Preserving Data Mining)
PPDM(Privacy Preserving Data Mining)은 프라이버시 보존형 데이터마이닝으로 개인정보를 공개하지 않은 상태에서 통계적 처리나 기계학습에 사용될 수 있도록 데이터의 함축적인 지식이나 패턴을 찾아내는 기술을 의미한다. PPDM 기술은 크게 2가지로 구분될 수 있는데 △ 기본 데이터에 노이즈를 추가하거나 다른 종류의 랜덤화를 적용시키는 프라이버시 보존형 데이터 마이닝과 △ 모든 개체에 자신의 입력 자신의 입력과 계산결과 이외에 어떤 정보도 없을 수 없는 다자간 계산(SMC, Security Multi-parity Computation)으로 분류할 수 있다.
PPDM을 통해 데이터 공개 시에 비식별화를 수행하는 기술은 앞서 설명한 프라이버시보호모델의 k-익명성, l-다양성, t-근접성, m-불변성 이외에도 랜덤화된 응답 기반의 PPDM, 압축기반 PPDM, 교란기반 PPDM, 차등정보보호 등의 프라이버시 보존 데이터마이닝 기법들이 존재한다.
프라이버시 보호 기법은 PPDM이외에도 민감정보 데이터를 공개하지 않도록 사용자가 요청한 질의를 처리해 질의결과상에 민감정보가 포함되지 않도록 감시 및 관리하는 기법인 프라이버시 보존형 데이터 간행(PPDP, Privacy Preserving Data Publishing)기법을 통해 민감정보를 보호하게 된다.
기술구분 |
상세설명 |
주요기법 |
랜덤화된 응답 기반의 PPDM (Randomized Response base PPDM) |
•프라이버시에 민감한
원본데이터 대신 노이즈를 추가하여 교란된
데이터만을 공개하는 기법
|
•데이터 상관관계 활용(PCA)
•노이즈 평준화
•영역기반 교란기법
|
압축 기반의 PPDM (Condensation approach based PPDM) |
•시계열 데이터를 낮은 차원의
새로운 특성공간에 매핑 후 빠른 검색을 하기
위해 R-트리와 같은 다차원
트리로 인덱스하는 변환기반교란
|
•이산 푸리에 변환(DFT,
Discrete Fourier Transform)
•이산 웨이블릿 변환(DWT,
Discrete Wavelet Transform)
|
교란 기반의 PPDM (Perturbation based PPDM) |
•데이터 상관관계 및 민감 속성 보호
|
•회전교란기법, 다중회전기법
•응축교란기법
|
차등 정보 보호 (Differential Privacy) |
•분산된 데이터를 각 노드 별로 마이닝하고, 그 결과를 최종 노드에서 집계하여 결과를
도출하는 기법
|
•스칼라곱, 유클리디안 거리
•프라이버시 보호 질의
•프라이버시 보호 집계
|
[표 5] 프라이버시 보존형 데이터마이닝(PPDM) 주요 기법 비교
5) 동형암호(HE, Homomorphic Encryption)
동형암호(Homomorphic Encryption)의 동형(homomorphic)은 대수학(Algebra)의 준동형(homomorphism)에서 유래한 단어로 암호화(Encryption)된 데이터를 복화화(Decryption)없이 연산할 수 있는 암호문상태에서 연산한 결과가 복호화시에 평문(Plain Text)으로 연산한 결과와 동일한 값을 도출하는 4세대 암호기술을 의미한다. 동형암호는 계산적인 문제를 프로그래밍 언어나 추상기계로 풀수 있는 튜링 완전성(turing completeness)의 특징을 가지고 있기 때문에 통계처리 뿐만 아니라 최근에 다양한 분야에서 활용되고 있는 기계학습에도 적용이 가능하다.
구분 |
1세대 암호 |
2세대 암호 |
3세대 암호 |
4세대 암호 |
암호기술 |
암호 |
대칭키 암호 |
공개키 암호 |
동형암호 |
주요특성 |
인증기술 (Password) |
데이터 암호 (ID와 PW사용) |
키 암호화 (Public Key, Private Key) |
NoKey암호 (암호화된 상태에서 연산이 가능함 암호) |
[표 6] 세대별 암호 기술 발전 현황
1978년 Rivest, Ronald; Adleman, Len; Dertouzos, Michael를 통해 최초 동형암호를 발표 시에는 이론적 안정성의 한계로 사용에 제약이 있었으나, 2009년 Gentry가 제안한 △ 유한동형암호(SHE, Somewhat Homomorphic Encryption, 제한된 횟수의 연산만 수행가능한 암호)와 △ 완전동형암호(FHE, Fully Homomorphic Encryption, 암호화된 상태의 데이터를 원하는 모든 연산을 적용하여 복잡한 연산이 가능한 암호)이후에 꾸준한 연구를 지속해 왔다.
최근에는 안전성과 성능을 보장할 수 있게 되면서 2020년에 국민연금공단·코리아크레딧뷰로(KCB)에서 세계 최초로 트립토랩의 데이터 분석 소프트웨어 `혜안(HEaaN.STAT)`으로 234만명의 신용데이터 분석에 동형암호 기술을 활용하면서 사용화에 박차를 가하고 있다.
동형암호는 △ 덧셈이나 곱셈 중 한가지 연산만 지원 가능한 부분동형암호(PHE, Partial Homomorphic Encryption), △ 연산이 반복되는 경우 길이가 기하급수적으로 증가하여 연산횟수에 재한이 있는 준동형암호(SHE, Somewhat Homomorphic Encryption), △ 부트스트래핑(Bootstrapping)과 스쿼싱(Squashing)을 이용하여 연산 종류나 횟수의 제한없이 사용가능한 완전동형암호(FHE, Fully Homomorphic Encryption)로 분류할 수 있다.
완전동형암호는 암호화된 상태에서 컴퓨팅 연상 수행이 가능한 서킷 프라이버시(Circuit Privacy)와 생성된 암호문이 다른 동형연산의 입력으로 사용 가능한 다중동약동형성의 특성을 통해 보안성이 강화되는 반면 응용 연산 종류에 따라 속도차이가 크지만 동형암호 기술의 발전으로 기존 비트단위로 제한되던 데이터 타입의 처리가 대용량 데이터 처리를 지원하는 형태로 발전되면서 향후 원본 데이터 처리 속도와 비슷한 속도를 목표로 연구가 진행되고 있다.
구분 |
부분동형암호 (PHE, Partial Homomorphic Encryption) |
준동형암호 (SHE, Somewhat Homomorphic Encryption) |
완전동형암호 (FHE, Fully Homomorphic Encryption) |
특징 |
한가지 연산만 지원 (덧셈이나 곱셈만 가능) |
연산 횟수 제한 (연산이 반복될 경우 데이터 길이가 기하급수적으로 증가) |
연산의 종류나 횟수의 제한X 부트스트래핑(재부팅), 스쿼싱, 근사값 계산 이용 |
사용 연산식 |
덧셈과 곱셈 등 일부 연산만 가능 |
AND, OR, NOT 중 일부만 사용 |
AND, OR, NOT 모두 사용가능 |
연산횟수 |
연산횟수 제한 |
연산횟수 제한 |
무제한 연산 가능 |
연산속도 |
낮은 연산속도 |
빠른 연산속도 |
큰 용량으로 낮은 연산속도 |
사례 |
RSA(1977, 곱셈), ElGamal(1985, 곱셈), Benaloh(1985, 덧셈), Goldwassser-Micali(1982, XOR) |
BGN(2005), Yao(1982), Sander 외(1999) |
HEaaN |
[표 7] 동형암호 기술별 특 징 및 활용사례
(출처 : 인공지능 발전에서 동형암호가 갖는 의미, 정보통신정책연구원 일부 재구성)
동형암호의 원천기술을 전세계적으로 Microsoft, IBM, MIT, 프랑스, 서울대학교 천저희 교수팀이 동형암호 기술을 보유하고 있으며, 2020년 세계유일의 국제 유전체 정보분석 경진대회인 Idash(Integrating Data for Analysis, Anonymization and Sharing)에서 21개국 100여개 팀 중 ‘혜안’을 활용해 우승하였으며 상위랭크된 6개 팀 중 4개 팀이 혜안 알고리즘을 사용할 정도로 가장 높은 성능으로 우승을 차지한바 있다.
세대 |
주요특징 |
대표모델 |
동작방식 |
1세대 |
완전동형암호 최초모델 |
Gentry(2009) |
•준동형암호 연산 시
기하급수적으로 증가하는 암호문 내의 잡음을 줄여주는 재부팅 도입함으로써 반복적
연산 가능
|
2세대 |
모듈러스(Modulus) 및 키교환(Key-Switching) |
BGV(2011) LTV(2012) BFV(2012) BLLN(2013) CKKS(2016) |
•모듈러스 또는 키 교환을 통해
동형곱셈 시 발생하는 잡음증가 속도를 감소시켜 재부팅 없이 가능한
곱셈횟수를 획기적으로 증가시킴
|
3세대 |
재선형화 (relinearization) 과정 제거 |
GSW(2013) FHEW(2014) TFHE(2016) |
•동형곱셈에서의 잡음을
줄이고 재선형화 단계를 피하는
완전동형암호 체계 구축
•매 작동마다 암호문을
갱신하여 재부팅 시간 감소
•Ducas-Micciancio14의 FHEW스킴과 Chillotti-Gama-Georgieva-Izabachene16의 TFHE스킴에 포함
|
4세대 |
산술연산 개선으로 연산시간 감소 |
HEaaN(2016) CKKS(2017) |
•근사계산을 통해 잡음
증가를 제어하여 회로의 재부팅 수 감소
•반올림 연산 시간을
덧셈 수준으로 감소
•기계학습 등의 근사연산
활용하는 응용 분야에 상용화
|
[표 8] 완전동형암호 세대별 분류
(출처 : 인공지능 발전에서 동형암호가 갖는 의미, 정보통신정책연구원 일부 재구성)
데이터 프라이버시보호기술의 경우 비식별화나 차등프라이버시 등을 적용 시에 재식별화 및 데이터 질적 저하 등의 가능성이 있어서 데이터 유출을 원천적으로 불가능하게 하는 완전동형암호가 대안이 될 수 있으나 실용화를 위해서는 64비트 체계의 최적화된 CPU나 GPU를 이용한 병렬화 처리에 최적화된 완전동형암호(FHE)전용 SoC를 이용한 적용기술이 필요하기 때문에 동형암호에 대한 꾸준한 지원과 연구가 지속되고 있다.
03. 마무리
지금까지 데이터 활성화에 따른 가치창출을 위한 패러다임의 변화 및 데이터3법, GDPR 등의 개인정보 규제 강화로 데이터의 안전성과 활용이 가능한 프라이버시 보존기술(PETs, Privacy Enhancing Technologies)의 요구가 증가하고 있다. 최근에는 프라이버시 보존기술의 정확도와 성능, 안전성이 빠른속도로 발전하면서 사용자 요구사항에 따른 다양한 기술의 조합을 통한 실무적 활용사례들이 증가하고 있다.
프라이버시 보존기술은 데이터 유형과 특징에 따라서 상호 보완적으로 사용해야 하기 때문에 특징별 적용시 효과적인 환경에 대한 고려가 필요하다. 머신러닝 등의 분석환경에서는 튜링 완전성(turing completeness)기반의 통계처리가 가능한 동형암호를 적용하고, 다수의 조직 및 기관 등 다자간 데이터 결합 및 분석이 필요한 경우 차분 프라이버시, 동형암호 등의 기법 등을 다양하게 사용할 수 있는 연합학습이 유리하다. 또한 비식별화된 데이터를 타기관 및 조직에 전송하거나 중앙 Repository를 통해 구성하는 경우에는 재현데이터를 활용하는 것이 효과적이다.
최근 빅데이터 및 분석 플랫폼 확산 등으로 인해 데이터 활용 사례가 증가되면서 민감정보 활용을 위한 필수조건은 안전성을 강화하기 위한 기술이 부각되고 있다. 데이터 분석을 통한 가치창출을 위한 기술요소도 중요하지만 법적인 부분과 윤리적인 측면이 모두 고려될 수 있는 건전한 생태계 구축이 그 무엇보다 중요하다.
04. 참고자료
1) 인공지능 발전에서 동형암호가 갖는 의미, 정보통신정책연구원
2) AI콜로퀴움 - 프라이버시보존 데이터분석과 동형암호, 천정희 교수
3) 천정희 교수 유전체 분석 보안경진 대회서 우승, ZDNet Korea
https://zdnet.co.kr/view/?no=20201231140400&from=pc
4) 연합 학습(Federated Learning), 그리고 챌린지, 이도현
https://medium.com/curg/%EC%97%B0%ED%95%A9-%ED%95%99%EC%8A%B5-federated-learning-%EA%B7%B8%EB%A6%AC%EA%B3%A0-%EC%B1%8C%EB%A6%B0%EC%A7%80-b5c481bd94b7
5) Communication-Efficient Learning of Deep Networks from Decentralized Data
https://arxiv.org/pdf/1602.05629v3.pdf
6) Advances and Open Problems in Federated Learning : https://arxiv.org/pdf/1912.04977v1.pdf
7) 인공지능과 개인정보, 서울대학교 통계학과 김용대 교수 https://privacy.naver.com/download/ai_privacy.pdf