데이터 익명화를 위한 파이프라인

yulegp***l2022-05-29

우리들은 데이터가 산재한 세상에 살고 있다. 인터넷 기록은 로그로 남고, 우리들 자신의 개인정보가담긴 정보들이 디지털화 되어 어딘가에 저장되어 있다. 그런데, 이러한 데이터는 개인의 정보이기 때문에 직원들이 함부로 열람하거나, 보안 문제로 유출된다면 큰 문제가 생긴다. 따라서, 데이터를 익명화하여 해당 데이터가 특정인 누구에게 귀속되어있는지 알기 힘들게 해야 한다. 이러한 과정을 비식별화라고 한다.

문제는 비식별화 데이터를 보고 누구인지 다시 인식하는 ‘재식별화’가 생각보다 어렵지 않다. 예컨대, 94년 4월 생 남자 김길용씨가 어제 3시 39분에 샘빛한의원에 방문하고, 오늘 4시 15분에 히어로마트에서 우유를 구매했다. 이러한 데이터를 90~95년생 남자 id 19203이 어제 3~6시에 죽전에 위치한 한의원 방문, 오늘 3~6시에 죽전에 위치한 마트에 방문했다고 하자. 비식별화 작업을 통해 바로 데이터를 식별하긴 어려워졌지만, 만약 이 중 일부의 원본 데이터를 갖고 있다면 이야기는 달라질 수 있다. 예컨대, 죽전에 위치한 의원 원본 데이터를 갖고 있고, ‘90~95년생 남자 어제 3~6시에 죽전에 위치한 한의원 방문’이라는 비식별화된 데이터를 입수했다고 가정하자. 보유한 비식별 데이터에 해당하는 사람의 수를 추리고, 이러한 비식별화된 데이터가 3~4개 정도 있다면 id19203을 ‘김길용’씨로 특정가능하다. 따라서, 그의 주민번호도 이름과 매칭시켜 악용될 수 있다.

따라서, 이 책에서 다룬 비식별화 뿐 아니라 안전한 다자간 연산(secure multiparty computation)과 동형 암호(homomorphic encryption) 기술로도 진보해야할 것이다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

pls***l2022-05-29

데이터 익명화에 대하여...

일을 하면서 다루는 데이터는 사내 보안을 위해 데이터가 외부로 반출되지 않게만 하고 있고, 사내라는 제한된 영역에서만 사용되기 때문에 데이터 익명화를 하지는 않고 있다. 간혹 외부 기관과의 협업을 위해 데이터가 반출될때는 수치데이터의 경우 정규화/표준화 작업을 통해 일종의 익명화를 수행하고는 있지만, 개인의 정보가 침해될 만한 데이터를 다루지는 않고 있다.

하지만 데이터 관련된 일을 하면서 주변에 민감데이터를 다루는(의료기관, 금융기관, 정부기관, 공항 등) 곳에서 종종 들려오는 개인정보 침해와 관련된 소식을 들으면서 속상했던 적이 있다. 특히 그 중 나의 정보가 누출되었을지도 모르는 상황들도 간혹 있었어서 화가날때도 있었다.

특히 얼마전에 충격적이었던 뉴스는 무려 '정부'에서 출입국 얼굴사진을 AI 민간 업체에 넘겼다는 사실이었다. 아마도 좋은 목적의 서비스를 개발하기 위해서 그랬겠지만... 개인의 정보를 허락없이, 정확히는 처음의 수집목적(1차 목적)에 부합되지 않는 2차 목적으로 사용된 경우인 것 같았다.(3장 파이브 세이프의 '프로젝트 안전' 부문 참조)

https://www.hani.co.kr/arti/economy/it/1016022.html

처음 책을 고를때는 데이터 익명화의 '방법'들이 예제 코드와 함께 소개될 줄 알았는데... 그런것은 아니었다. 코드내용은 없고 데이터 익명화에대한 개괄적인 내용과 주요 개념들, 그리고 그 방법론에 대한 이야기를 다루었다. 혹시 익명화 방법에 대한 직접적인 도움을 얻고 싶은 분들은 다른 책을 찾아보는 것이 좋을 것 같다.

그럼에도 데이터 익명화에 대해 두루뭉술하게만 알고있던 내게 꽤나 도움이 되었던 책이다. 개인적으로는 용어에 대한 정리를 할 수 있었고, 위험 관리 프레임 워크인 파이브 세이프(five safe)에 대해서도 알아볼 수 있었다.

* 익명화의 파이브 세이프(ref : https://ieeexplore.ieee.org/document/8821469)

1 프로젝트 안전 – 1차 목적, 2차 목적
데이터 공유 시나리오의 법적, 윤리적 경계는 무엇이며 개인 정보 보호 조치로 익명화가 필요한가?

2 인력 안전 – 수신자 신뢰(동기, 능력)
예상되는 데이터 수신자는 누구이며 데이터를 재식별할 동기와 능력은 무엇이며 데이터에서 누구를 알 수 있는가?

3 환경 안전 – 위험 행렬
고의적인 재식별 시도를 방지 또는 데이터 침해를 방지하기 위한 기술적, 조직적 통제는 무엇인가?

4 데이터 안전 – 위협 모델링
데이터 환경의 사람과 설정을 고려할 때 식별 가능성의 수준은 어느 정도이며 데이터에 대한 어떤 위협을 관리해야 하는가?

5 결과물 안전 – 개인 정보 침해를 결정하기 위한 식별 가능성 임곗값의 선택
의도된 목적 및 기타 목적으로 익명화된 데이터를 사용할 때 우려되는 점은 무엇이며 적절한 식별 가능성 임곗값은 무엇인가?

몇 가지 용어들에 대해 정리해보면,

- HIPPA(Health Insurance Portability and Accountability Act of 1996) : 건강 보험 정의 이전 및 책임에 관한 법률

- GDPR(General Data Protection Regulation, 일반 데이터 보호 규정) : 2018년 5월 25일부터 시행되고 있는 EU(유럽연합)의 개인정보보호 법령으로 위반시 과징금 등 행정처분이 부과될 수 있으며, EU내 사업장이 없더라도 EU를 대상으로 사업을 하는 경우 적용대상이 될 수 있어 우리 기업의 주의가 필요함

- (58 pg) "전반적인 식별 가능성 수준은 데이터와 해당 데이터를 공유하는 콘텍스트 두 확률의 곱이다"

- 식별화(identification) : 데이터에 이름이나 주소와 같은 직접 식별되는 정보가 있다는 의미

- 가명화(pseudonymization) : 식별 데이터는 아니지만 여전히 식별 가능한 데이터

- 익명화(anonymization) : 직/간접 식별자를 제거하여 데이터를 식별할 수 없다는 합리적인 보장을 제공하는 프로세스

- 골디락스 원리(Goldilocks Principle) : 위험과 이익의 균형을 맞출 필요가 있다는 생각

조금 어려운 부분들도 있기는 했지만, 데이터 익명화에 대해 전반적인 흐름과 방법론들, 그리고 주요 개념과 용어들을 배워볼 수 있는 시간이어서 감사했다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

drv***l2022-05-29

데이터 익명화를 위한 이론적인 방법과 절차

아마존은 개인 정보 보호 정책(GDPR; General Data Protection Regulation)을 위반하여 EU로부터 1조 200억 원(7억 4,600만 유로)의 과징금을 부과 받았습니다. 2018년부터 유럽에서 시행된 개인 정보 보호 정책은 세계에서 가장 높은 수준의 보호 정책이며, 위반 기업은 최대 전 세계 매출의 4%와 268억 원(2000만 유로)중 높은 금액을 과징금으로 납부해야 합니다. 워낙 처벌의 강도가 세다 보니 데이터를 다루는 기업이라면 반드시 숙지하고 점검해야 되는 기준이 되었습니다.

이 정책은 일명 '걸리면 죽는 법'으로 제정 때부터 주목하고 대비했음에도 불구하고, 기업 들은 기술적/제도적 미비 등 다양한 이유로 1100여 건의 과징금을 납부하였습니다. 이 중에는 위에 언급된 아마존을 포함하여 구글(2019년 670억 원), 메타(2018년 228억 원) 등 업계를 선도하는 기업들도 다수 포함되어 있습니다. 책의 서문에서도 나오듯 오라일리 데이터 뉴스레터에서 또한 보안 및 개인 정보보호 분석 도구가 대세라고 발표(2019.1.2)하는 등 특히 데이터 기반 AI 기술을 사용한다면 이제 당연히 개인 식별화에 대한 우려와 데이터 익명화 방법, 법률과 규정 및 관련 데이터 후처리 도구를 고려해야 합니다.

데이터 중 식별 가능한 내용이 포함되어 있을 경우 이를 제거하면 간단할 것 같지만, 예를 들어 이름을 가명으로 처리할 것인지 이름을 성만 남기고 김ㅇㅇ와 같이 처리할 것인지 아예 삭제할 것인지와 같이 비즈니스 이익을 고려한 고민이 필요합니다. 익명화 과정을 통해서 유용한 데이터를 생성하는 법칙과 절차의 숙고가 필요하고, 노하우가 필요하며, 정보 노출 위험과 이익 사이의 균형잡기가 필요하고, 익명화를 통해 데이터는 보호하되 목적과 데이터 주체의 정체성은 남겨두어야 합니다. 이 책은 이런 목적을 달성하기 위한 분석적 내용으로 160페이지의 적은 분량에 단계별 절차와 노하우를 담고 있습니다. 1~3장을 통해 용어 설명 및 개괄을 하고 4, 5, 6장을 통해 데이터 처리단계를 정립하고 파이프라인 구축 방법을 설명합니다. 마지막으로 7장을 통해 정리를 하고 있습니다.

각 챕터에 따른 주요 내용은 아래와 같습니다.

1장 : 용어 설명 및 주요 사례

2장 : 주요 개념 설명 및 식별 가능성 스펙트럼 이해

3장 : 공유의 맥락을 설명하는 거버넌스 프레임워크

4장 : 개인 정보 보호를 염두에 둔 시스템 설계, 보호 기능 구축 방법

5장 : 가명화 등 데이터 익명화 작업 방법

6장 : 익명화 데이터 호수 구축 방법

7장 : 데이터를 안전하게 사용하기 위한 책임과 윤리

책의 초반부에 나오는 매우 중요한 단어인 '식별 가능성 스펙트럼(spectrum of identifiability)'이 직관적으로 이해가 가지 않았습니다. 책 전체적으로도 가장 중요한 단어이기 때문에 의미를 알고 있어야 합니다.

의미는 간단합니다. 데이터를 식별할 수 있는 단계부터 점차 그렇지 않은 단계로 나열해 놓아 무지개(스펙트럼)의 모습과 같은 형태를 말합니다. 예를 들어 [식별화(Identification) <-> 가명화(Pseudonymization, Deidentificatoin) <-> 익명화(anonymization)]와 같은 모습입니다.

명확히 식별 가능한 데이터 << Personally identifiable Data << De-personalised Data >> Anonymous Data >> 식별 불가능한 데이터

아래 그림은 이 개념을 더 이해하기 쉽게 그림으로 표현해 주고 있습니다.

Spectrum%20(no%20anonymous%20line)%20May%202019[1].png

1, 2장에서는 주요 용어 설명을 합니다. 또한 데이터 익명화라는 법률(?) 분야의 특성상 동일하거나 미묘하게 다른 것 같은 두 개념의 차이를 분명하게 만들어 주고 정확하게 구분하여 도서를 읽을 수 있게 만들어 줍니다. 예를 들면 비식별화와 익명화의 차이점 등을 설명합니다.

3장부터는 수집된 데이터의 익명화 수준을 결정하는데 요구되는 요소나 판단 방법을 설명합니다. 적절히 익명화하는 이론적 판단 방법 들을 프레임워크라는 용어로, 최종 익명화 단계까지의 흐름을 파이프라인이라고 표현하였습니다. 프레임워크는 2017년 플렉스 리치(Felix Ritchie)의 논문으로 발표한 파이브 세이프(Five safes)를 설명합니다.

4, 5, 6장에서는 데이터를 수집하고 공유하며 직접 식별자를 제거하고 간접 식별자를 변형하는 방법 등 데이터를 처리하는 방법에 대해 다루고, 가명화 등을 통한 익명화에 대한 상세한 설명을 합니다.

마지막으로 7장에서는 실제 기술에 직접 적용했을 때 사례와 윤리적인 부분 등 기술적인 과제와 원칙을 다루고 있습니다.

파이프라인과 프레임워크라는 단어로 인해 실질적으로 데이터를 익명화하는 기술적인 상세 방법을 설명하는 것으로 오해한다면 책이 다루고 있는 내용에 다소 실망할 수 있습니다. 이 책은 익명화를 위한 이론적 프레임워크와 파이프라인을 충실히 설명하고 있습니다. 필체가 그런건지 주제가 그런건지(둘다 인것 같은데) 다소 딱딱하게 느껴질 수 있습니다.

우리가 IT 기술 기반의 제품 서비스한다면 필수불가결하게 수집되는 식별 정보에 대하여 법적 익명화 수준을 반드시 고려해야 하며, 이를 위해 법률적인 내용을 생각하지 않을 수 없습니다. 이 책은 이에 대한 가벼운 시작점으로 손색이 없으며 분량 또한 부담되지 않은 좋은 시작점이 됩니다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

kko***l2022-05-29

[도서 리뷰] 데이터 익명화를 위한 파이프라인

안녕하세요 괴짜 개발자 namedboy 입니다.

데이터의 중요성은 시간이 지나갈수록 점점 더 중요해지고 있죠.

결국엔 모든 분야에서 데이터 자체가 중요해지게 될 것 같습니다.

데이터가중요해지게 되는 만큼 중요해지는 것이 또 하나 있습니다.

바로 데이터와 연결된 개인의 보안에 대한 이슈입니다.

최근의 광고산업이나 개인정보를 활용한 산업을 보면 사람들은 자신의 개인정보를 팔아서 제품의 특정 기능을 이용하거나 개인정보 제 3자 활용 동의를 통해 마케팅 활용 동의를 하고 추가 기능을 이용하거나 혜택을 받기도 합니다.

한편으론 페이스북이나 구글 같은 대형 IT 업체의 경우 핸드폰에 있는 물리적 정보 접근을 통해 사용자의 IP나 지리적 정보를 파악하기도 합니다.

이렇게 수집된 데이터들은 기본적으로는 식별이 가능한 유니크한 id 값을 가지고 있습니다.

그렇기 때문에 수집된 데이터들을 조합하면 내가 어떤 취향을 가진 사람인지 나 자신보다 더 잘 알게 됩니다.

그리고 이런 정보를 통해 AI서비스를 활용한 서비스나 내가 좋아할 만한 것들을 추천해주죠.

빛과 그림자는 항상 함께 다니듯이 이런 편리함을 누리게 되면서 화두로 떠오른 문제가 바로 개인 정보의 유출을 통해 악의적인 방법으로 활요되는 문제일 겁니다.

앞서 말씀 드린 내용과 같이 내가 가지고 있는 거의 모든 부분의 개인정보가 수집되기 때문에 개인정보가 악의적인 용도로 활용되면 다른 범죄의 피해로 이어질 수 있게 됩니다.

이런 부분들을 조금이라도 해소하기 위해 필요한 기술이 데이터 익명화입니다.

데이터 익명화는 데이터가 가지는 개인정보의 연결성을 끊고 익명화 하여 사용자의 개인정보를 보호하는데 목적이 있다.

이 책에서는 익명화를 할 수 있는 방안과 익명화를 하여도 데이터를 활용하여 할 수 있는 다양한 방법론적 해결책을 제시한다.

데이터를 익명화하는 것이 초기 스타트업이나 여유가 많지 않은 회사의 경우에는 쉬운 일은 아니겠지만 사용자의 개인정보를 문제 없이 활용하기 위해서는 꼭 필요한 부분이니 미리 알아두어서 나쁠 것은 없다는 생각이다.

데이터 익명화를 위한 전략 또는 방법론에 대해 궁금하다면 거의 유일무이한 이 책을 활용해봐도 괜찮을 듯 하다.

이 리뷰 내용은 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

책의 내용이 궁금하다면 [이곳]을 통해 확인할 수 있습니다.

warlord***l2022-05-29

데이터 익명화를 위한 파이프라인 리뷰

데이터 익명화를 위한 파이프라인

이 책은 데이터의 특징과 공격 가능성을 식별하여 클러스터링에 대한 합리적인 추정치를 제공하고

익명화를 이해하기 위한 개념적인 기초를 제공하고 있다. 평소 데이터를 안전하고 책임감 있게

사용하고자 하는 독자들이라면 한번쯤 읽어 볼만 한 책이다.

개인정보 데이터의 식별 가능성을 이해하기 위한 범위와 데이터 위협에 대한 이해를 높이기 위한 내용

을 자세하게 설명하고 개인 정보 엔지니어링이 무엇인지 설명해주고 있다.

사용자를 식별이 가능한 데이터를 어떻게 하면 안전하고 바르게 사용할 수 있는지도 충분히 설명하고

있다.

평소 정보보안 및 관련 사용자라면 데이터 보호에 대해 어떠한 방법으로 접근하고 보호해야하 하는지

에 대해 식견을 넓혀 줄 수 있는 그런 책이라고 할 수 있겠다.

그리고 이 책을 끝까지 읽어 나아가다 보면 데이터 보호에 대한 사고방식의 변화를 느낄 수 있을 것이다.

끝으로 이 책에서 데이터 보호에 대한 책임과 윤리에 관해 생각해 볼만한 내용으로 논의를 한다.

지금 가장 핫한 인공지능과 머신러닝에서 부터 딥러닝에 이러기까지 다야한 방면에 노출되어 있는

개인정보에 대하여 우리가 어떤 가치관을 가지고 사용되어야 하는지 알게 될 것이다.

이 책을 통하여 많은 부분을 느끼게 되었다. 평소 데이터 보호의 중요성에 대해 충분히 인지하고

있지만 그 데이터 보호를 위한 체계적인 사용법에 대하여 충분히 고려하지는 않고 있었다.

모든 개발자 및 데이터를 다루는 사용자라면 이 책을 읽어 보시라고 권하고 싶다.

어떠한 방법으로 데이터를 안전하게 운용하는지 알게 될 것이다.

========================================================================================

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

sihan***l2022-05-29

데이터 익명화를 위한 시작

스마트폰을 사용하면서 인터넷에 공유되는 정보의 양은 이전과 비교할 수 없을 정도로 폭발적으로 늘어났습니다. 과거에는 인터넷이 연결된 장소와 단말이 한정적이었지만 이제는 언제 어디서나 접속하고 데이터를 만들어 낼 수 있습니다. 맛집을 검색하고, 사진을 찍고, SNS 공유하고 정말 수 많은 양의 데이터가 실시간으로 쌓이고 있습니다. 기업들은 이 데이터를 기반으로 새로운 직관을 얻고, 연구를 진행하기도 합니다.

		데이터가 이렇게 많이 쌓이면서 이 데이터들을 기반으로 데이터의 주인을 추정할 수 있다는 것입니다. 그래서 유럽의 `GDPR`을 필두로 개인정보 운용에 관한 법률들이 제정이 되고, 그에 맞춰 약관들 변경 받으신 기억들이 있을 것입니다.
	
데이터는 양날의 검이라 개인 맞춤 서비스를 제공할 수도 있지만 개인을 공격하는 무기로 쓰일 수도 있습니다. 특히 개인 신상이 노출 될 경우 더 큰 문제가 될 수 있습니다. 그래서 이를 방지하기 위해 각 국가와 기관에서는 규정을 만들고 검증하기 위해 노력하고 있습니다.

이 책은 이 과정들을 위해 어떻게 익명화하고, 단계적으로 가명화, 익명화 등 다양한 스펙트럼을 이야기하고 있습니다. 데이터 파이프라이닝에 관한 책이지만 특정한 프로그래밍 언어나 프레임워크를 다루고 있지 않습니다. 책도 160페이지로 얇은 축에 속합니다. 길지 않은 분량이지만 법률과 모델링을 다루고 있어서 결코 쉽게 쓱쓱 넘어가는 책은 아닙니다.

데이터를 다루고 있거나 다루기를 희망하고 있다면 한 번쯤 읽어보기를 권합니다.

---

		한빛미디어 `2022 도서 서평단 "나는 리뷰어다"`의 일원으로 도서를 제공받아 작성한 리뷰입니다.