메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

데이터 익명화를 위한 파이프라인

데이터를 안전하고 책임감 있게 사용하는 비식별화 방법

한빛미디어

번역서

판매중

  • 저자 : 루크 아버클 , 칼리드 엘 에맘
  • 번역 : 이창현
  • 출간 : 2022-04-11
  • 페이지 : 164 쪽
  • ISBN : 9791162245514
  • 물류코드 :10551
  • 초급 초중급 중급 중고급 고급
4.7점 (6명)
좋아요 : 0

꼭꼭 숨겨라 개인 정보 보일라!

 

데이터 속에는 유용하면서도 의미 있는 정보가 넘쳐나지만, 사용에 앞서 개인 정보 보호가 선행되어야 한다. 이 책은 데이터를 안전하게 보호하고 익명화 프로세스를 구축하는 과정을 설명한다. 안전한 익명화 프로세스를 구축하기 위해 데이터의 흐름을 이해하고 그 과정을 분석 탐구한다. 또한 다루기 까다로운 의료 데이터를 기반으로 실제 비즈니스 요구사항을 해결하는 사용 사례를 학습하고, 각종 장치와 IoT가 수집한 데이터를 다루는 익명화 솔루션을 처음부터 끝까지 살펴본다.

루크 아버클 저자

루크 아버클

개인 정보 분석 분야 최고 권위자로 데이터를 책임감 있게 사용하고 공유하는 방법에 대한 전략적 리더십과 개인 정보 보호 강화 기술 및 방법에 대한 혁신을 제공하고 있다. 통계학, 수학, 공학뿐만 아니라 산업 및 규제 분야에서도 폭넓은 경험을 쌓았다. 비즈니스 및 개인 정보 보호 공학자의 실제 문제를 해결하기 위해 선임 의사 결정권자들과 협력한다. 이전에 캐나다의 개인 정보 보호 위원회 사무소의 기술 분석 책임자로 재직하면서 개인 정보 보호 연구를 수행하고 관련 기술 구성 요소가 있을 때 조사를 지원하는 고도로 숙련된 팀을 이끌었다. 개인 정보 보호 위원회에 합류하기 전에는 비식별화 방법 및 재식별 위험 측정 도구를 개발하고 보안 계산 프로토콜의 개발 및 평가에 참여했으며 데이터 익명화 솔루션을 개발 및 제공하는 최고 수준의 연구 및 컨설팅 팀을 이끌었다. 수많은 논문, 지침 문서, 특허뿐만 아니라 『건강 데이터의 익명화』(오라일리)의 공저자이기도 하다. 또한 디지털 이미지 처리 및 분석 분야와 응용 통계 분야에서 학위를 받았으며 산업 연구를 수행했다. ‘캐나다 대학원 장학금 - 박사 과정’을 포함하여 수많은 장학금을 받았다.

칼리드 엘 에맘 저자

칼리드 엘 에맘

동부 온트리오 아동 병원의 수석 과학자이자 종합 전자 건강 정보 연구소 소장으로 합성 데이터 생성 방법과 도구, 재식별 위험 측정에 대한 응용 학술 연구를 수행하고 있다. 캐나다의 오타와 의과 대학 소아청소년과 교수이기도 하다. 의료 산업에서 AIML을 적용하기 위한 합성 데이터 개발에 주력하는 회사인 Replica Analytics의 공동 설립자이자 CEO이다. 2016년부터 2019년 말까지는 IMS 헬스(현 IQVIA)에 인수된 Privacy Analytics의 설립자이며 총괄 책임자이자 사장이었다. 현재 데이터 보호 기술을 개발하고 의료 서비스 제공 및 신약 개발 지원 분석 도구를 구축하는 기술 회사에 투자하고 자문하고 있다. 1990년대 초부터 데이터 분석을 수행하여 예측 및 평가를 위한 통계 및 머신 러닝 모델을 구축했다. 2004년부터 알고리즘에 대한 기초 연구에서 응용 솔루션 개발에 이르기까지 전 세계적으로 배포된 2차 분석을 위한 데이터 공유를 용이하게 하는 기술을 개발하고 있다. 이러한 기술은 익명화, 가명화, 합성 데이터, 보안 연산 및 데이터 워터마킹의 문제를 해결했다. 다양한 개인 정보 보호 및 소프트웨어 엔지니어링 주제에 대한 여러 책을 공동 집필하고 편집했다. 2003년과 2004년에는 측정 및 품질 평가와 개선에 대한 연구를 바탕으로 Journal of Systems and Software에서 세계 최고의 시스템 및 소프트웨어 공학자로 선정되었다. 이전에는 캐나다 국립 연구 위원회의 선임 연구 책임자였다. 또한 독일의 카이저슬라우테른에 있는 프라운호퍼 연구소에서 정량적 방법 그룹의 책임자를 역임했다. 2005년부터 2015년까지 오타와 대학교에서 전자 건강 정보 분야 캐나다 연구 위원을 역임했으며, 영국 런던 대학교 킹스 칼리지 전기전자공학부에서 박사 학위를 받았다.

 

 

 

 

이창현 역자

이창현

컴퓨터공학을 전공하고 20여 년간 다양한 IT 산업 분야에서 SW 애플리케이션을 개발했다. 최근에는 의료영상소프트웨어에 AI 기술을 적용한 솔루션을 개발했으며, 지속적인 AI 기반 SW 개발 연구에 관심이 많다. 현재 이창현 코딩 연구소 대표로 활동하면서 IT 개발자를 꿈꾸는 청년들을 교육하는 업무에 주력하고 있다. 연구한 기술을 틈틈이 정리하고 공유하며, 집필하거나 번역하고, 강의를 통해 학생들과 소통하는 것을 즐거워한다.『스파크를 이용한 자연어 처리』(한빛미디어, 2021), 『나혼자 C언어』(디지털북스, 2021) 등을 비롯해 프로그래밍 관련 도서를 총 10종 집필 및 번역하였다. 늘 누군가에게 감동을 주는 일을 하면서 사는 것이 꿈이다.

 

1장 시작하기

_1.1 식별 가능성

_1.2 용어

_1.3 데이터 보호로서의 익명화

_1.4 실제 익명화

_1.5 마치며

 

2장 식별 가능성 스펙트럼

_2.1 법적 상황

_2.2 노출 위험

_2.3 재식별 과학

_2.4 전반적인 식별 가능성

_2.5 마치며

 

3장 실제적인 위험 관리 프레임워크

_3.1 익명화의 파이브 세이프

_3.2 파이브 세이프 연습

_3.3 마치며

 

4장 식별된 데이터

_4.1 요구 사항 수집

_4.2 1차 용도에서 2차 용도로

_4.3 마치며

 

5장 가명화된 데이터

_5.1 데이터 보호 및 법적 권한

_5.2 익명화의 첫 단계

_5.3 1차 용도에서 2차 용도로 재검토

_5.4 마치며

 

6장 익명화된 데이터

_6.1 식별 가능성 스펙트럼 재검토

_6.2 소스에서 익명 처리

_6.3 익명 데이터 풀링

_6.4 공급 소스 익명화

_6.5 마치며

 

7장 안전한 사용

_7.1 신뢰 기반

_7.2 알고리즘에 대한 신뢰

_7.3 책임 있는 AIML의 원칙

_7.4 거버넌스 및 감독

_7.5 마치며

넘쳐나는 데이터를 안전하게 운용하는 익명화 전략

 

AI 분야를 연구하는 가운데 다량의 데이터를 다루게 되면 데이터 활용과 개인 정보 보호 기술에 대한 관심이 높아지게 된다. 특히 저는 의료 AI 플랫폼을 개발하면서 기술 연구와 더불어 데이터 제공을 통해 개인 식별화에 대한 우려와 데이터 익명화 방법, 사회적 법률과 규정 등을 고려하지 않을 수 없다.

 

이 책은 전반적으로 개인 정보를 보호하는 관점에서 데이터를 어떻게 활용할지 체계적이고 실용적으로 설명하고 있다. 먼저 데이터에서 개인 정보의 노출 위험에 대한 가능성을 제기하고 이에 대한 실제적인 위험 관리 프레임워크를 활용한다. 그리고 식별된 데이터가 있다면 어떻게 처리하는지 데이터 익명화 방법에 대해 설명하고 있다. 마지막으로 데이터 사용에 있어 안정성 확보에 대한 원칙과 기술적 과제를 제시하고 있다.

_옮긴이의 말 중에서

우리들은 데이터가 산재한 세상에 살고 있다. 인터넷 기록은 로그로 남고, 우리들 자신의 개인정보가담긴 정보들이 디지털화 되어 어딘가에 저장되어 있다. 그런데, 이러한 데이터는 개인의 정보이기 때문에 직원들이 함부로 열람하거나, 보안 문제로 유출된다면 큰 문제가 생긴다. 따라서, 데이터를 익명화하여 해당 데이터가 특정인 누구에게 귀속되어있는지 알기 힘들게 해야 한다. 이러한 과정을 비식별화라고 한다.
 
문제는 비식별화 데이터를 보고 누구인지 다시 인식하는 ‘재식별화’가 생각보다 어렵지 않다. 예컨대, 94년 4월 생 남자 김길용씨가 어제 3시 39분에 샘빛한의원에 방문하고, 오늘 4시 15분에 히어로마트에서 우유를 구매했다. 이러한 데이터를 90~95년생 남자 id 19203이 어제 3~6시에 죽전에 위치한 한의원 방문, 오늘 3~6시에 죽전에 위치한 마트에 방문했다고 하자. 비식별화 작업을 통해 바로 데이터를 식별하긴 어려워졌지만, 만약 이 중 일부의 원본 데이터를 갖고 있다면 이야기는 달라질 수 있다. 예컨대, 죽전에 위치한 의원 원본 데이터를 갖고 있고, ‘90~95년생 남자 어제 3~6시에 죽전에 위치한 한의원 방문’이라는 비식별화된 데이터를 입수했다고 가정하자. 보유한 비식별 데이터에 해당하는 사람의 수를 추리고, 이러한 비식별화된 데이터가 3~4개 정도 있다면 id19203을 ‘김길용’씨로 특정가능하다. 따라서, 그의 주민번호도 이름과 매칭시켜 악용될 수 있다.
 
따라서, 이 책에서 다룬 비식별화 뿐 아니라 안전한 다자간 연산(secure multiparty computation)과 동형 암호(homomorphic encryption) 기술로도 진보해야할 것이다.
 
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 일을 하면서 다루는 데이터는 사내 보안을 위해 데이터가 외부로 반출되지 않게만 하고 있고, 사내라는 제한된 영역에서만 사용되기 때문에 데이터 익명화를 하지는 않고 있다. 간혹 외부 기관과의 협업을 위해 데이터가 반출될때는 수치데이터의 경우 정규화/표준화 작업을 통해 일종의 익명화를 수행하고는 있지만, 개인의 정보가 침해될 만한 데이터를 다루지는 않고 있다.

  하지만 데이터 관련된 일을 하면서 주변에 민감데이터를 다루는(의료기관, 금융기관, 정부기관, 공항 등) 곳에서 종종 들려오는 개인정보 침해와 관련된 소식을 들으면서 속상했던 적이 있다. 특히 그 중 나의 정보가 누출되었을지도 모르는 상황들도 간혹 있었어서 화가날때도 있었다. 

  특히 얼마전에 충격적이었던 뉴스는 무려 '정부'에서 출입국 얼굴사진을 AI 민간 업체에 넘겼다는 사실이었다. 아마도 좋은 목적의 서비스를 개발하기 위해서 그랬겠지만... 개인의 정보를 허락없이, 정확히는 처음의 수집목적(1차 목적)에 부합되지 않는 2차 목적으로 사용된 경우인 것 같았다.(3장 파이브 세이프의 '프로젝트 안전' 부문 참조)

https://www.hani.co.kr/arti/economy/it/1016022.html

처음 책을 고를때는 데이터 익명화의 '방법'들이 예제 코드와 함께 소개될 줄 알았는데... 그런것은 아니었다. 코드내용은 없고 데이터 익명화에대한 개괄적인 내용과 주요 개념들, 그리고 그 방법론에 대한 이야기를 다루었다. 혹시 익명화 방법에 대한 직접적인 도움을 얻고 싶은 분들은 다른 책을 찾아보는 것이 좋을 것 같다. 

  그럼에도 데이터 익명화에 대해 두루뭉술하게만 알고있던 내게 꽤나 도움이 되었던 책이다. 개인적으로는 용어에 대한 정리를 할 수 있었고, 위험 관리 프레임 워크인  파이브 세이프(five safe)에 대해서도 알아볼 수 있었다.

* 익명화의 파이브 세이프(ref : https://ieeexplore.ieee.org/document/8821469)

프로젝트 안전 – 1차 목적, 2차 목적
  데이터 공유 시나리오의 법적, 윤리적 경계는 무엇이며 개인 정보 보호 조치로 익명화가 필요한가?

인력 안전 – 수신자 신뢰(동기능력)
  예상되는 데이터 수신자는 누구이며 데이터를 재식별할 동기와 능력은 무엇이며 데이터에서 누구를 알 수 있는가?

환경 안전 – 위험 행렬
  고의적인 재식별 시도를 방지 또는 데이터 침해를 방지하기 위한 기술적, 조직적 통제는 무엇인가?

데이터 안전 – 위협 모델링
  데이터 환경의 사람과 설정을 고려할 때 식별 가능성의 수준은 어느 정도이며 데이터에 대한 어떤 위협을 관리해야 하는가?

결과물 안전 – 개인 정보 침해를 결정하기 위한 식별 가능성 임곗값의 선택
  의도된 목적 및 기타 목적으로 익명화된 데이터를 사용할 때 우려되는 점은 무엇이며 적절한 식별 가능성 임곗값은 무엇인가?

 몇 가지 용어들에 대해 정리해보면,

HIPPA(Health Insurance Portability and Accountability Act of 1996) : 건강 보험 정의 이전 및 책임에 관한 법률
GDPR(General Data Protection Regulation, 일반 데이터 보호 규정) : 2018년 5월 25일부터 시행되고 있는 EU(유럽연합)의 개인정보보호 법령으로 위반시 과징금 등 행정처분이 부과될 수 있으며, EU내 사업장이 없더라도 EU를 대상으로 사업을 하는 경우 적용대상이 될 수 있어 우리 기업의 주의가 필요함
- (58 pg) "전반적인 식별 가능성 수준은 데이터와 해당 데이터를 공유하는 콘텍스트 두 확률의 곱이다"
식별화(identification) : 데이터에 이름이나 주소와 같은 직접 식별되는 정보가 있다는 의미
가명화(pseudonymization) : 식별 데이터는 아니지만 여전히 식별 가능한 데이터
익명화(anonymization) : /간접 식별자를 제거하여 데이터를 식별할 수 없다는 합리적인 보장을 제공하는 프로세스
골디락스 원리(Goldilocks Principle) : 위험과 이익의 균형을 맞출 필요가 있다는 생각

 

  조금 어려운 부분들도 있기는 했지만, 데이터 익명화에 대해 전반적인 흐름과 방법론들, 그리고 주요 개념과 용어들을 배워볼 수 있는 시간이어서 감사했다.

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

아마존은 개인 정보 보호 정책(GDPR; General Data Protection Regulation)을 위반하여 EU로부터 1조 200억 원(7억 4,600만 유로)의 과징금을 부과 받았습니다. 2018년부터 유럽에서 시행된 개인 정보 보호 정책은 세계에서 가장 높은 수준의 보호 정책이며, 위반 기업은 최대 전 세계 매출의 4%와 268억 원(2000만 유로)중 높은 금액을 과징금으로 납부해야 합니다. 워낙 처벌의 강도가 세다 보니 데이터를 다루는 기업이라면 반드시 숙지하고 점검해야 되는 기준이 되었습니다.

 

이 정책은 일명 '걸리면 죽는 법'으로 제정 때부터 주목하고 대비했음에도 불구하고, 기업 들은 기술적/제도적 미비 등 다양한 이유로 1100여 건의 과징금을 납부하였습니다. 이 중에는 위에 언급된 아마존을 포함하여 구글(2019년 670억 원), 메타(2018년 228억 원) 등 업계를 선도하는 기업들도 다수 포함되어 있습니다. 책의 서문에서도 나오듯 오라일리 데이터 뉴스레터에서 또한 보안 및 개인 정보보호 분석 도구가 대세라고 발표(2019.1.2)하는 등 특히 데이터 기반 AI 기술을 사용한다면 이제 당연히 개인 식별화에 대한 우려와 데이터 익명화 방법, 법률과 규정 및 관련 데이터 후처리 도구를 고려해야 합니다.

 

데이터 중 식별 가능한 내용이 포함되어 있을 경우 이를 제거하면 간단할 것 같지만, 예를 들어 이름을 가명으로 처리할 것인지 이름을 성만 남기고 김ㅇㅇ와 같이 처리할 것인지 아예 삭제할 것인지와 같이 비즈니스 이익을 고려한 고민이 필요합니다. 익명화 과정을 통해서 유용한 데이터를 생성하는 법칙과 절차의 숙고가 필요하고, 노하우가 필요하며, 정보 노출 위험과 이익 사이의 균형잡기가 필요하고, 익명화를 통해 데이터는 보호하되 목적과 데이터 주체의 정체성은 남겨두어야 합니다. 이 책은 이런 목적을 달성하기 위한 분석적 내용으로 160페이지의 적은 분량에 단계별 절차와 노하우를 담고 있습니다. 1~3장을 통해 용어 설명 및 개괄을 하고 4, 5, 6장을 통해 데이터 처리단계를 정립하고 파이프라인 구축 방법을 설명합니다. 마지막으로 7장을 통해 정리를 하고 있습니다.

 

각 챕터에 따른 주요 내용은 아래와 같습니다.

1장 : 용어 설명 및 주요 사례

2장 : 주요 개념 설명 및 식별 가능성 스펙트럼 이해

3장 : 공유의 맥락을 설명하는 거버넌스 프레임워크

4장 : 개인 정보 보호를 염두에 둔 시스템 설계, 보호 기능 구축 방법

5장 : 가명화 등 데이터 익명화 작업 방법

6장 : 익명화 데이터 호수 구축 방법

7장 : 데이터를 안전하게 사용하기 위한 책임과 윤리

 

책의 초반부에 나오는 매우 중요한 단어인 '식별 가능성 스펙트럼(spectrum of identifiability)'이 직관적으로 이해가 가지 않았습니다. 책 전체적으로도 가장 중요한 단어이기 때문에 의미를 알고 있어야 합니다.

의미는 간단합니다. 데이터를 식별할 수 있는 단계부터 점차 그렇지 않은 단계로 나열해 놓아 무지개(스펙트럼)의 모습과 같은 형태를 말합니다. 예를 들어 [식별화(Identification) <-> 가명화(Pseudonymization, Deidentificatoin) <-> 익명화(anonymization)]와 같은 모습입니다.

 

명확히 식별 가능한 데이터 << Personally identifiable Data << De-personalised Data >> Anonymous Data >> 식별 불가능한 데이터

 

아래 그림은 이 개념을 더 이해하기 쉽게 그림으로 표현해 주고 있습니다.

 

Spectrum%20(no%20anonymous%20line)%20May%202019[1].png

 

 

1, 2장에서는 주요 용어 설명을 합니다. 또한 데이터 익명화라는 법률(?) 분야의 특성상 동일하거나 미묘하게 다른 것 같은 두 개념의 차이를 분명하게 만들어 주고 정확하게 구분하여 도서를 읽을 수 있게 만들어 줍니다. 예를 들면 비식별화와 익명화의 차이점 등을 설명합니다.

 

3장부터는 수집된 데이터의 익명화 수준을 결정하는데 요구되는 요소나 판단 방법을 설명합니다. 적절히 익명화하는 이론적 판단 방법 들을 프레임워크라는 용어로, 최종 익명화 단계까지의 흐름을 파이프라인이라고 표현하였습니다. 프레임워크는 2017년 플렉스 리치(Felix Ritchie)의 논문으로 발표한 파이브 세이프(Five safes)를 설명합니다.

 

4, 5, 6장에서는 데이터를 수집하고 공유하며 직접 식별자를 제거하고 간접 식별자를 변형하는 방법 등 데이터를 처리하는 방법에 대해 다루고, 가명화 등을 통한 익명화에 대한 상세한 설명을 합니다.

 

마지막으로 7장에서는 실제 기술에 직접 적용했을 때 사례와 윤리적인 부분 등 기술적인 과제와 원칙을 다루고 있습니다.

 

파이프라인과 프레임워크라는 단어로 인해 실질적으로 데이터를 익명화하는 기술적인 상세 방법을 설명하는 것으로 오해한다면 책이 다루고 있는 내용에 다소 실망할 수 있습니다. 이 책은 익명화를 위한 이론적 프레임워크와 파이프라인을 충실히 설명하고 있습니다. 필체가 그런건지 주제가 그런건지(둘다 인것 같은데) 다소 딱딱하게 느껴질 수 있습니다.

우리가 IT 기술 기반의 제품 서비스한다면 필수불가결하게 수집되는 식별 정보에 대하여 법적 익명화 수준을 반드시 고려해야 하며, 이를 위해 법률적인 내용을 생각하지 않을 수 없습니다. 이 책은 이에 대한 가벼운 시작점으로 손색이 없으며 분량 또한 부담되지 않은 좋은 시작점이 됩니다.

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

building_an_anonymization_pipeline.JPG

 

 

안녕하세요 괴짜 개발자 namedboy 입니다.

 

데이터의 중요성은 시간이 지나갈수록 점점 더 중요해지고 있죠.

결국엔 모든 분야에서 데이터 자체가 중요해지게 될 것 같습니다.

 

데이터가중요해지게 되는 만큼 중요해지는 것이 또 하나 있습니다.

바로 데이터와 연결된 개인의 보안에 대한 이슈입니다.

최근의 광고산업이나 개인정보를 활용한 산업을 보면 사람들은 자신의 개인정보를 팔아서 제품의 특정 기능을 이용하거나 개인정보 제 3자 활용 동의를 통해 마케팅 활용 동의를 하고 추가 기능을 이용하거나 혜택을 받기도 합니다.

 

한편으론 페이스북이나 구글 같은 대형 IT 업체의 경우 핸드폰에 있는 물리적 정보 접근을 통해 사용자의 IP나 지리적 정보를 파악하기도 합니다.

이렇게 수집된 데이터들은 기본적으로는 식별이 가능한 유니크한 id 값을 가지고 있습니다.

그렇기 때문에 수집된 데이터들을 조합하면 내가 어떤 취향을 가진 사람인지 나 자신보다 더 잘 알게 됩니다.

그리고 이런 정보를 통해 AI서비스를 활용한 서비스나 내가 좋아할 만한 것들을 추천해주죠.

 

빛과 그림자는 항상 함께 다니듯이 이런 편리함을 누리게 되면서 화두로 떠오른 문제가 바로 개인 정보의 유출을 통해 악의적인 방법으로 활요되는 문제일 겁니다.

앞서 말씀 드린 내용과 같이 내가 가지고 있는 거의 모든 부분의 개인정보가 수집되기 때문에 개인정보가 악의적인 용도로 활용되면 다른 범죄의 피해로 이어질 수 있게 됩니다.

 

이런 부분들을 조금이라도 해소하기 위해 필요한 기술이 데이터 익명화입니다.

데이터 익명화는 데이터가 가지는 개인정보의 연결성을 끊고 익명화 하여 사용자의 개인정보를 보호하는데 목적이 있다.

 

이 책에서는 익명화를 할 수 있는 방안과 익명화를 하여도 데이터를 활용하여 할 수 있는 다양한 방법론적 해결책을 제시한다.

데이터를 익명화하는 것이 초기 스타트업이나 여유가 많지 않은 회사의 경우에는 쉬운 일은 아니겠지만 사용자의 개인정보를 문제 없이 활용하기 위해서는 꼭 필요한 부분이니 미리 알아두어서 나쁠 것은 없다는 생각이다.

 

데이터 익명화를 위한 전략 또는 방법론에 대해 궁금하다면 거의 유일무이한 이 책을 활용해봐도 괜찮을 듯 하다.

 

이 리뷰 내용은 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

책의 내용이 궁금하다면 [이곳]을 통해 확인할 수 있습니다.

 

KakaoTalk_20220529_160052230.jpg

 

데이터 익명화를 위한 파이프라인

 

이 책은 데이터의 특징과 공격 가능성을 식별하여 클러스터링에 대한 합리적인 추정치를 제공하고

 

익명화를 이해하기 위한 개념적인 기초를 제공하고 있다. 평소 데이터를 안전하고 책임감 있게

 

사용하고자 하는 독자들이라면 한번쯤 읽어 볼만 한 책이다.

 

개인정보 데이터의 식별 가능성을 이해하기 위한 범위와 데이터 위협에 대한 이해를 높이기 위한 내용

 

을 자세하게 설명하고 개인 정보 엔지니어링이 무엇인지 설명해주고 있다.

 

사용자를 식별이 가능한 데이터를 어떻게 하면 안전하고 바르게 사용할 수 있는지도 충분히 설명하고

 

있다.

 

평소 정보보안 및 관련 사용자라면 데이터 보호에 대해 어떠한 방법으로 접근하고 보호해야하 하는지

 

에 대해 식견을 넓혀 줄 수 있는 그런 책이라고 할 수 있겠다.

 

그리고 이 책을 끝까지 읽어 나아가다 보면 데이터 보호에 대한 사고방식의 변화를 느낄 수 있을 것이다.

 

끝으로 이 책에서 데이터 보호에 대한 책임과 윤리에 관해 생각해 볼만한 내용으로 논의를 한다.

 

지금 가장 핫한 인공지능과 머신러닝에서 부터 딥러닝에 이러기까지 다야한 방면에 노출되어 있는

 

개인정보에 대하여 우리가 어떤 가치관을 가지고 사용되어야 하는지 알게 될 것이다.

 

이 책을 통하여 많은 부분을 느끼게 되었다. 평소 데이터 보호의 중요성에 대해 충분히 인지하고

 

있지만 그 데이터 보호를 위한 체계적인 사용법에 대하여 충분히 고려하지는 않고 있었다.

 

모든 개발자 및 데이터를 다루는 사용자라면 이 책을 읽어 보시라고 권하고 싶다. 

 

어떠한 방법으로 데이터를 안전하게 운용하는지 알게 될 것이다.

 

========================================================================================

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

스마트폰을 사용하면서 인터넷에 공유되는 정보의 양은 이전과 비교할 수 없을 정도로 폭발적으로 늘어났습니다. 과거에는 인터넷이 연결된 장소와 단말이 한정적이었지만 이제는 언제 어디서나 접속하고 데이터를 만들어 낼 수 있습니다. 맛집을 검색하고, 사진을 찍고, SNS 공유하고 정말 수 많은 양의 데이터가 실시간으로 쌓이고 있습니다. 기업들은 이 데이터를 기반으로 새로운 직관을 얻고, 연구를 진행하기도 합니다.

데이터가 이렇게 많이 쌓이면서 이 데이터들을 기반으로 데이터의 주인을 추정할 수 있다는 것입니다. 그래서 유럽의 `GDPR`을 필두로 개인정보 운용에 관한 법률들이 제정이 되고, 그에 맞춰 약관들 변경 받으신 기억들이 있을 것입니다.

데이터는 양날의 검이라 개인 맞춤 서비스를 제공할 수도 있지만 개인을 공격하는 무기로 쓰일 수도 있습니다. 특히 개인 신상이 노출 될 경우 더 큰 문제가 될 수 있습니다. 그래서 이를 방지하기 위해 각 국가와 기관에서는 규정을 만들고 검증하기 위해 노력하고 있습니다.

이 책은 이 과정들을 위해 어떻게 익명화하고, 단계적으로 가명화, 익명화 등 다양한 스펙트럼을 이야기하고 있습니다. 데이터 파이프라이닝에 관한 책이지만 특정한 프로그래밍 언어나 프레임워크를 다루고 있지 않습니다. 책도 160페이지로 얇은 축에 속합니다. 길지 않은 분량이지만 법률과 모델링을 다루고 있어서 결코 쉽게 쓱쓱 넘어가는 책은 아닙니다.

데이터를 다루고 있거나 다루기를 희망하고 있다면 한 번쯤 읽어보기를 권합니다.

---

한빛미디어 `2022 도서 서평단 "나는 리뷰어다"`의 일원으로 도서를 제공받아 작성한 리뷰입니다.

결제하기
• 문화비 소득공제 가능
• 배송료 : 2,000원배송료란?

배송료 안내

  • 20,000원 이상 구매시 도서 배송 무료
  • 브론즈, 실버, 골드회원이 주문하신 경우 무료배송

무료배송 상품을 포함하여 주문하신 경우에는 구매금액에 관계없이 무료로 배송해 드립니다.

닫기

리뷰쓰기

닫기
* 도서명 :
데이터 익명화를 위한 파이프라인
* 제목 :
* 별점평가
* 내용 :

* 리뷰 작성시 유의사항

글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

오탈자 등록

닫기
* 도서명 :
데이터 익명화를 위한 파이프라인
* 구분 :
* 상품 버전
종이책 PDF ePub
* 페이지 :
* 위치정보 :
* 내용 :

도서 인증

닫기
도서명*
데이터 익명화를 위한 파이프라인
구입처*
구입일*
부가기호*
부가기호 안내

* 온라인 또는 오프라인 서점에서 구입한 도서를 인증하면 마일리지 500점을 드립니다.

* 도서인증은 일 3권, 월 10권, 년 50권으로 제한되며 절판도서, eBook 등 일부 도서는 인증이 제한됩니다.

* 구입하지 않고, 허위로 도서 인증을 한 것으로 판단되면 웹사이트 이용이 제한될 수 있습니다.

닫기

해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
장바구니로 이동하시겠습니까?

자료실