메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

데이터 품질의 비밀

데이터 신뢰를 쌓는 데이터옵스의 핵심과 엔드 투 엔드 단계별 가이드

한빛미디어

번역서

판매중

  • 저자 : 바 모세스 , 라이어 개비쉬 , 몰리 보르웨르크
  • 번역 : 데이터야놀자
  • 출간 : 2023-04-10
  • 페이지 : 376 쪽
  • ISBN : 9791198140814
  • 물류코드 :7001
  • 초급 초중급 중급 중고급 고급
0점 (0명)
좋아요 : 0

데이터를 다루는 일을 하는 사람들이라면

누구나 읽어보고, 알아보고 싶었던 ‘데이터 품질’

데이터가 곧 가치인 시대, 성패는 데이터 품질에 달려있다!

 

이 책은 신뢰할 수 없는 데이터로 고통받고, 내적 비명을 지르며 이 상황을 개선하기 위해 무언가 하고 싶어 하는 모든 이들을 위한 길잡이다. 기본적으로 이 책은 데이터를 정제하고 이해하는 방법을 다룬 매뉴얼처럼 보인다. 그러나 여기서 더 나아가 보다 안정적인 데이터 시스템을 구축하고 그 과정에서 조직 및 이해관계자와 데이터 신뢰를 구축하는 모범 사례, 도구 및 프로세스까지 설명한다. 책을 다 읽었을 때, 최소한 조직 전반에서 데이터 품질과 신뢰성의 우선순위를 정할 때 써먹을 만한 몇 가지 요령을 터득하길 바란다. 데이터 신뢰는 하루아침에 완성되지 않는다. 올바른 접근 방식을 기반으로, 파이프라인 하나하나가 점진적으로 쌓인다.

 

quality_700.jpg

 

바 모세스 저자

바 모세스

데이터 신뢰성 솔루션 회사 몬테카를로(Monte Carlo)의 CEO 겸 공동 설립자로, 데이터 분야에서 10여 년간 일했다. 이스라엘 공군의 데이터 인텔리전스 부대 사령관, 베인앤컴퍼니(Bain&Company)의 컨설턴트, 게인사이트(Gainsight)의 운영 부사장으로 재직하면서 데이터 및 분석 팀을 구성하고 이끌었다. 또한 데이터 엔지니어 분야의 화두인 데이터 통합 옵저버빌리티를 주제로 한 오라일리의 첫 번째 강좌에서 강연자로 나섰다. 그녀는 데이터 옵저버빌리티 관련 어려움을 겪고 있는 수백 개의 데이터 조직과 협업하며, 현장에서 얻은 생생한 영감을 바탕으로 ‘데이터 다운타임’ 문제를 식별하고 해결하며 예방하는 솔루션을 개발하고 있다. 데이터 다운타임이란 데이터가 누락됐거나, 부정확하거나, 데이터에 오류가 있어 생기는 문제를 말한다. 그녀는 데이터 조직들이 이 책을 통해 기술적·조직적·문화적 모범 사례를 배워서 대규모로 양질의 데이터 품질을 달성할 수 있기를 바라며, 본인의 경험과 교훈을 공유했다.

라이어 개비쉬 저자

라이어 개비쉬

몬테카를로의 CTO 겸 공동 설립자다. 몬테카를로에 합류하기 전에는 사이버 보안 스타트업인 수카사(Sookasa)를 공동 설립했으며, 이 회사는 2016년 바라쿠다(Barracuda)에 인수됐다. 이후 바라쿠다에서 엔지니어링 수석 부사장을 역임하며 부정 및 사기 방지(Fraud prevention)를 위한 머신러닝 프로덕트를 출시해 관련 상을 수상했다. 라이어는 스탠퍼드 대학교에서 MBA를, 텔아비브 대학교에서 컴퓨터 공학 석사를 취득했다.

몰리 보르웨르크 저자

몰리 보르웨르크

몬테카를로의 콘텐츠 책임자다. 몬테카를로에 합류하기 전에는 우버(Uber) 엔지니어링 블로그의 편집장 겸 우버 기술 브랜드 팀의 수석 프로그램 관리자로 근무하면서, 소속 엔지니어, 데이터 과학자, 분석가들과 함께 기술 업무와 경험에 관해 콘텐츠를 작성하고 편집했다. 또한 우버 CTO를 위한 내부 커뮤니케이션과 우버 AI랩스(Uber AI Labs)의 연구 검토 프로그램 전략을 리드했다. 여가 시간에는 USA투데이 에 데이터 최신 동향 기사를 투고하는 프리랜서로 일하며, 캘리포니아 역사학회에서 자원봉사도 한다.

데이터야놀자 역자

데이터야놀자

데이터야놀자는 오픈 소스 커뮤니티 정신을 바탕으로 하여 구성원 모두의 자발적인 참여로 운영되어 왔다. 어울림, 참여, 즐거움의 가치를 최우선으로 하여 발표자, 청중, 커뮤니티, 후원 기업 모두가 데이터로 어울릴 수 있는 장을 펼쳐 가고 있다. 데이터에 대한 관심은 나날이 늘고 있지만, 데이터를 가지고 ‘놀 줄 아는’ 사람들의 이야기는 접하기가 어렵다. 더 많은 데이터 이야기가 공유되고 생태계가 활성화될 수 있도록 매년 10월 콘퍼런스를 진행하고 있다. ‘놀자’가 중심이고 ‘데이터’는 거들 뿐! 올해도 데이터야놀자는 계속된다. 즐거운 분위기에서 데이터로 놀아본 경험을 공유할 발표자와 청중, 커뮤니티 그리고 후원은 데이터야놀자 대표 이메일(datayanolja.master@gmail.com)로 문의해 주기를 바란다! 생생한 커뮤니티 소식은 페이스북에서 확인해 보자! (https://www.facebook.com/datayanolja)

CHAPTER 1 지금, 데이터 품질에 주목해야 하는 이유

1.1 데이터 품질이란? 

1.2 데이터 품질의 현재 

1.3 마치며

 

CHAPTER 2 신뢰할 수 있는 데이터 시스템 구축을 위한 블록 조립

2.1 운영 데이터와 분석 데이터의 차이 

2.2 차이는 어떻게 만들어지는가? 

2.3 데이터 웨어하우스 vs 데이터 레이크 

2.4 데이터 품질 지표 수집 

2.5 데이터 카탈로그 설계 

2.6 데이터 카탈로그 구축 

2.7 마치며

 

CHAPTER 3 데이터 수집 · 정제 · 변환 · 테스트 

3.1 데이터 수집 

3.2 데이터 정제 

3.3 배치 처리 vs 실시간 처리 

3.4 실시간 처리를 위한 데이터 품질 

3.5 데이터 정규화 

3.6 분석 데이터 변환 실행 

3.7 테스트 및 경고 알람 시스템 

3.8 아파치 에어플로를 활용한 데이터 품질 관리 

3.9 마치며

 

CHAPTER 4 데이터 파이프라인 모니터링 및 이상 탐지 

4.1 알려진 미지와 알려지지 않은 미지 

4.2 이상 탐지 알고리즘 구축 

4.3 스키마 및 계보를 위한 모니터 구축 

4.4 파이썬과 머신러닝으로 이상 탐지 확장 

4.5 이상 탐지의 심화 과정: 기타 유용한 접근법 

4.6 데이터 품질 모니터 설계: 데이터 웨어하우스 vs 데이터 레이크 

4.7 마치며

 

CHAPTER 5 데이터 신뢰성을 위한 아키텍처 

5.1 수집 단계에서 높은 데이터 신뢰성 측정 및 유지 

5.2 파이프라인에서 높은 데이터 품질 측정 및 유지 

5.3 데이터 품질 다운스트림 

5.4 데이터 플랫폼 구축 

5.5 데이터 신뢰 구축 

5.6 [사례 연구] 블링키스트 

5.7 마치며

 

CHAPTER 6 대규모 데이터 품질 문제 해결

6.1 소프트웨어 개발 시 품질 문제 조정 

6.2 데이터 사고 관리 

6.3 사고 대응 및 완화 

6.4 [사례 연구] 페이저듀티의 데이터 사고 관리 

6.5 마치며

 

CHAPTER 7 엔드 투 엔드 데이터 계보 구축 

7.1 최신 데이터 시스템을 위한 엔드 투 엔드 필드 레벨 데이터 계보 구축 

7.2 [사례 연구] 폭스의 데이터 신뢰성을 위한 아키텍처 

7.3 마치며

 

CHAPTER 8 데이터 품질 민주화 

8.1 데이터를 프로덕트로 다루는 시각

8.2 데이터를 프로덕트로 다루는 사례 

8.3 데이터 플랫폼을 향한 신뢰 축적 

8.4 데이터 품질 책임 할당 

8.5 데이터 품질 보장을 위한 책임감 조성 

8.6 데이터 접근성과 신뢰 간 균형  

8.7 데이터 인증 

8.8 데이터 인증 프로그램 실행 7단계 

8.9 [사례 연구] 적합한 데이터 조직을 찾는 토스트의 여정 

8.10 데이터 리터러시 함양

8.11 데이터 거버넌스와 컴플라이언스 

8.12 데이터 품질 전략 수립

8.13 마치며

 

CHAPTER 9 현실에서의 데이터 품질: 전문가 대담과 사례 연구 

9.1 데이터 품질 향상을 위한 데이터 메시 구축 

9.2 왜 데이터 메시인가? 

9.3 자마크 데가니와의 대화: 데이터 메시에서 데이터 품질의 역할 

9.4 [사례 연구] 콜리브리 게임즈의 데이터 스택 여정 

9.5 비즈니스에 메타데이터 활용 

9.6 데이터 검색에서 얻는 메타데이터의 가치 

9.7 데이터 품질 관리 시기 결정 

9.8 마치며

 

CHAPTER 10 신뢰할 수 있는 데이터 시스템의 미래 개척 

10.1 사후 대응이 아닌 사전 예방적 대응 

10.2 데이터 품질 및 신뢰성의 미래 예측 

10.3 이제부터 우리는 무엇을 해야 할까?

 

찾아보기

[이 책의 핵심 내용]

- 바로 지금, 데이터 품질에 주목해야 하는 이유

- 데이터 품질에 초점을 맞춘 데이터 파이프라인 구축 및 모니터링 시스템, 데이터 옵저버빌리티 구성 방법

- 데이터 품질 신뢰성을 높이는 방법과 실제 사례

- 데이터 품질을 향상시키는 거버넌스와 실제 사례

- 각 기업 사정에 맞게 데이터 품질 투자 대비 효용성을 계산하는 공식 소개

- 데이터 품질의 미래 트렌드 4가지

 

[이 책의 대상 독자]

- 데이터 엔지니어

- 기업의 데이터 파이프라인을 구축하고, 확장하고, 관리하는 실무자

- 데이터로 서비스를 만드는 데이터 제품 매니저

- 데이터 품질에 투자하려는 의지가 있는 COO

- 데이터 품질을 중시하는 데이터 분석가 

- 데이터 품질을 중시하는 데이터 과학자 

 

[이 책의 구성]

1장: 지금 데이터 품질에 주목해야 하는 이유

현재 시점에서 데이터 품질에 주목해야 하는 이유를 살펴보고 아키텍처 및 기술 동향이 전반적인 거버넌스 및 신뢰성에 어떤 영향을 주고 있는지 설명한다. 이와 관련하여 ‘데이터 다운타임’이라는 개념을 소개하고, 사이트 신뢰성 엔지니어링(SRE) 팀의 초창기로 거슬러 올라가, 동일한 데브옵스(DevOps) 원칙을 어떻게 데이터 엔지니어링 워크플로에도 적용할 수 있는지 설명한다.

 

2장: 신뢰할 수 있는 데이터 시스템 구축을 위한 블록 조립

데이터 웨어하우스, 데이터 레이크 및 데이터 카탈로그의 주요 데이터 파이프라인 기술에서 데이터 품질을 보장하고 측정할 수 있는 방법을 살펴본다. 이를 통해 탄력적인 데이터 시스템을 구축하는 방법에 대해 설명한다. 여기서 소개하는 세 가지 기본 기술은 양질의 데이터 프로덕션을 위한 사전 준비에 사용되며, 데이터를 저장·처리·추적한다.

 

3장: 데이터 수집 · 정제 · 변환 · 테스트

데이터 품질과 신뢰성을 염두에 두고 데이터를 수집·정제·변환·테스트하는 방법을 설명한다. 이를 통해 데이터가 파이프라인에 있기 전과 파이프라인에 있는 동안 품질을 관리하는 방법을 알려준다. 특히, 최근 주목받는 방법론인 데이터 실시간 처리 시 사용할 수 있는 데이터 품질 관리 툴과 해당 툴의 이점을 짚어준다. 마지막으로 데이터 테스트 단계를 마친 뒤, 아파치 에어플로를 활용하여 데이터 품질을 효율적으로 관리할 수 있는 방법을 안내한다.

 

4장: 데이터 파이프라인 모니터링 및 이상 탐지

데이터 신뢰성 워크플로의 가장 중요한 측면 중 하나인 사전 이상 탐지 및 모니터링을 설명한다. 독자들의 이해를 돕기 위해, 공식적으로 사용 가능한 데이터셋인 거주 가능한 외계 행성에 관한 모의 천문 데이터를 활용하여 데이터 품질 모니터 구축 방법을 공유한다.

 

5장: 데이터 신뢰성을 위한 아키텍처

지금까지 다룬 중요한 기술들을 잘 조합하려면 어떻게 해야 하는지, 어떤 사례에서도 데이터 품질을 잘 측정하고 보장할 수 있는 강력한 프로세스와 시스템을 설계하려면 어떻게 하면 좋을지 큰 그림으로 조망한다. 이어서 에어비앤비(Airbnb), 우버(Uber), 인튜이트(Intuit) 및 기타 기업의 데이터 팀이 SLA(서비스 레벨 계약), SLI(서비스 수준 지표), SLO(서비스 수준 목표) 설정을 비롯해 데이터 안정성을 일상적인 워크플로에 통합하는 방법을 살펴본다. 또한 이들 데이터 팀이 신선도, 볼륨, 배포, 스키마, 계보의 다섯 가지 핵심 요소를 기반으로 데이터 품질을 최적화하는 데이터 플랫폼 구축 방법을 공유한다.

 

6장: 대규모 데이터 품질 문제 해결

데이터 사고 관리, 근본 원인 분석, 포스트모템, 그리고 사고 커뮤니케이션의 모범 사례 구축 등 운영 환경에서 데이터 품질 문제에 실제로 대응하고 해결하는 데 필요한 단계를 자세히 들여다본다.

 

7장: 엔드 투 엔드 데이터 계보 구축

모든 데이터 엔지니어가 갖추어야 할 무기이자 즐겨 사용하는 오픈 소스 도구를 사용해 현업에서 사용하는 수준의 계보 구축 방법을 설명한다. 이를 통해, 최신 데이터 시스템을 위한 ‘엔드 투 엔드 필드 레벨’ 데이터 계보를 만들 때 고려해야 할 주요 내용, 계보에 포함되는 세 가지 요소 등을 배울 수 있다. 더불어, 거대 미디어 기업 폭스 네트워크에서 데이터 신뢰성을 보장하기 위해 데이터 아키텍처를 어떻게 설계했고, 이를 데이터 계보로 어떻게 구축했는지 실제 사례를 들어 알아본다.

 

8장: 데이터 품질 민주화

조직 전반에 데이터 품질 관리의 중요성을 알리고, 구성원 모두가 데이터 품질 관리에 쉽게 접근할 수 있도록 민주화하는 과정에서 넘어야 할 문화적·조직적 장벽에 대해 논의한다. 구체적으로는 데이터를 프로덕트처럼 취급하는 시각과 데이터 품질에 대한 회사의 RACI 매트릭스를 이해하는 원칙, 비즈니스에 미치는 영향을 극대화할 수 있는 데이터 조직 구성 방법을 다룬다.

 

9장: 현실에서의 데이터 품질: 전문가 대담과 사례 연구

실제 사례 연구 및 대담 내용을 공유한다. 데이터 메시를 만든 자마크 데가니(Zhamak Dehghani), (데이터 품질이 최우선인) 분산형 데이터 아키텍처로 마이그레이션하는 방법에 대해 자신 있게 이야기하는 안토니오 피타스(António Fitas), 폭스(Fox)의 데이터 서비스 부사장이자 ‘관리된 자유(controlled freedom)’ 데이터 관리 기술의 선구자인 알렉스 트베르돌렙(Alex Tverdohleb)이 자신의 경험을 공유해 주었다.

 

10장: 신뢰할 수 있는 데이터 시스템의 미래 개척

신뢰할 수 없는 데이터가 비즈니스에 미치는 재정적 영향을 측정하기 위한 구체적인 계산법을 설명한다. 여기서 다루는 내용은 데이터 다운타임 해결이라는 임무를 지고 있을 많은 독자들이 문제를 해결하기 위해 더 많은 도구와 프로세스에 투자하는 리더십을 발휘하는 데 도움을 줄 것이다.

  • 첫번째 리뷰어가 되어주세요.
  • 결제하기
    • 문화비 소득공제 가능
    • 배송료 : 2,000원배송료란?

    배송료 안내

    • 20,000원 이상 구매시 도서 배송 무료
    • 브론즈, 실버, 골드회원이 주문하신 경우 무료배송

    무료배송 상품을 포함하여 주문하신 경우에는 구매금액에 관계없이 무료로 배송해 드립니다.

    닫기

    리뷰쓰기

    닫기
    * 도서명 :
    데이터 품질의 비밀
    * 제목 :
    * 별점평가
    * 내용 :

    * 리뷰 작성시 유의사항

    글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

    1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
    2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

    오탈자 등록

    닫기
    * 도서명 :
    데이터 품질의 비밀
    * 구분 :
    * 상품 버전
    종이책 PDF ePub
    * 페이지 :
    * 위치정보 :
    * 내용 :

    도서 인증

    닫기
    도서명*
    데이터 품질의 비밀
    구입처*
    구입일*
    부가기호*
    부가기호 안내

    * 온라인 또는 오프라인 서점에서 구입한 도서를 인증하면 마일리지 500점을 드립니다.

    * 도서인증은 일 3권, 월 10권, 년 50권으로 제한되며 절판도서, eBook 등 일부 도서는 인증이 제한됩니다.

    * 구입하지 않고, 허위로 도서 인증을 한 것으로 판단되면 웹사이트 이용이 제한될 수 있습니다.

    닫기

    해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
    장바구니로 이동하시겠습니까?

    자료실

    최근 본 책0