메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

한빛랩스 - 지식에 가능성을 머지하다 / 강의 콘텐츠 무료로 수강하시고 피드백을 남겨주세요. ▶︎

데이터 과학 레벨 업 with 로드맵

캐글 그랜드마스터가 알려주는 문제 해결의 기술

한빛미디어

번역서

판매중

  • 저자 : 콘라트 바나헤비치 , 루카 마사론
  • 번역 : 김형민
  • 출간 : 2023-04-20
  • 페이지 : 520 쪽
  • ISBN : 9791169210959
  • eISBN : 9791169216739
  • 물류코드 :11095
  • 초급 초중급 중급 중고급 고급
4.8점 (24명)
좋아요 : 1

데이터 과학자여, 그랜드마스터로 올라서는 비법이 여기에 있다.

 

실력 향상에 가장 좋은 방법은 실습! 데이터 과학 플랫폼 캐글에서는 다양한 대회에 참가하고 데이터 세트와 노트북, 토론을 주고받으며 ‘실습을 통한 학습’ 경험을 쌓을 수 있습니다. 캐글 그랜드마스터인 콘라트 바나헤비치와 루카 마사론이 데이터 과학 대회와 프로젝트에서 성공하는 데 필요한 기술과 비법을 하나로 모았습니다. 다양한 경험을 통해 쌓인 모델링 전략과 각종 지식을 토대로 데이터 과학자로 성장하는 방법을 여러분에게 전수합니다.

 

그랜드마스터와 마스터 등급에 오른 캐글러 31명의 솔직한 인터뷰도 담았습니다. 이들이 가감 없이 공유하는 초창기에 저지른 실수와 깨달은 교훈을 통해 데이터 과학 세계에서 살아남는 데 필요한 인사이트를 얻어보세요. 그랜드마스터가 대회나 프로젝트를 시작할 때 사용하는 접근법과 서로 협력하는 법, 도구까지 여러분 것으로 만드세요. 길목 곳곳에 숨겨진 보물을 찾다보면 어느새 데이터 과학에 자신감이 붙은 여러분을 발견할 수 있을 겁니다.

 

700px_상세이미지_데이터 과학 레벨 업 with 로드맵.png

콘라트 바나헤비치 저자

콘라트 바나헤비치

암스테르담 자유 대학교에서 통계학 박사학위를 받았다. 신용 리스크의 극단적 종속성 모델링의 문제를 연구했으며 튜터로서 석사 과정 학생들을 지도하기도 했다. 박사 과정을 마친 후 몇 년 동안 여러 금융 기관에서 일하며 다양한 양적인 데이터 분석 문제를 다뤘다. 이 과정을 통해 데이터 제품 수명 주기의 전문가가 되었고, 금융 분야에서 극과 극에 있는 고빈도 거래와 신용 리스크 등의 주제를 연구했다.

루카 마사론 저자

루카 마사론

10년 이상의 경력을 지닌 데이터 과학자로 데이터를 똑똑한 물건으로 변신시키거나 실제 문제를 해결하며 사업과 이해 관계자들에게 유용한 가치를 창조한다. 데이터 과학 대회에서 전세계 순위 7위에 오른 캐글 그랜드 마스터이자 머신러닝 분야의 구글 디벨로퍼 엑스퍼트(GDE)이다. AI, 머신러닝, 알고리즘 분야 베스트셀러 도서를 쓴 작가로 『실전활용! 텐서플로 딥러닝 프로젝트』(위키북스, 2018), 『파이썬으로 풀어보는 회귀분석』(에이콘, 2018) 등을 집필했다.

김형민 역자

김형민

동국대학교에서 일본어 교육학을 전공했고 프리랜서 통번역가로 활동했다. 이후 떠올린 아이디어들을 구체화할 수 있는 프로그래밍에 매력을 느껴 프로그래머가 되기로 했고 지금은 일본에서 웹 개발을 하고 있다. 번역한 도서로는 『친절한 딥러닝 수학』(한빛미디어, 2021), 『다양한 그래프, 간단한 수학, R로 배우는 머신러닝』(영진닷컴, 2019), 『프로그래밍 언어도감』(영진닷컴, 2018) 등이 있다.

PART I 캐글 사용법

 

CHAPTER 1 캐글과 데이터 과학 대회

_1.1 데이터 과학 대회 플랫폼의 부상

__1.1.1 캐글 대회 플랫폼

__1.1.2 다른 대회 플랫폼

_1.2 캐글 소개

__1.2.1 대회의 스테이지

__1.2.2 대회의 유형과 예시

__1.2.3 제출과 리더보드 역학

__1.2.4 컴퓨팅 리소스

__1.2.5 팀 구성과 네트워킹

__1.2.6 성과 등급과 순위

__1.2.7 비판과 기회

_1.3 요약

인터뷰 | 01 - 코드를 공유하고 토론하는 커뮤니티, 캐글

인터뷰 | 02 - 프레임워크의 중요성

 

CHAPTER 2 캐글 데이터 세트

_2.1 데이터 세트 준비하기

_2.2 데이터 수집

_2.3 데이터 세트로 작업하기

_2.4 구글 코랩에서 캐글 데이터 세트 사용하기

_2.5 법적 주의 사항

_2.6 요약

인터뷰 | 03 - 좋은 데이터 세트를 만드는 법

 

CHAPTER 3 캐글 노트북

_3.1 노트북 설정하기

_3.2 노트북 실행하기

_3.3 노트북 깃허브에 저장하기

_3.4 노트북 최대로 활용하기

__3.4.1 구글 클라우드 플랫폼(GCP)으로 업그레이드하기

__3.4.2 한 걸음 더 나아가기

_3.5 캐글 학습 코스

_3.6 요약

인터뷰 | 04 - 경험과 실수는 성장하는 원동력

인터뷰 | 05 - 캐글 입문자를 위한 접근법

 

CHAPTER 4 토론 포럼

_4.1 포럼이 운영되는 방식

_4.2 토론 접근법

_4.3 네티켓

_4.4 요약

인터뷰 | 06 - 기술에서 벗어나 맥락에서 정보를 찾아라

 

PART II 대회를 위한 테크닉

 

CHAPTER 5 대회 과제와 지표

_5.1 평가 지표와 목적 함수

_5.2 과제의 기본 유형

__5.2.1 회귀

__5.2.2 분류

__5.2.3 서수

_5.3 메타 캐글 데이터 세트

_5.4 처음 보는 지표 처리

_5.5 회귀를 위한 지표(표준과 서수)

__5.5.1 평균 제곱 오차(MSE)와 결정계수

__5.5.2 평균 제곱근 오차(RMSE)

__5.5.3 평균 제곱근 로그 오차(RMSLE)

__5.5.4 평균 절대 오차(MAE)

_5.6 분류를 위한 지표(레이블 예측과 확률)

__5.6.1 정확도

__5.6.2 정밀도와 재현율

__5.6.3 F1 점수

__5.6.4 로그 손실과 ROC-AUC

__5.6.5 매튜스 상관계수(MCC)

_5.7 다중 분류를 위한 지표

_5.8 객체 탐지를 위한 지표

__5.8.1 IoU

__5.8.2 다이스

_5.9 다중 레이블 분류와 추천을 위한 지표

__5.9.1 MAP@{K}

_5.10 평가 지표 최적화

__5.10.1 사용자 정의 지표와 사용자 정의 목표 함수

__5.10.2 예측 후처리

_5.11 요약

인터뷰 | 07 - 전분야 그랜드마스터의 문제 접근법

인터뷰 | 08 - 장기적인 목표를 잡아라

인터뷰 | 09 - 핵심은 꾸준함

 

CHAPTER 6 좋은 검증 설계법

_6.1 리더보드 분석

_6.2 대회에서 검증의 중요성

__6.2.1 편향과 분산

_6.3 다양한 분할 전략 시도

__6.3.1 기본 훈련 세트 분할

__6.3.2 확률적 평가 방법

_6.4 모델 검증 시스템 조정

_6.5 적대적 검증 사용

__6.5.1 구현 예시

__6.5.2 훈련 데이터와 테스트 데이터의 분포 차이 처리

_6.6 누수 처리

_6.7 요약

인터뷰 | 10 - 모든 것을 검증하라

인터뷰 | 11 - 여러 아이디어로 만드는 좋은 검증

인터뷰 | 12 - 캐글은 마라톤이다

 

CHAPTER 7 태뷸러 데이터 대회를 위한 모델링

_7.1 플레이그라운드 시리즈

_7.2 재현성을 위한 랜덤 상태 설정

_7.3 EDA의 중요성

__7.3.1 t-SNE과 UMAP으로 차원 축소하기

_7.4 데이터 사이즈 축소하기

_7.5 특징 공학 적용하기

__7.5.1 쉽게 파생된 특징

__7.5.2 행과 열에 기반한 메타 특징

__7.5.3 목표 인코딩

__7.5.4 특징의 중요도 활용해서 작업 평가하기

_7.6 의사 레이블링

_7.7 오토인코더로 잡음 제거하기

_7.8 태뷸러 데이터 대회를 위한 신경망

_7.9 요약

인터뷰 | 13 - 게임처럼 접근하라

인터뷰 | 14 - 데이터 과학도 과학이다

 

CHAPTER 8 하이퍼파라미터 최적화

_8.1 기본 최적화 기법

__8.1.1 그리드 탐색

__8.1.2 랜덤 탐색

__8.1.3 분할 탐색

_8.2 핵심 파라미터와 사용 방법

__8.2.1 선형 모델

__8.2.2 서포트 벡터 머신

__8.2.3 랜덤 포레스트와 극단적 랜덤 트리

__8.2.4 그레이디언트 트리 부스팅

_8.3 베이지언 최적화

__8.3.1 scikit-optimize 사용하기

__8.3.2 베이지언 최적화 탐색 커스터마이징하기

__8.3.3 베이지언 최적화를 신경망 구조 탐색(NAS)으로 확장하기

__8.3.4 KerasTunner로 더 가볍고 빠른 모델 생성하기

__8.3.5 Optuna의 TPE 접근

_8.4 요약

인터뷰 | 15 - 배우는 게 있다면 실패가 아니다

인터뷰 | 16 - 문제와 데이터부터 이해하라

인터뷰 | 17 - 도전하는 용기

 

CHAPTER 9 블렌딩과 스태킹 설루션을 사용한 앙상블

_9.1 앙상블 알고리듬

_9.2 모델 평균화로 앙상블하기

__9.2.1 다수결 투표 알고리듬

__9.2.2 모델 예측의 평균화

__9.2.3 가중 평균

__9.2.4 교차검증 전략의 평균화

__9.2.5 ROC-AUC 평가를 위한 평균 수정

_9.3 메타 모델을 사용한 모델 블렌딩

__9.3.1 모델 블렌딩의 모범 사례

_9.4 모델 스태킹

__9.4.1 스태킹 변형

_9.5 복잡한 스태킹과 블렌딩 설루션 만들기

_9.6 요약

인터뷰 | 18 - 데이터를 이해하면 프로젝트가 시작된다

인터뷰 | 19 - 새로운 영역에 겁내지 말 것

 

CHAPTER 10 컴퓨터 비전 모델링

_10.1 증강 전략

__10.1.1 케라스 내장 증강

__10.1.2 Albumentations

_10.2 분류

_10.3 객체 탐지

_10.4 시맨틱 분할

_10.5 요약

인터뷰 | 20 - 배우고 즐겨라

인터뷰 | 21 - 모든 대회는 퍼즐을 해결하는 모험

 

CHAPTER 11 NLP 모델링

_11.1 감정 분석

_11.2 오픈 도메인 Q&A

_11.3 텍스트 데이터 증강 전략

__11.3.1 기본 테크닉

__11.3.2 nlpaug

_11.4 요약

인터뷰 | 22 - 스스로의 아이디어로 시작하라

인터뷰 | 23 - 신문사 데이터 과학자가 텍스트를 다루는 법

 

CHAPTER 12 시뮬레이션과 최적화 대회

_12.1 Connect X

_12.2 가위바위보

_12.3 산타 대회 2020

_12.4 Halite

_12.5 요약

인터뷰 | 24 - 성장을 돕는 캐글

 

 

PART III 데이터 과학 경력 관리

 

CHAPTER 13 포트폴리오 준비

_13.1 캐글로 포트폴리오 구축하기

__13.1.1 노트북과 토론 활용하기

_13.2 캐글을 넘어 온라인에 존재감 드러내기

__13.2.1 블로그

__13.2.2 깃허브

_13.3 대회 최신 소식과 뉴스레터 모니터링하기

_13.4 요약

인터뷰 | 25 - 대회에서 얻은 새로운 기회

인터뷰 | 26 - 칭찬은 캐글러를 춤추게 한다

 

CHAPTER 14 새로운 기회를 찾는 법

_14.1 대회에 참여한 다른 데이터 과학자와 관계 구축하기

_14.2 캐글 데이와 캐글 밋업에 참가하기

_14.3 주목받는 방법과 다른 직업 기회들

__14.3.1 STAR 접근법

_14.4 요약

인터뷰 | 27 - 단기적인 피드백으로 개선하는 장기 연구

인터뷰 | 28 - 비전공자의 데이터 과학 도전기

인터뷰 | 29 - 16세에 그랜드마스터가 된 이야기

인터뷰 | 30 - 캐글이 만든 커리어

인터뷰 | 31 - 대회의 목적은 우승이 아닌 배움

마무리

캐글 그랜드마스터가 안내하는 데이터 과학의 세계

 

캐글은 직접 연구하며 데이터 과학 능력을 키우는 플랫폼입니다. 흔히 알려진 대회뿐 아니라 데이터 세트와 노트북, 토론 포럼 등 다양한 서비스를 사용해 여러분의 능력을 발휘할 수 있습니다.

이 책은 캐글을 통해 데이터 과학 대회에 참가하는 방법과 대회를 통해 이름을 외부에 이름을 알릴 기회를 최대한 활용하는 방법을 소개합니다. 데이터 과학 대회만이 아니라 실무에서도 사용하는 다양한 분석 기법을 소개하며, 앞으로 어떤 문제를 만나도 당황하지 않도록 유용한 팁을 담았습니다. 이렇게 단련한 실력을 선보이고 새로운 기회를 찾는 방법까지 정리해 여러분 앞에 가이드를 제시합니다. 여기에 31명의 캐글러와 나눈 인터뷰를 담아 그들이 그랜드마스터와 마스터에 오르기까지 어떤 길을 걸어왔는지, 데이터 과학에 임하는 데 무엇이 중요한지 다양한 조언을 전달합니다.

이제 막 데이터 과학을 시작했다면, 앞으로 더 나아가는 데 영감이 필요하다면 이 책이 도움이 될 겁니다. 핵심 전문 지식을 익혀 데이터 과학에서 자신만의 여정을 시작하세요.

 

대상 독자

- 실전에서 사용하는 데이터 과학 테크닉을 경험하고 싶은 개발자

- 머신러닝/데이터 과학 공부를 시작하고 다음 단계를 고민 중인 학습자

- 데이터 과학 분야에서 진로를 고민하는 예비 개발자

 

주요 내용

- 데이터 과학 대회와 프로젝트를 시작하는 방법

- 데이터 과학 플랫폼을 활용해 역량을 키우고 경력을 쌓는 방법

- 다양한 형식의 데이터를 분석하는 비기

- 다른 참가자와 소통하며 해법을 찾는 방법

- 자기 능력을 어필하는 포트폴리오를 만드는 방법

데이터과학자레벨업with로드맵.png

 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

이 책은 데이터 과학자 혹은 데이터를 다루고 분석하는 직업에 종사하는 사람들을 위해

캐글을 통하여 어떻게 기술적인 커리어를 쌓고 자신의 커리어를 관리할 지 에 대한 내용을 담고 있습니다.

 

개인적으로는 캐글 방법론적인 내용보다도 전 세계의 이름있는 캐글러의 인터뷰 내용이 상당히 흥미로웠습니다.

 

인터뷰를 제외하면 책의 내용은 캐글을 처음 하는 사람이 반드시 잘 다지고 가면 좋을 개념들(성능지표, 비판적 사고 등..) 을 중점적으로 설명하는 느낌이 들었고 이는 꼭 처음 캐글을 접하는 사람이 아니더라도 항상 중요하게 생각해야될 덕목들이 아닌가 합니다.

 

 

인터뷰 내용만 보더라도 뭔가 캐글을 열심히 참여해야겠다는 동기부여가 마구 되는 것이

이 책의 제목처럼 레벨업을 위한 motivation 목적을 아주 잘 달성하는 것 같습니다.

 

캐글(kaggle)은 2010년에 만들어진 예측 모델 분석 대회 플랫폼입니다. 기업과 단체에서 데이터와 해결과제 및 상금을 등록하면 개인 및 팀 단위의 데이터 과학을 연구하는 학생 및 과학자들이 문제를 해결하기 위해 도전합니다.

 

머신러닝 & 딥러닝, 데이터 과학에 대해 기본기를 익혔다면 캐글을 통해서 실습하며 실력을 한 단계 업그레이드 할 수 있습니다. 그런데 막상 캐글을 도전해보려니 막막하게 느껴집니다. 시험지를 받아 들었는데 뭐 부터 해야 할 지 잘 모르겠다는 느낌이 들 때 있잖아요.

 

 

SE-4530c8c4-708e-4804-afd6-94b4ab1d3b50.jpg

 

 

 

이번에 읽은 <데이터 과학 레벨 업 with 로드맵>은 캐글을 활용하는 데 길잡이 같은 책 입니다. 10년이 넘도록 다양한 캐글 대회에 참가한 두 저자가 써 내려간 경험과 팁이 담겨 있습니다. 이 책은 데이터 과학(분석), 머신 러닝에 대한 책이 아닙니다(라고 말하니 이상하네요...). 기본적인 데이터 과학, 머신 러닝에 대한 지식을 가지고 있다는 전제를 가지고 있습니다. 

 

 

이 책은 총 3부이며, 15개의 장으로 구성되어 있습니다.

 

 

1부 : 캐글 사용법

 

2부 : 대회를 위한 테크닉

 

3부 : 데이터 과학 경력 관리

 

 

세부적인 장의 제목을 적지는 않았지만 큰 제목들만 봐도 이 책이 캐글 대회에 촛점이 맞춰져 있다는 것을 알 수 있습니다.

 

 

SE-647305a6-83c2-4424-a40c-03babeea7ebe.jpg

 

 

 

책을 단계별로 읽어가면 캐글은 무엇이고, 대회에는 어떤 것들이 있는지, 대회에서 사용하는 지표, 모델들에 대해 살펴볼 수 있습니다. 대회에 대해 약간 막연했던 궁금증들이 풀리는 것 같습니다.

 

 

 

SE-8a5ce88d-37e7-4b38-b543-99b444830875.jpg

 

 

중간중간 캐글러들의 인터뷰가 수록되어 있는데, 어떤 대회를 좋아하는지, 어떤 접근법을 사용하는지, 어떤 실수를 했었는지 등의 질문에 대한 솔직 담백한 답변들이 흥미로웠습니다. 

 

 

개인적으로는 아직은 아주 낮은 수준의 데이터 분석 지식을 가지고 있다고 생각해서 이런 대회를 거들떠 본 적도 없었는데, "실력 향상에 가장 좋은 방법은 실습!"이라는 말에 자극 받아서 한 번 도전해봐야겠다는 생각을 했습니다. 다른 책으로 기본기를 복습하고, 이 책을 꼼꼼히 실습해보며 대회를 준비해봐야겠어요.

 

 

 

SE-68a5dde8-ea74-4139-99bb-30e36e700cbc.jpg

 

 

내 나이 조금 더 젊었... 아니 어렸더라면... 이 분야를 자세히 공부해서 관련 일을 해보고 싶은데...

 

 

 "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

1_표지.jpg

 

 

 

캐글에 대한 이해와 팁들을 얻을 수 있는 유용한 책들이다. 입문 서적 느낌이긴 핮디만, 머신러닝에 대한 이해를 어느정도 가지고 있는 사람이 봐야할 책이다. 따로 강의와 책 등으로 어떤 데이터를 분석해보고 모델로 학습해서 추론까지 해본 경험이 있는 사람이라면 충분히 도전할 수 있는 책이라고 생각한다. 

 

 

2_1장.jpg

 

3_1장.jpg

 

 

 

1부에서는 캐글 대회에 대한 이해와 사이트 이용법 등 캐글 대회를 처음 나가보려는 사람들을 위한 기초적인 것들을 알려준다. 캐글노트북의 하드웨어 사양 등이나 구글 코랩과 어떤 차이가 있는지 등을 알려주는 게 꽤 유용한 부분이다. 코랩은 캐글노트북보다 대중적이지만, 캐글노트북은 그에 반해 조금 덜 알려진 듯하기 때문이다. 하드웨어 면에서는 캐글노트북이 무료버전에서는 약간 더 나은 느낌이 있긴하다. 무료 버전의 코랩과 캐글노트북을 병행해서 쓴다면, 가성비를 최대한 낼 수 있지 않을까 생각한다.

 

 

4_2장.jpg

 

 

 

2부에서는 실제 대회를 위해 알아야할 지식이나 기법 등을 알려준다. 과제와 지표, EDA, 최적화와 검증 테크닉 등등 예제를 바탕으로 설명한다. 1장의 내용을 자세히 안다면, 슥 훏어보고 2장에서 상세한 캐글 대회 예제와 팁들을 얻어가면 좋을 것 같다. 개인적으로, 평가지표에 대해 모두 다 다룬 느낌이라서 좋은 것 같다. 아무래도, 캐글은 모든 종류의 데이터 사이언스 대회를 열다보니 그런게 아닌가 싶다. 실무에서도 꽤 유용한 챕터가 아닐까 싶다.

 

이 책의 3부에서는 캐글을 활용하여 포트폴리오를 어떻게 구성하고 잡 포지션을 어떻게 찾는지 등을 알려준다. 캐글 그랜드 마스터 31명의 인터뷰 내용이 있기에 캐글에 끝판왕들에 생생한 팁들과 경험담이 꽤 유용하다. 캐글로 수상을 한다면, 왠만한 대학원 이력보다 훨씬 쳐주는 느낌이다. 이러한 팁이 시간이 지났다고 크게 변할 것 같지는 않다. 이를 자세히 읽어보고 어떻게 녹일지 잘 연구해보자.

 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

이 책은 리뷰용으로 제공 받은 책이라서, 가능하면, 좋은 얘기만 적어보려고 했지만, 그렇게 좋은 얘기를 하기가 참 어려웠습니다.

  

내용 자체는, Kaggle 사이트를 사용하는 방법과 실제 대회에 등록하고, 대회에서 결과를 내기 위한, 기존 문제들의 솔루션을 알려주는 내용이었습니다.

  

하지만, 책을 읽는 것 자체가 힘들었는데, 도대체 번역을 어떻게 한 것인지 이해가 되질 않았습니다.

 

가령, solution을 이 책은 "설루션"이라고 번역하고 있습니다. "설루션"이라고요? 이거 거의 문화 충격 수준인데.. 나중에 찾아보니 국립국어원의 외래어 표기법 규칙에 의한 표기 방식이라고 하네요

 

뭐 국립국어원에서 그렇다고 하니까, 그런 것이겠지만, 설루션은 정말이지, 책을 읽는 내내.. 독서에 방해가 되었습니다. 

 

또한, 번역이 여러가지로 이상했습니다.

 

"강력한 컴퓨터의 시간을 말 그대로 돈입니다" 같은 표현 (85page)을 보면, 과연 번역자가 관련 내용을 알고 있는 사람인지, 아니면, 그냥 영어만 잘 하는 사람이라서, 기계적으로 번역한 것인지 의심이 가는 번역들이 너무 많았습니다.

  

넘파이나 판다스 같은 라이브러리를 설명하면서, 옆에 영어를 덧붙여서 설명하는 것은 뭘까요? 이 책을 보는 사람이 넘파이/판다스가 뭔지 몰라서 따로 설명이 필요한 것일까요?

 

그리고 각주를 달아놓는 것도, 그냥 외부 홈페이지 주소를 달아놨는데, 거의 개인 블로그나 위키피디아를 통한 어휘 설명을 하고 있는데, 이건 또 뭔가 싶었습니다. 그냥 위키피디아를 찾아보라고 하든지..

 

전체적으로, 각주를 다는 기준, 각주로 달린 외부 링크의 수준, 원문의 복합표기의 기준이 읽는 동안 계속해서 눈에 거슬렸고, 또 번역 품질이, 수동태와 능동태의 혼용이라든지, 문장 구조의 생략이라든지에 따라 읽기가 너무 힘들었습니다. 

 

아니, 이런식의 수동/능동 구분과 주어 동사 관계는 맞추지 않으면서, "설루션"이라는 표기법은 열심히 지키는 것은 뭔가 싶기도 하네요. 

 

코드 자체를 설명하고 있는 것들은 볼만 했지만 (이 경우에는 아마 원문이 단문이라서, 번역 난이도가 쉬웠기 때문이 아닐까 싶습니다), 인터뷰 같은 것은 번역 퀄리티가 너무 엉망이라서 참고 읽기가 힘들 정도였습니다.

 

차라리 그냥 원서를 구해서 읽는 것이 낫지 않았을까를 진지하게 고민하게 되는 책이었습니다.

 

번역에 신경을 썼으면 좋 더 좋은 책이 되지 않았을까를 절실하게 느끼게 되는 책이었습니다.

 

도대체.. 번역 프로세스는 어떻게 되는 것이던가요? 번역자가 갖고온 작업물에 대한 검증은 편집자가 따로 하지 않나요?

 

 

-----

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

-----



 

 

 

    데이터 과학과 관련된 책이나 강의를 이것 저것 보고 있지만 업무에서 실제로 사용하지 않는 경우에는 감각을 유지하기 어렵고 금방 잊어 버려서 아쉬움이 많이 있을 겁니다. 프로그래밍, 알고리즘을 연습할 수 있는 다양한 사이트나 대회가 있듯이 데이터 과학에서도 가장 유명한 대회 플랫폼인 캐글이 있습니다. 이 책은 캐글을 어떻게 활용할 수 있는지, 문제를 어떤 방식으로 해결하는지 등 캐글의 생태계를 활용하고 재미있게 놀 수 있는 방법을 설명하고 있습니다. 이제 막 데이터 과학자가 되려고 이론을 공부한 사람들에게 적절한 책이라고 생각됩니다.

 

 

 

 

    『데이터 과학 레벨 업 with 로드맵』은 캐글의 창립자이자 전 CEO 인 앤서니 골드블룸이 추천사를 작성한 책으로 통계학 박사이자 금융 관련 데이터 과학자인 Konard 와 캐글 그랜드 마스터 중 한 명인 Luca 가 작성한 책으로 이미 저자와 추천사만으로도 검증이 끝난 책이라고 봐도 무관할 것 같습니다. 누가 캐글에 있어서 만큼은 이 책을 평가할 수 있을까요. 주요 내용으로는 이제 막 데이터 과학에 입문을 마친 개발자들이 문제 해결하는 방법을 배우는 부분과 실무에서 유용한 팁들 설명하는 것으로 구성되어 있습니다. 가볍게 책을 살펴보면서 어떤 것을 배울 수 있는지 살펴보도록 하겠습니다.

 

 

 

 

    『데이터 과학 레벨 업 with 로드맵』은 캐글에 대한 소개와 사용 방법, 포럼 등을 소개하는 Part 1. 캐글 사용법, 대회 그 자체를 소개하며 다양한 기법들과 문제 해결 방법을 배울 수 있는 Part 2. 대회를 위한 테크닉 그리고 친절하게도 우리의 미래까지 챙겨주려는지 데이터 과학 관련 포트폴리오를 관리할 수 있는 방법 외 다양한 정보를 알려주는 Part 3. 데이터 과학 경력 관리까지 총 3개의 파트로 구성되어 있습니다.

 

 

 

 

    Part 하나 하나에 들어 있는 정보들도 정말 좋지만 다른 책과의 가장 큰 차이점은 뭐니뭐니해도 수 많은 캐글 그랜드 마스터들의 인터뷰가 아닐까 싶습니다. 각 데이터 과학자들이 주로 다루는 데이터와 소속된 도메인이 다른 것도 재미 있고 특정 문제를 어떻게 해결했는지 아이디어를 소개하는 부분도 정말 흥미롭습니다. 

 

 

 

 

    일례로 한 캐글 그랜드 마스터가 "대회에서 어떤 실수를 해봤나요?" 라는 질문에 한 답이 가장 기억에 남습니다. 

 

제가 한 가장 큰 실수는 대회에 참가하지 않은 것이에요.

플랫폼에 들어온 초보자라면 저지르는 가장 크고 기본적인 실수라고 생각해요.

 

 

 

 

    인터뷰의 내용 그 자체가 사실 이 책을 구성하는 파트들과 관련이 깊습니다. 이들의 질문과 답변에서 캐글 대회의 문제 해결 방법을 배울 수 있고 접근하는 방법들도 살펴 볼 수 있었습니다. 인터뷰 12는 질로우의 데이터 과학자네요. 부동산에 의료에... 정말 다양한 분야의 데이터 과학자들이 전 세계에서 활동하고 있는 것을 보면 새로운 자극을 받습니다.

 

 

 

 

    이 책의 핵심은 다양한 문제 해결 방법을 설명하는 것이기 때문에 각각의 기술들이나 이론에 대해서 깊게 설명하지는 않습니다. 다만 필요한 기술을 설명할 때는 소스코드와 함께 간략하게 설명하긴 합니다. 다만 데이터 과학의 입문자를 위해 쓰여진 책은 아니기 때문에 이 책으로 공부를 시작한다는 것은 조금 힘들 수도 있을 것 같습니다. 다른 책을 함께 본다면 더 큰 시너지를 얻을 수 있을 것 같습니다.

 

 

함께 보면 좋을만한 데이터 과학 교재

 

 

 

 

 

    가장 주목할 점은 책이 단순히 정보를 제공하는 정도에서 끝 마치지 않으려고 한 노력이 보인다는 것입니다. 단순히 데이터 과학이 재미가 있어서 공부하는 사람들도 있겠지만 대부분의 개발자는 자신의 커리어 개발을 위해 공부하는 경우가 많기 때문입니다. 이 책의 마지막 Part 3. 데이터 과학 경력 관리에서는 이와 관련된 정보를 가볍게나마 알려줍니다. 역시나 개발자 답게 다양한 커뮤니티 활동과 포트폴리오의 관리 등을 적극 권장하고 있습니다. 

 

 

 

 

    다른 무엇보다 가장 먼저 쉽게 할 수 있는 것은 관련 내용을 받아 보면서 흥미를 키워보는 것이 아닐까요? 큰 노력없이 지금 바로 할 수 있는 것으로 캐글의 뉴스레터를 받아보는 것을 시작해보면 좋겠습니다. 어떤 것 인지 궁금하고 흥미가 생길 때, 그 때 시작해도 결코 늦지 않을 거라고 생각합니다. 내용을 떠나서 개발자로서 많은 생각을 하게 해주는 책이네요.

 

끝.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

[나의 한줄 추천사]

- 글로벌 데이터 분석 대회 플랫폼 "캐글"을 통한 데이터 분석가로 성장할 수 있는 로드맵이 궁금하다면 이 책을 보라.

[책 추천 이유]

- 데이터 분석을 하려면 데이터가 있어야 하는데 데이터를 구하는 것이 현실적으로 대단히 어렵다. 데이터를 막상 구했다면 분석하려는 환경이 있어야 하는데, 이 모든 것을 지원해주는 곳이 "캐글" 이다. 이 책에서는 "캐글"에서 데이터 분석 방법론 과 성장할 수 있는 로드맵을 제시해 준다.

[내가 찾고자 했던 질문들]

  1. 캐글 그랜드 마스터가 되려면 어떻게 해야하나?

  • 그랜드 마스터 31인의 인터뷰를 읽어보면 공통된 부분이 있다. 바로 "꾸준함" 이다. 리더보드 스코어에 집중하다보면 지치고, 힘들때가 있는데, 꾸준하게 대회에 참여하고 꾸준하게 코드를 분석하고 제출하는 것을 해야 가능하다는 것이다. 약간 뻔한 이야기이지만 가장 많이 와닿는 글이었다.

2. 캐글 통해서 데이터 분석가로 성장하는 방법?

  • 코드공유 및 디스커션을 잘 활용한다. 코드 공유을 통한 남의 코드을 빠르게 학습하고, 나만의 리파지토리에 저장하여 필요할때 꺼내 쓸 수 있게 정리해둔다. 그리고 디스커션 부분은 대회 중 중요한 힌트들이 올라와서 공유될 수 있기 때문에 꾸준히 모니터링하여 순간 순간 나의 코드에 반영해 볼 수 있으면 더 좋다. 

  • 다양한 데이터 유형 대회에 참가하므로써 새로운 도메인 및 문제들을 배우고, 해결해보는 습관을 들이면 훌륭한 데이터 분석가로 성장할 수 있다.

  • 블로그, 깃헙 등을 캐글 프로필에 연결해두면 하나의 포트폴리오로 활용할 수 있는 주요한 포컬이 될 것이다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

IT에서 오래 있긴 헀지만, 이 분야 만큼 배우기 쉬운 것도, 혹은 어려운 분야도 없습니다.

배우기 쉽다는 것은 그 만큼 시작하기에 참고할 자료가 많다는 뜻 이며, 어렵다는 것은 도대체 어디서 시작해야 하고, 어떤 커리큘럼으로 배워야 할지 막막하기 때문입니다. 금방 의욕적으로 시작하다가도 내가 실습하는 프로그램과 책의 버전이 조금이라도 달라도 막히는 부분이 나오기도 하고, 제대로 이해하려면 수학적인 지식을 요구하기도 합니다.

 

​그런 의미에서 이번에 한빛미디어에서 나온 "데이터 과학 레벨 업 with 로드맵" 이러한 어려움을 다소나마 낮춰주는 책이라고 할 수 있습니다. 

 

KakaoTalk_20230528_160042897.jpg

 

다른 프로그래밍 서적과 다르게 이 책의 서두는 "캐글 Kaggle" 대회에 대한 설명으로 시작합니다. 프로그래밍 대회의 하나 인데, 다소 생소할 수도 있습니다. 

 

지금 이 리뷰를 쓰는 시점에서 캐글에 들어가보면 여러 대회 중에 현재 구글에서 런칭한 대회가 있는데, 손동작을 인식하는 대회에 총 상금이 20만 달러 입니다. 

 

꼭 1등이 아니더라도, 대회 참가하고 코드를 고민하고 여러 참가자와 토론하는 것 만으로도 충분히 데이터 과학에 대한 지식을 쌓으리라 생각합니다. 무엇보다 중요한 것은 그 과정을 즐겁게 하는 것이라고 필자는 말합니다. 문제 해결 만큼 즐거운 일이 또 있을까요?

 

그래서 2장까지 캐글에 대한 사용법과 데이터셋에 대한 준비를 간략하게 소개합니다.

 

그리고 파트 2 부터 대회에 대한 테크닉을 다루게 됩니다. 하이퍼마라미터 최적화, 블렌딩과 스태킹 설루션을 사용한 앙상블, 컴퓨티 비전 모델리와 NLP모델링 등입니다. 

또 이 책의 즐거운 점(?)은 각 챕터가 끝날 때마다 캐글 사용자들의 인터뷰가 깨알 같이 들어 있습니다. 

 

각 인터뷰를 읽으면 정말 다양한 사람들이 다양한 분야에서 데이터과학을 활용하고 있다는 것을 느끼게 됩니다. 

 

​그리고 파트 3에서는 데이터 과학 경력 관리에 대하여 다루는데, 단순한 데이터과학에 대한 로드맵 뿐 아니라 커리어 관리를 어떻게 해야하는지 잘 설명해줍니다. 커리어 관리에서 가장 까다롭지만 늘 관리를 잘 해야 하는 것이 포트폴리오 인데, 캐글을 사용하면 포트폴리오 관리도 쉽게 할 수 있습니다.  단순히 쥬피터 노트북을 통한 코드 공개 뿐 아니라 데이터 셋이나, 특히 토론에 대한 내용이 회사의 인터뷰 2시간 보다 더 자신을 표현할 수 있을 것 입니다.

 

​데이터과학은 굳이 생업이라기보다 인생의 취미로서 가지고 가도 좋을 만큼 매력적인 분야라고 생각합니다. 어떠한 로드맵이던 첫 발자국이 중요한 만큼, 처음 시작하는 사람에게도 그리고 중간에서 다시 시작하는 사람에게도 좋은 책이라고 생각합니다. 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

#데이터과학 #캐글 #쥬피터노트북  #한빛미디어 #그랜드마스터

이 책을 위한 대상 독자는 데이터 과학을 입문한 초보자, 아직은 데이터 과학이 어렵고 구체적인 프로세스를 구성할 수 없는 전문가, 데이터 대회에 참여하기 위한 전문가이다. 책의 구성으로는 1부 kaggle 사용법 2부 대회를 위한 테크닉 3부 데이터 과학 경력 관리로 이루어져 있다. 2부의 비중이 가장 높고, 여기선 테크닉 설명과 전문가와의 인터뷰 방식으로 구성되어있다. 테크닉 설명과 관련된 인터뷰는 대회에 참가해서 테크닉을 어떨 때 사용해야하며 어떠한 성과를 거둘 수 있을지 대략적으로 알려주어 상당히 유용하다고 생각된다.

책을 전반적으로 훝어보았는데 완전 초보자에게 어려울 수 있는 부분이 많아서 한번이라도 대회에 맨땅으로 참여해보면서 여러가지 관련 용어와 모델링에 관해 조금이라도 공부해보고 이 책을 보길 권장드립니다. 개인적으로 가장 유용했던 파트는 여러가지 대회에서 발생되었던 문제와 이를 인터뷰어들이 어떻게 해결해갔는지의 과정이다. 정답이 없는 데이터 대회이기 때문에 여러 문제가 생길 수 있지만 대회 참여자들은 이를 알아채기도 힘들뿐더러 알아채더라도 어떻게 대처해야 하는지 막막할 때가 많았는데 이를 어느 정도 해결해줄 수 있어 가장 만족스러웠다. 또 참고 문헌도 자세히 기재되어있어 이해하기 어려운 부분이 생긴다면 그 파트에 나와있는 참고 문헌을 살펴보는 것도 좋은 도움이 될 것이다.

 

 

IMG_4172.JPG

 

IMG_4173.JPG

 

IMG_4174.JPG

 

IMG_4175.JPG

 

 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

20230528_143522.jpg

 

20230528_143546.jpg

 

 

"데이터 과학 레벨 업 with 로드맵"은 데이터 과학 대회에 참가하고 캐글이 제공하는 기회를 최대한 활용하는 방법을 설명합니다. 또한 시간과 노력을 절약할 실용적인 참고서가 되는 것을 목적으로 하여 따로 배우거나 찾기 어려운 많은 대회 팁과 요령을 다루고 있습니다.

이 책은 데이터 과학을 기초부터 가르치는 책은 아닙니다. 여러 머신러닝 기법이 어떻게 동작하는지 자세하게 설명하기보다는, 데이터 문제를 다루는 여러 머신러닝 기법을 사용하는데 있어서 최선의 방법과 최고의 결과를 얻는 방법을 설명하고 있습니다.

이 책을 이해하려면 데이터 과학과 관련한 기초 지식과 최소한의 파이썬 사용법을 기본적으로 알고 있어야 합니다. 따라서 이 책을 읽기 전에 다른 데이터 과학, 머신러닝, 딥러닝 책을 읽어보며 캐글이나 무크, edX, 코세라 등에서 제공하는 온라인 코스를 통해 훈련을 쌓는 것을 추천합니다.

이 책의 파이썬 코드는 캐글 노트북에서 바로 실행하도록 디자인되었습니다. 따라서 인터넷에 연결된 컴퓨터와 캐글 무료 계정만 있으면 됩니다. 캐글 계정은 캐글 웹사이트(https://www.kaggle.com)에서 생성하면 됩니다.

캐글 그랜드마스터인 저자 2인의 노하우와 책 내용 중간 중간에 소개되는 그랜드마스터와 마스터 등급에 오른 캐글러 31인의 솔직한 인터뷰를 통해 데이터 과학 세계에서 살아남는데 필요한 인사이트를 얻을 수 있습니다.

-- 주요 내용 --

데이터 과학 대회와 프로젝트를 시작하는 방법

데이터 과학 플랫폼을 활용해 역량을 키우고 경력을 쌓는 방법

다양한 형식의 데이터를 분석하는 비기

다른 참가자와 소통하며 해볍을 찾는 방법

자기 능력을 어필하는 포트폴리오를 만드는 방법

 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

 

 

 

글 / 사진 : 서원준 (news@toktoknews.com


 

 


본 소개 글은 한빛미디어 “나는리뷰어다” 를 통해서 도서를 제공받아 진행되었습니다. 


2023년 새해 인사를 나눴을 때가 엊그제 같은데 벌써 5월 말이다. 계절상으로는 초여름으로 넘어가는 시점이고, 날씨 또한 불안정한 편이다. 요즘 갑자기 호흡기 및 코질환 증상이 심하다는 소식이 있다.  바깥 활동을 하시는 분들은 옷차림과 건강에 각별히 신경을 써 주시기 바란다. 


얼마남지 않은 5월, 그리고 6월은 정말 중요한 달이다. 시간을 아나바다(아껴 쓰고, 나눠 쓰고, 바로 쓰고, 다시 쓴다는 것의 약어)하지 않으면 앞으로 각종 활동이 어려움을 겪을 지도 모른다. 시간 낭비하지 않고 열심히 일하고 읽고 또한 자기계발을 하려고 한다.

 

1980년대 초중반, 컴퓨터 교육을 지배했던 것은 다름아닌 프로그래밍이었다. 당시만해도 베이직, C언어 등 프로그래밍 교육 붐이 일어났는데 그 당시 모니터는 볼록 튀어나온 CRT모니터에 저장장치는 컴퓨터테이프 또는 플로피디스크였는데 요즘처럼 몇 테라바이트가 아니라 몇 킬로바이트짜리 저장장치를 써 왔다는 점이다. 


그러나 최근 들어서는 코딩 붐이 일어나고 있다. 이 코딩이라고 하는 부분은 과거 “프로그래밍”과 쓰는 말이 달라졌을 뿐 하나도 다르지 않다. 그 중심에는 빅데이터, 인공지능이 있고 데이터 과학은 코딩이 있어야 “만” 배울 수 있는 것으로 생각되어 왔다. 


 

 

 

 

 

 

 

 

 

 

 

 

 

 


최근 데이터과학이 발달하면서 다양한 서적들이 출간되고 있다. 이번에 소개하는 한빛미디어의 “데이터 과학 레벨 업 with 로드맵” 은 데이터과학의 기초적인 부분에서 심층적인 부분까지 다양한 접근 방식을 제공하고 있는데 이 책에서는 특히 캐글의 사용법에 대해서 설명하고 있는 부분이 특징이라고 하겠다. 


이 책은 데이터 과학자들이 그랜드 마스터로 올라서는 비법을 자세하게 설명하고 있는데, 특히 데이터 과학 플랫폼 캐글을 이용한 다양한 실습 예제를 풀어 봄으로써 캐글에 대한 적응력을 향상시켜 줌은 물론 캐글을 이용한 각종 경진대회에 참가할 수 있도록 잘 정리되어 있다. 


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


도서 소개를 마치면서


캐글 그랜드마스터인 콘라트 바나헤비치와 루카 마사론이 데이터 과학 대회와 프로젝트에서 성공하는 데 필요한 기술과 비법을 하나로 모은 내용으로 구성되어 모델링 전략과 각종 지식을 토대로 데이터 과학자로 성장하는 방법에 대해서 자세하게 설명한 책이다. 필자로서는 데이터과학에 대해서 배울 기회라 판단되어 읽어보고 있지만 캐글 및 데이터과학 초심자들은 해당 지식을 다른 책으로 먼저 이해하고 나서 이 책을 읽는다면 이해하기 훨씬 쉬울 것이다. 

 

 

캐글은 데이터 분석, 과학분야를 공부하고 싶은 사람들에게 널리 알려져 있는 사이트이다. 기본적인 이론 학습부터 시작하여 대회까지 전세계 사람들과 다양한 분야에 대해서 자신의 실력을 비교해보고 공부해 나갈 수 있기 때문이다. 하지만 캐글에 대해서 잘 모르면 제대로 활용하기가 어렵다. 이 책은 그런 사람들에게 로드맵이 되어줄 것이다. 캐글에 대한 소개부터 데이터 분석, 노트북설정까지 초기 설정부터 시작해 분석을 진행하게 될 때 필요한 지식(이론)과 모델링, 설계방식, 앙상블 등 여러 부분을 다루고 있다. 이 내용을 읽고 나면 전체적인 데이터 과학에 대한 지식이 잡힐 수 있을 거라고 본다. 그리고 마지막에는 포토폴리오 관리법까지. 진짜로 로드맵을 통해 데이터 과학 레벨업을 시켜준다. 또한 이 책에서는 중간중간에 캐글 그랜드 마스터들의 인터뷰가 담겨 있어서 캐글에 대해 무엇보다 잘 알고 그 내용들을 우리에게 전달해 주기 때문에 도움이 많이 되는 내용이 담겨있다. 캐글, 그리고 데이터 과학 분야에 대해 알아가고 싶다면 이 책을 추천한다.

 

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

《데이터 과학 레벨 업 with 로드맵》은 캐글을 통해 데이터 과학 능력을 향상시키고 대회 참가를 통해 자신의 이름을 알리는 방법을 적고 있습니다. 데이터 과학 대회에 참가하는 방법과 대회를 통해 이름을 알릴 방법을 안내할 뿐만아니라, 대회에만 국한되지 않고 실무에서 사용되는 다양한 분석 기법을 소개하며, 데이터 과학에서 마주할 수 있는 다양한 문제에 대한 유용한 팁을 제공하고 있습니다.

CHAPTER 마다 31명의 캐글러와의 인터뷰는 그들의 경험과 조언을 통해 데이터 과학을 이제 막 시작한 새내기가 어떻게 해야 할 지 영감과 도움을 줍니다.

책은 캐글 사용법과 대회를 위한 테크닉, 그리고 데이터 과학 경력 관리에 대해 다루고 있습니다.

첫 번째 파트에서는 캐글과 데이터 과학 대회에 대한 소개와 데이터 세트, 노트북, 그리고 토론 포럼에 대해 다루고 있고.

두 번째 파트에서는 대회를 위한 테크닉으로 대회 과제와 지표, 검증 설계법, 태블러 데이터 대회를 위한 모델링, 하이퍼파라미터 최적화, 블렌딩과 스태킹 설루션을 사용한 앙상블, 컴퓨터 비전 모델링, NLP 모델링, 시뮬레이션과 최적화 대회에 대해 다루고 있습니다.

마지막으로 데이터 과학 경력 관리를 위해 포트폴리오 준비와 새로운 기회를 찾는 방법을 다루고 있습니다.

캐글을 처음 접하는 독자가 데이터 과학의 핵심 지식을 습득하고 자신만의 여정을 시작하는 데 도움이 되는 책이라 생각됩니다.

데이터 과학 분야를 공부할 때 캐글 참여는 필수적입니다.

케글에는 실생활에서 해결하고자 하는 많은 문제들이 데이터셋과 함께 있고, 여러 사람과 경쟁 및 토론하며 최적의 답을 찾아갈 수 있게 잘 만들어진 플랫폼입니다.

캐글을 시작하게 되면 몇가지 문제에 부딪히게 됩니다.

모델을 만들기 위한 학습과정에서 사용할 리소스의 문제, 그리고 최적의 답을 찾아가기 위해 모델을 선택하는 의사결정 과정입니다.

이 책에서는 최적의 답을 찾아갈 수 있도록 일련의 로드맵을 제공합니다.

데이터를 살펴보고 모델을 만들어 평가해 볼 수 있는 공간인 노트북을 사용하는 방법부터, 모델을 선택하는데 사용할 수 있는 여러 테크닉들을 상세하게 설명하고 있습니다.

이런 부류의 책들은 정해진 몇개의 문제만을 대상으로 한정된 풀이법만 제공하는데, 이 책에서는 캐글 그랜드 마스터들의 인터뷰들이 포함되어 있어 포기하지 않고 끝까지 진행할 수 있도록 힘을 줍니다.

"혼자 공부하는 머신러닝+딥러닝"이나 "핸즈온 머신러닝"을 먼저 보시고 이 책을 보시길 추천드립니다.

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

"한빛미디어 <2023 나는 리뷰어다> 에서 제공받은 책을 바탕으로 쓴 글입니다."

 

안녕하세요~!! 이번에도 거의 한달 만에 찾아왔네용,,,

회사 다닐 때보다 학교 다닐 때가 더 힘든 건 기분탓일까요,,,? 흑흑

그래도 막학년에 학생만이 할 수 있는 다양한 활동들 다 경험해보고 졸업하는 것이 제 목표랍니다!!

5월의 서평할 책은 바로 "데이터 과학 레벨 업 with 로드맵" 으로 무려 4월에 발매된 아쥬 따끈따끈한 신간입니다.

이 책은 주로 캐글에 관해 다루고 있습니다.

 

캐글에 대한 소개와 사용법, 캐글 대회를 위한 테크닉, 데이터 과학 분야에서의 경력 관리에 대한 내용이 담겨있습니다.

 

 

안녕하세요~!! 이번에도 거의 한달 만에 찾아왔네용,,,

회사 다닐 때보다 학교 다닐 때가 더 힘든 건 기분탓일까요,,,? 흑흑

그래도 막학년에 학생만이 할 수 있는 다양한 활동들 다 경험해보고 졸업하는 것이 제 목표랍니다!!

5월의 서평할 책은 바로 "데이터 과학 레벨 업 with 로드맵" 으로 무려 4월에 발매된 아쥬 따끈따끈한 신간입니다.

이 책은 주로 캐글에 관해 다루고 있습니다.

 

캐글에 대한 소개와 사용법, 캐글 대회를 위한 테크닉, 데이터 과학 분야에서의 경력 관리에 대한 내용이 담겨있습니다.

 

또한, 책 표지에도 표기되어 있는 것 처럼 중간중간에 그랜드 마스터와 마스터 등급에 오른 캐글러 31인 인터뷰가 수록되어 있구요.

 

데이터 과학 대회에서 특정 유형의 문제에 따라 어떤 평가 지표를 활용하는지 설명되어 있습니다.

 

 

캐글에 관한 소개 뿐만 아니라 테크닉 관련해서도 설명해 주고 있는데요,

캐글에서 가장 있기 있는 주제인 컴퓨터 비전과 관련된 문제를 설명합니다.

 

이미지 분류, 객체 탐지, 영상 분할 대외의 솔루션을 구축하는 전체 파이프라인을 설명합니다.

 

또한, 자연어 처리와 관련된 내용도 있구요.

 

최근 몇 년간 캐글에서 인기를 얻고 있는 새로운 유형의 대회인 시뮬레이션 대회에 대한 설명을 제공합니다.

 

 

마지막으로 캐글을 활용하여 포트폴리오를 준비하고 새로운 직업의 기회를 찾는 데 활요하는 최선의 방법을 설명하면서 캐글 활동이 경력에 미치는 긍정적인 영향에 대해 알려주고 있습니다.

이 책은 무려 !! 캐글 창립자인 앤서니 골드블룸의 추천도서입니다.

어느 정도 머신러닝/딥러닝에 관해 공부를 해보신 분이라면

이 책을 통해 실전에서 사용되는 테크닉을 배워보면 좋을 것 같습니다.

 

저는 그럼 이만 팀플하러,,, 총총

 

캐글, 태뷸러 데이터 대회 등 처음 듣는 용어들

캐글이 무엇인지 이 책을 읽으며 처음 알았다.

데이터 과학 대회와 대회에 출제되는 유형의 문제들도 처음 접해 본다.

그러면서 이 책의 제목을 다시 살펴보았다.

데이티 과학 레벨업!!

대상 독자가 일반적으로 데이터 과학을 접해보는 초보자나 데이터 과학을 살짝 맛을 본 사람이 아닌

전문가, 데이터 과학을 전문적으로 하다가 데이터 과학 대회에 참여하기 위한 전문가를 위한 책이다.

대상 독자 : 캐글 노비스(웨사이트에 가입한 회원), 캐글 컨트리 뷰터(프로필만 입력한 사용자) 를 캐글러라고 부르고,

이 책을 통해 대회에 참가하고, 머신러닝을 학습하는 사람들 대상으로 만들어진 책이다.

책의 구성

책은 크게 3부로 되어 있다.

1부 캐글 사용버

2부 대회를 위한 테크닉

3부 데이터 과학 경력 관리

주된 내용은 2부 대회를 위한 테크닉에서 소개하고 있다.

대회 과제, 태뷸러 대회를 위한 모델링, 하리퍼파라미터 최적화, 블렌딩과 스태킨 설루션을 사용한 앙상블, NLP 모델링 등을 소개하고 있다.

하나의 챕터 뒤에는 실제 대회를 참가한 전문가들의 인터뷰가 들어가 있다.

다양한 예제들과 깊이 있는 내용들이 있지만

데이터 과학의 입문자, 초보자들에게는 맞이 않는 부분들이 있다.

제목 그대로 어느 정도 수준 이상으로 올라온 전문가가 세련된 스킬을 익히거나

대회를 위한 노하우를 전수받는 느낌으로 책을 읽어 나가면 좋을 것 같다.

 

책에는 캐글러 31인 인터뷰가 수록되어있는데, 물론 한국인 분의 인터뷰도 있다고! 사실 앞 부분에는 외국인 분들만 계셔서, 이거 캐글에 한국인 없는건 아니겠지?라고 생각했는데 큰 오산이었다. 무려 캐글로 포트폴리오까지 만들 수 있고, 캐글이 실제로 경력에 도움이 되었다니.. 그리고 이 책이 그걸 모조리 도와준다니.. 이 책은 당장 데이터를 애정하는 동기들에게 강제로 선물해줄 것...

데이터 과학 레벨 업 with 로드맵

콘라트 바나헤비치, 루카 마사론 저/김형민 역 | 한빛미디어 |

데이터 과학 레벨 업 with 로드맵은 캐글대회 참가과정에서 다양한 문제들을 접한 캐글 대회 그랜드마스터 31명의 인터뷰가 인상적이다..

인터뷰를 읽으며 그들이 경험한 경험들은 독자들에게 다양한 문제에 대한 접근 방법을 알 수 있는 길잡이 역할이 될 것이다.

1.캐글 데이터 과학대회 안내와 데이터 세트, 노트북설정, 토론 포럼에 대한 상세한 설명은 캐글 대회 도전자에게 중요한 정보를 제공하고 있다.

2.대회를 위한 테크닉으로 과제와 지표, 좋은 검증 설계법과 테블러 데이터 대회를 위한 모델링, 하이퍼파라미터 최적화, 블랜딩과 스태킹 솔루션을 사용한 앙상불, 컴퓨터 비전 모델링, NLP 모델링, 시뮬레이션 최적화

3.데이터 과학 경력관리를 위한 포트폴리오 준비, 새로운 기회를 찾는 법 등으로

데이터 과학 레벨 업을 위한 경로를 안내하고 있다.

구슬이 서말이라도 꿰어야 보배,

직접 실습을 통하여 내 것으로 만드는 실행력이 중요!!!

책소개

데이터 과학자여,

그랜드마스터로 올라서는 비법이 여기에 있다.

실력 향상에 가장 좋은 방법은 실습!

데이터 과학 플랫폼 캐글에서는 다양한 대회에 참가하고 데이터 세트와 노트북, 토론을 주고받으며 ‘실습을 통한 학습’ 경험을 쌓을 수 있다. 캐글 그랜드마스터인 콘라트 바나헤비치와 루카 마사론이 데이터 과학 대회와 프로젝트에서 성공하는 데 필요한 기술과 비법을 하나로 모았다. 다양한 경험을 통해 쌓인 모델링 전략과 각종 지식을 토대로 데이터 과학자로 성장하는 방법을 여러분에게 전수한다.

그랜드마스터와 마스터 등급에 오른 캐글러 31명의 솔직한 인터뷰도 담았다. 이들이 가감 없이 공유하는 초창기에 저지른 실수와 깨달은 교훈을 통해 데이터 과학 세계에서 살아남는 데 필요한 인사이트를 얻어보세요. 그랜드마스터가 대회나 프로젝트를 시작할 때 사용하는 접근법과 서로 협력하는 법, 도구까지 여러분 것으로 만드세요. 길목 곳곳에 숨겨진 보물을 찾다보면 어느새 데이터 과학에 자신감이 붙은 여러분을 발견할 수 있을 겁니다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

#데이터_과학 #레벨_업 #로드맵 #콘라트_바나헤비치, #루카_마사론 #김형민 #한빛미디어

 

이 책의 부제는 '캐글 그랜드마스터가 알려주는 문제 해결의 기술' 이다.

나는 새로운 부제를 달고 싶었다.

 

​"캐글 좋아하세요?"

 

이 책의 저자들은 모두 캐글을 정말 좋아하는 사람이라는 생각이 들었다.

 

​나에게 Kaggle이란...

음... 동경의 대상이었다.

한 번 쯤은 그 동경만 하며 바라보기만 하던 것에 죽이되던 밥이되던 도전 해보고 싶었다.

하지만 캐글에는 이상하게도 범접할 수 없는 아우라가 느껴졌다.

그래서 이 책을 선택했다.

무엇이든 아는 만큼 보인다고...

나를 알고 적을 알면 절대 지지 않는다고 하지 않던가!

 

​이 책은 일단은 캐글이라는 말을 들어본 적이 있어야하고

캐글이 궁금하고 도전해 보고 싶은 사람들을 위한 책이다.

​또한 캐글의 대회에 참여해 보고 싶은 중급자들을 위한 책이다.

그리고 캐글 대회에서 좋은 성적을 거두고 싶어하는 고급자들이 캐글 그랜드 마스터가 알려주는 문제 해결 방법을 배울 수 있는 책이기도 하다.

즉 이 책은 캐글에 관심이 있는 모든 사람들을 위한 책이다.

 

이 책은 총 3부로 구성되어 있다.

 

1부는 캐글 사용법이 나온다.

캐글의 역사, 데이터세트를 저장하고 사용하는 방법, 캐글 노트북 그리고 토론 포럼에 대한 내용이 나온다.

나같은 초짜가 캐글을 이용하는 것은 데이터세트를 다운 받을 때 뿐이었다.

캐글이 데이터과학 대회라는 것을 알고는 있었지만 사실 나같은 초짜에게 대회는 신성불가침의 영역 같은 것이었다. 

 

하지만 1부 캐글 사용법을 찬찬히 읽으면서 내가 이용한 캐글은 그 실제 기능의 10%도 활용하지 못하고 있었구나 하는 생각이 들었다. 캐글에서 사용하는 캐글노트북에 대한 자세한 설명이 나온다. 많은 사람들이 사용하는 구글 코랩과 연동하는 방법, 또한 두 노트북의 장단점도 알려주고 있다. 나도 꼭 한 번 캐글노트북을 써봐야겠다는 생각이 들었다. 

 

 2부에서는 실제 대회를 위한 테크닉을 다룬다.

대회 과제와 지표, 데이터 탐색과 전처리, 모델링과 앙상블, 최적화와 검증 등의 테크닉을 실전 예제와 함께 설명한다. 마지막으로, 데이터 과학 대회에서 자주 출제되는 문제 유형과 해결 방법을 다룬다.

 

​'5장 대회 과제와 지표' 에서는 데이터 과학 대회에서 모델을 구축할 때 특정 유형의 문제를 위한 평가지표가 어떻게 운영 방식에 큰 영향을 미치는지 설명되어 있다. 

그동안 여러 머신러닝 책에서 봤던 지표들(예를 들자면 MSE, RMSE, 정확도, 정밀도와 재현율, F1 점수, 로그손실 등)이 총 출동 한다.

 '메타 캐글 데이터 세트'를 활용하여 캐글 대회에 대한 데이터 분석을 하여 각 대회에서 사용된 지표들을 분석하고 지표가 의미하는 바에 대해 설명한다.

이 지표들이 머신러닝 책에서는 온갖 방법론들과 함께 내 머리를 뒤집어 놓았었는데 실제 대회에서  사용된 예를 통해서  왜, 그리고 어떻게 활용되는지 보니 훨씬 이해가 잘 되었다.

 

​각 대회의 문제들을 통해서 기존 책에서 본 이론들이 어떻게 구체화되고 실제 문제에서 어떻게 사용되는지 보니(솔직히 각각의 코드까지 다 이해할 수는 없었지만) 깜깜하던 머리 속에 후레시 빛이 켜지듯한 기분이 들었다. 나같은 초급자들은 이 책에 대회에서 사용한 방법들을 이해하기 위해 다른 머신러닝 책을 옆에 끼고 같이 읽어야 했다. 캐글 노트북을 찾아보고 다른 책을 찾아 확인하고 하는 과정에서 대학교때 정말 열심히 공부했던 그 때의 내 모습을 다시 발견한 것 같아서 비록 아는 것은 없지만 엄청 뿌듯했다.

 

​마지막 3부는 캐글을 활용하여 포트폴리오를 구성하고 캐글을 하면서 일자리도 찾을 수 있는 방법들에 대해 나온다. 각 장의 마지막 부분에 캐글 그랜드 마스터 31명의 인터뷰 내용도 나오는데 3부에서 소개되는 포트폴리오를 구성하고 새로운 기획를 얻은 산 증인들도 있다. 

솔직히 이 부분은 나에게는 꿈같은 이야기였다. 

그리고 인터뷰에 나온 사람들도 뭔가 직접적으로 감흥을 불러일으키지는 못했다.

그들은 젊고 미국인이고 이미 충분한 실력을 갖춘 상태에서 캐글에 도전한 사람들이었기 때문이다.

가끔 페이스북에서 한국의 대학 연구팀이 캐글에서 상을 받았다는 소식을 보기는 했는데 이 책에 우리나라 사람들의 이야기도 있으면 얼마나 좋을까 싶었다.

 

앞에서 말했듯 이 책은 캐글을 좋아하는 사람들에게는 바이블 같은 책이라고 생각한다. 

캐글의 A 부터 Z까지 설명하고 캐글 100% 활용법에 대해 이야기 해준다.

 

​"캐글 좋아하세요?

그럼 데이터 과학 레벨 업 with 로드맵 과 함께 하세요!"

 

 

"이 책은 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성한 서평입니다 "

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

데이터 분석을 하고싶지만 데이터를 구하고 분석을 하고 리포트를 작성하는 것을 전부 다 해보는 것은 많은 시간이 걸린다.

그리고 혼자서 데이터 분석을 하는 것은 생각보다 지치고 힘든 과정이다.

이럴때 데이터 분석을 하는 다른 사람들과 같이 하게된다면 많은 도움이된다.

한국에는 데이콘이라는 사이트가 대표적이지만 세계적으로는 캐글이 대표적인 페이지다.

이 책은 캐글 사용법에 대한 책이지만, 데이터 분석을 하는 생각까지 나와있어 분석 역량도 더불어 기를 수 있다.



데이터분석 대회 사이트,

캐글의 공략법 알려주는 책이 있다!

 

데이터분석 대회 사이트?

출처 입력

여러분 코딩 배울 때 보통 백준이라는 사이트에서 코딩 문제를 풀고 채점을 맡기면서

오류를 찾고 이런 식으로 공부를 하잖아요?

 

그런데 인공지능, 데이터분석 관련도 그렇게 공부를 할 수 있는 사이트가 있어요!!

 

제일 유명한 국외 사이트인 캐글이 대표적이고요

국내에서는 데이콘이 유명하죠!

 

그런데 이 성능을 따질 때 평가 기준이 있는데요!

그 평가기준에 부합하게 잘 만들면 순위가 올라가요!

이렇게 순위를 매겨서 1등을 하면 좋잖아요?

 

그런데 처음 공모 대회에 참여하면 어떻게해야 순위가 올라가는지에 대한

전략적인 부분도 부족할 수 밖에 없는데, 그 부분을 보완해주는 책이 있더라고요!!

 

그게 오늘 소개해드릴 "데이터 과학 레벨 업 with 로드맵"입니다~!

 

 

데이터 과학 레벨 업 with 로드맵
 
데이터 과학 레벨 업 with 로드맵
 
 

 

 

본격 책 소개

 

 

1.png

 

 

이렇게 귀여운 표지입니다~!

 

 

2.png

 

3.png

 

 



 

 

 

책은 크게 3가지 분류로 나뉘어져있는데요!

 

1. 캐글 사용법

2. 대회를 위한 테크닉

3. 데이터 과학 경력 관리

 

로 나뉘어져 있습니다!

 

특히 캐글은 사이트 규모도 큰만큼 제공하는 서비스가 되게 많은데

그 서비스들도 이용하려면 어떻게 이용할 수 있는지를 찾아봐야하잖아요!

 

그런 부분까지 책에 소개되어있습니다!

 

대표적으로 캐글에서는 코랩에서처럼 바로 코딩을 할 수 있게 해주는데요!

그 방법이 책에 있더라고요!! = 캐글 노트북

 

 

4.png

 

 

이렇게 시작할 때 깔끔한 프레임에 이번 장, 챕터에서 배울 내용을 정리해줘서 좋더라고요!

그래서 그냥 처음부터 끝까지 읽는 것도 좋지만,

찾고자하는 부분을 딱딱 찾아볼 때도 좋은 거 같아요!

 

 

5.png

 

 

그리고 현직자 분들의 인터뷰가 있더라고요!

그래서 데이터과학자, 데이터사이언티스트, 데이터분석가 등등

관련 분야 희망하시는 분들께 또 다른 동기부여가 될 것 같아요~!

 

 

6.png

 

 

게다가 코드 예제가 있어서 좋아요!!

코드 없이 그냥 설명만 들으면 감이 안 올 때도 많고 어떻게 써야할지를 모르겠는데

이렇게 에제 코드가 있어서 관련된 부분을 보고 써먹을 수 있어서 좋았습니다!

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

그리고 마지막에 인덱스 부분도 있어서 정말 사전처럼 딱딱 찾아보기 좋더라고요!1

 

 

 

 

 
책 뒷표지에는 관련도서 설명도 있는데,

 

요즘 데이터분석 관련해서 관심이 많아졌는데, 관련도서까지 챙겨보고 싶네요~!

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."



 "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

이번 달에는 "데이터 과학 레벨업 로드맵"이라는 책을 수령했다. 이 책으로 말하자면, 캐글(Kaggle) 창립자께서 추천하신 책이다! 


이 책의 대상독자는 머신러닝에 대한 기본은 이해하고 있고, 캐글 대회에서 좋은 성적을 거두고 싶은 사람들 일것이다.


이 책의 특장점은


1) 캐글 그랜드 마스터들의 인터뷰를 수록했다. 그것도 무려 20여명이 넘는 사람들을 인터뷰했다! 이미 이 부분에서 이 책을 읽어볼만한 가치가 충분하다고 생각한다.


2) 캐글에서 좋은 성적을 거두기 위한 방법을 다방면으로 제시한다. 캐글 플랫폼을 전혀 몰라도 이 책을 읽으면서 따라나가면서 자신감이 생겼다. 대회의 지표부터 시작해서 validation, 하이퍼 파라미터 최적화, 모델링 등 머신러닝의 기초에 대해서 알고있다면 실세계 데이터의 대회에서는 어떻게 활용되는지를 정말 상세하게 설명해준다.


3) 여기에서 그치지 않고 데이터 사이언스 분야의 포트폴리오 준비도 할 수 있는 장이 있다. 캐글은 데이터 사이언스 분야로 나아가고자 하는 사람들에게 아주 유명한 플랫폼이다. 따라서 캐글을 통해 데이터 사이언스 문제도 해결하고 취업도 준비할 수 있게 구성되어있어 이 부분이 유용하다고 생각한다.


두고두고 읽어볼만한 책이라고 생각한다.

데이터 과학을 공부하기 위해서 캐글을 들어가봤는데, 처음에 어떻게 시작해야될 지 감이 잘 안왔다. 데이터셋도 워낙 많고, 이 데이터셋으로 어떻게 분석을 시작해야할 지 갈피잡기가 힘들었다. 그래서 캐글을 잘 활용하기 위한 책이 바로 이 책이다.

 

처음에 책 제목과 표지를 봤을 땐 초보자를 위한 가이드 느낌인가 했는데, 내용을 보니 완전 초보를 위한 느낌은 아니고 데이터 과학이 아예 처음은 아닌 정도로 알고 있으면 될 것 같다. 1부는 캐글은 어떻게 돌아가는 커뮤니티인지, 대회에는 어떤 것들이 있는지를 다루고 있다.

 

2부에서는 본격적으로 데이터를 분석하기 위한 방법을 다루고 있는데, 캐글의 대회에선 어떤 지표를 사용하여 평가하는지, 모델은 어떤 방식으로 검증해야 하는지, 하이퍼파라미터는 어떻게 조정해야 하는지, 그리고 앙상블에 대해서도 설명하고 있다. 각각을 코드로 구현하면서 코드의 각 메서드들과 파라미터들은 무엇을 의미하는지를 주로 다루고 있다. 실습을 위한 책이라기보다는 이론을 다룬 개론서에 가깝다고 느꼈다. 또 컴퓨터 비전과 NLP에 대해서도 다루고 있어 참고하면 될 듯 하다.

 

마지막 3부는 캐글을 이용해서 어떻게 경력 관리를 할 수 있는지를 다루는데, 간단히 읽어보고 참고하면 될 듯한 내용이다.

 

책 중간중간에 캐글 그랜드마스터와의 인터뷰가 들어가 있는데, 캐글을 처음 시작하는 사람들에게 도움이 될 만한 내용들이 많았다. 많은 분들의 인터뷰가 들어가 있는데, 공통적으로 하는 말이 있었다.

 

"간단한 모델부터,  순위에 연연하지 말고 데이터에 집중하고, 포기하지 말고 꾸준히"

 

캐글이나 데이콘과 같은 데이터 공모전에 관심이 있다면 참고하면 많은 도움이 될 것 같은 책이다.

 

 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

#데이터과학레벨업with로드맵

#콘라트바나헤비치

#루카마사론

#한빛미디어

 

 

KakaoTalk_20230515_152221893_03.jpg

 

캐글(Kaggle)은 데이터 분석 및 머신러닝 대회 플랫폼입니다. 캐글 대회는 데이터 분석 및 머신러닝 분야에서 진행되며, 주최자가 데이터를 제공하고 참가자들은 이를 기반으로 모델을 개발하고 최적화하여 경쟁합니다. 참가자들은 실제 데이터 분석 업무에서 경험할 수 있는 다양한 문제들을 직접 해결하면서 데이터 분석 및 머신러닝 기술을 향상시킬 수 있습니다.

 

<데이터 과학 레벨 업 with 로드맵>은 캐글을 활용하여 데이터 과학을 배우는 방법을 소개하는 책입니다. 이 책을 집필한 두 명의 저자는 10년이 넘도록 다양한 캐글 경진 대회에 참가할 정도로 경험이 풍부합니다. 저자들은 그동안 대회를 통해 쌓은 경험과 팁을 이 책을 통해 제공합니다.

 

KakaoTalk_20230515_152221893_02.jpg

 

이 책은 총 3, 15장으로 구성되어 있습니다. 캐글 사용법, 대회를 위한 테크닉, 데이터 과학 경력 관리 등을 다루고 있으며, 다음과 같은 내용을 자세히 안내합니다.

- 데이터 과학 대회와 프로젝트를 시작하는 방법

- 데이터 과학 플랫폼을 활용해 역량을 키우고 경력을 쌓는 방법

- 다양한 형식의 데이터를 분석하는 비기

- 다른 참가자와 소통하며 해법을 찾는 방법

- 자기 능력을 어필하는 포트폴리오를 만드는 방법

 

KakaoTalk_20230515_152221893_01.jpg

 

<데이터 과학 레벨 업 with 로드맵>의 특징은 데이터 과학 대회를 준비하는 방법과 실전에서 활용할 수 있는 기법들을 소개하고 있다는 점입니다. 저자들이 갖고 있는 다양한 경험을 바탕으로 실제 대회에서 충분히 활용할 수 있는 팁들이 제공되어 있습니다. 또한, 31명의 캐글러와의 인터뷰를 통해 그들이 그랜드마스터와 마스터가 되기까지의 과정과 데이터 과학에 대한 중요한 조언을 알려줍니다.

KakaoTalk_20230515_152221893.jpg 

실전에서 사용하는 데이터 과학 테크닉을 경험하고 싶은 개발자, 머신러닝·데이터 과학 공부를 시작하고 다음 단계를 고민 중인 학습자나 데이터 과학 분야에서 진로를 고민하는 예비 개발자 분들은 필수로 읽고 활용해야 하는 책입니다.

 

 

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

 

 

책소개

이 책은 총 3부 15개의 장으로 구성이 되어 있으며 

1부에서는 캐글 사용법에 대해 다루면서 캐글 대회,데이터세트,노트북 환경 및 토론포럼 사용 방법등을 다루고 있다.

2부에서는 대회를 위한 테크닉으로 대회 과제와 지표,좋은 검증 설계법,대회를 위한 모델링, 하이퍼파라미터 최적화 등 한단계 업그레이드 할 수 있는 테크닉을 다루고 있다.

3부에서는 데이터과학 경력 관리 방법으로 포트폴리오 준비와 같이 데이터 과학자로서의 경력 관리 방법을 다루고 있다.

이 책의 목적은 단순히 캐글 대회에서 우승하거나 높은 점수를 받는 법을 알리기 위한 목적이 아닌 캐글 대회를 다루는 방법과 그 경험을 최대한 활용하는 방법을 담고 있으면서 캐글플랫폼을 이용해서 자신의 역량을 키우기 위한 이유로 집필이 되었다. 

 

 

또한 그랜드마스터급 캐글러 31명의 인터뷰를 수록해서 그들이 실제 일상 업무에서 사용했던 경험등 다양한 노하우를 공유하여 처음 도전하는 캐글러들에게 어떠한 방향으로 공부를 해야 할지 알려주는 지침서이다.

 

대상독자

캐글을 통해 대회에 참가하고 머신러닝을 학습하는 모든 분

 

서평

머신러닝을 공부하다 보면 반드시 만나게 되는 캐글은 실습을 통한 학습 경험을 제공하는데 이러한 캐글의 경험은 머신러닝을 위한 근력운동과 같다.

캐글의 다양한 사례와 문제를 접하다 보면 실제로 만나게 되는 문제의 유사한 상황에도 대비가 되고 또한 데이터 과학자로서의 경력 관리 방법의 하나로서도 유용하다.

이 책은 제목과 같이 캐글러로서 성장하는 방법의 로드맵을 그려주고 있다.

처음에 캐글 사용법에서 부터 대회를 위한 테크닉을 차근 차근 들여다 보면서 최근에 인기를 얻고 있는 시뮬레이션 대회까지 캐글 그랜드마스터의 비법과 문제 풀이 방법등을 살펴 보고 있고 또한 이 책을 읽는 분들이라면 데이터 과학자로서의 진출을 바라보는 분들이기 때문에~

캐글로 포트폴리오를 구축하는 방법, 온라인에 자신의 존재감 드러내기 등을 통해 자신의 역량을 증명하는 방법등 까지 데이터 과학자로서 포트폴리오 관리 방법 등까지 다루고 있다.

특히나 31명의 그랜드 마스터급 인터뷰 내용에서 다음의 글은 인상에 깊이 남는다.

 

저는 훌륭한 질문을 하는 것이 데이터 과학자가 직면한 가장 중요한 도전이라고 생각해요.(중략) 훌륭한 질문을 던지는 건 자동화 하기 어렵습니다.

 

현재 인공지능이 우리 시대에서 하는 역할들을 감안 할 때 자동화된 솔루션들이 대부분의 역할들을 대체 하게 될 것이다. 하지만 인공지능이 제대로 일을 할 수 있도록 질문을 하는 것은 자동화 되기 어려울 것이다.

데이터과학자뿐 아니라 인공지능을 이용하는 우리에게도 꼭 필요한 내용이었던 것 같다.

 

마지막으로 이 책은 데이터과학자의 진로를 꿈꾸고 있는 분들이라면 필수로 만나 봐야 할 책이 아닐까 싶다.

 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

결제하기
• 문화비 소득공제 가능
• 배송료 : 2,000원배송료란?

배송료 안내

  • 20,000원 이상 구매시 도서 배송 무료
  • 브론즈, 실버, 골드회원 무료배송
닫기

리뷰쓰기

닫기
* 상품명 :
데이터 과학 레벨 업 with 로드맵
* 제목 :
* 별점평가
* 내용 :

* 리뷰 작성시 유의사항

글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

오탈자 등록

닫기
* 도서명 :
데이터 과학 레벨 업 with 로드맵
* 구분 :
* 상품 버전
종이책 PDF ePub
* 페이지 :
* 위치정보 :
* 내용 :

도서 인증

닫기
도서명*
데이터 과학 레벨 업 with 로드맵
구입처*
구입일*
부가기호*
부가기호 안내

* 온라인 또는 오프라인 서점에서 구입한 도서를 인증하면 마일리지 500점을 드립니다.

* 도서인증은 일 3권, 월 10권, 년 50권으로 제한되며 절판도서, eBook 등 일부 도서는 인증이 제한됩니다.

* 구입하지 않고, 허위로 도서 인증을 한 것으로 판단되면 웹사이트 이용이 제한될 수 있습니다.

닫기

해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
장바구니로 이동하시겠습니까?

자료실

최근 본 상품1