데이터과학, 최고의 교과서
사람들은 데이터가 선거나 비즈니스 모형을 바꿀 수도 있다는 점을 알게 됐다. 이에 따라 데이터과학과 관련된 직업도 많이 생겨 났다. 하지만 데이터과학은 여러 학문이 섞여 있어 올바른 가이드 없이는 쉽게 진입할 수 없다. 그렇다면 당신은 어떻게 시작할 것인가? 이 책은 컬럼비아대학교 대학원의 데이터과학 입문 수업을 바탕으로 데이터과학에 입문하려는 당신이 알아야 할 내용을 상세히 다루고 있다.
총 16개 장에 걸쳐 소개되는 강의들에서는 구글, MS, 이베이 등 데이터과학자들이 사례 분석과 직접 사용하는 코드를 제시하면서 새 알고리즘, 방법론, 모형을 공유한다. 선형대수, 확률, 통계에 익숙하고 프로그래밍 경험이 있다면 이 책은 최고의 데이터과학 입문서가 될 것이다.
【이 책의 구성】
【이 책을 읽으면!】
CHAPTER 1 소개: 데이터과학이란 무엇인가?
1.1 빅데이터와 데이터과학 열풍
1.2 열풍을 넘어서
1.3 왜 지금?
1.4 현재의 풍경(약간의 역사와 함께)
1.5 데이터과학 프로필
1.6 사고 실험: 메타 정의
1.7 데이터과학자는 정말로 어떤 직업인가?
CHAPTER 2 통계적 추론, 탐색적 데이터분석과 데이터과학 과정
2.1 빅데이터 시대의 통계적 사고
2.2 탐색적 데이터분석
2.3 데이터과학 과정
2.4 사고 실험: 여러분은 혼돈을 어떻게 시뮬레이션할 것인가?
2.5 사례 연구: 리얼다이렉트
CHAPTER 3 알고리즘
3.1 기계학습 알고리즘
3.2 세 가지 기본 알고리즘
3.3 연습문제: 기본적인 기계학습 알고리즘들
3.4 전체 요약
3.5 사고 실험: 통계로봇
CHAPTER 4 스팸 필터, 나이브베이즈, 경합
4.1 사고 실험: 예제로 배우기
4.2 나이브베이즈
4.3 좀 더 멋있게: 라플라스 평활
4.4 나이브베이즈와 k-NN의 비교
4.5 코드 예시
4.6 웹스크래핑: 기사분류를 위한 나이브베이즈
CHAPTER 5 로지스틱 회귀
5.1 사고 실험
5.2 분류기
5.3 M6D 로지스틱 회귀 사례연구
5.4 Media 6 Degrees 연습문제
CHAPTER 6 시간기록과 금융 모형화
6.1 카일 티그와 티비태그
6.2 시간기록
6.3 캐시 오닐
6.4 사고 실험
6.5 금융 모형화
6.6 연습문제: 티비태그와 시간기록 사건 데이터
CHAPTER 7 데이터에서 의미 추출하기
7.1 윌리엄 커키어스키
7.2 캐글모형
7.3 사고 실험: 로봇 평가자의 윤리적 함축성은 무엇인가?
7.4 특징 선택
7.5 데이비드 허페이커: 사회연구에 대한 구글의 하이브리드 접근법
CHAPTER 8 추천 엔진: 대규모 사용자 대면 데이터 상품
8.1 현실 세계의 추천 엔진
8.2 사고 실험: 필터 버블
8.3 연습문제: 추천 시스템 만들기
CHAPTER 9 데이터 시각화와 사기 탐지
9.1 데이터 시각화의 역사
9.2 다시 한 번, 데이터과학이란 무엇인가?
9.3 데이터 시각화 프로젝트의 사례
9.4 마크의 데이터 시각화 프로젝트
9.5 데이터과학과 위험
9.6 스퀘어 사의 데이터 시각화
9.7 이언의 사고 실험
9.8 참고사항
CHAPTER 10 소셜네트워크와 데이터 저널리즘
10.1 모닝사이드 애널리틱스에서의 소셜네트워크 분석
10.2 소셜네트워크 분석
10.3 소셜네트워크의 용어들
10.4 사고 실험
10.5 모닝사이드 애널리틱스
10.6 통계적 관점으로 본 소셜네트워크 분석의 배경
10.7 데이터 저널리즘
CHAPTER 11 인과성
11.1 상관은 인과관계를 함축하지는 않는다
11.2 OK 큐피트의 시도
11.3 황금 기준: 확률적 임상실험
11.4 A/B 검정
11.5 차선책: 관찰적 연구
11.6 세 가지의 조언
CHAPTER 12 역학
12.1 매디건의 배경
12.2 사고 실험
12.3 현대 학술 통계학
12.4 의학 문헌과 관찰 연구
12.5 계층화는 교란변수 문제를 해결하지 않는다
12.6 더 나은 방법은 없을까?
12.7 연구 실험
12.8 사고 실험을 마치며
CHAPTER 13 데이터경진대회의 교훈 : 데이터 누출과 모형 평가
13.1 클라우디아의 데이터과학자 프로필
13.2 데이터마이닝 경진대회
13.3 좋은 모형 개발자가 되는 방법
13.4 데이터 누출
13.5 누출을 피하는 방법
13.6 모형 평가하기
13.7 알고리즘 선택
13.8 마지막 예
13.9 사고를 나누기
CHAPTER 14 데이터엔지니어링: 맵리듀스, 프리젤, 하둡
14.1 데이비드 크로셔에 대해
14.2 사고 실험
14.3 맵리듀스
14.4 단어빈도수 문제
14.5 맵리듀스의 다른 예
14.6 프리젤
14.7 조시 윌스에 대해
14.8 사고 실험
14.9 데이터과학자가 된다는 것
14.10 경제성 살펴보기: 하둡
14.11 다시 조시에게: 워크플로
14.12 하둡을 시작하려면?
CHAPTER 15 수업에 대한 학생들의 소감
15.1 과정적 사고
15.2 더 이상 순진하지 않다
15.3 도와주기
15.4 여러분의 마일리지는 다를 수 있다
15.5 다리와 터널을 잇는 길들
15.6 우리 작업의 일부
CHAPTER 16 차세대 데이터과학자, 교만, 그리고 윤리
16.1 지금까지 무엇을 학습했는가?
16.2 다시 한 번, 데이터과학이란 무엇인가?
16.3 차세대 데이터과학자란?
16.4 윤리적인 데이터과학자 되기
16.5 경력에 관한 조언
웨스 맥키니(Wes Mckinney)
사카마키 류지 , 사토 요헤이
비즈니스를 위한 데이터 과학 : 빅데이터를 바라보는 데이터 마이닝과 분석적 사고
포스터 프로보스트 , 톰 포셋