데이터 과학 방법론으로 배우는 파이썬 빅데이터 분석 프로젝트
이 책은 통계적 기초 분석부터 딥러닝 기반 고급 분석에 이르기까지 데이터를 분석하고 시각화하는 핵심 방법론을 체계적으로 학습할 수 있도록 안내한다. 학습자가 데이터 과학의 개념과 파이썬 기초를 익힌 후, 18개의 프로젝트를 데이터 수집 → 준비 → 탐색 → 모델링 → 시각화의 순서로 진행할 수 있도록 구성하였다. 각 프로젝트를 실습하기에 앞서, 주요 분석 기법의 핵심 개념부터 탄탄하게 짚어주어 이론과 활용 방법을 균형 있게 습득할 수 있다.
본 도서는 대학 강의용 교재로 개발되었으므로 연습문제 해답은 제공하지 않습니다.
PART 01 빅데이터 분석 - 이해
Chapter 01 4차 산업혁명과 데이터 과학
01 4차 산업혁명의 이해
02 4차 산업혁명을 실현하는 데이터 과학
03 4차 산업혁명 서비스 사례
요약
연습문제
Chapter 02 빅데이터의 이해와 활용
01 빅데이터의 이해
02 빅데이터의 활용
요약
연습문제
Chapter 03 데이터 과학 기반의 빅데이터 분석
01 빅데이터 산업의 이해
02 빅데이터 분석 방법과 접근법
03 빅데이터 분석을 위한 데이터 과학 방법론
요약
연습문제
차례
PART 02 빅데이터 분석 - 준비
Chapter 04 파이썬 프로그래밍 기초
01 파이썬 시작하기
02 변수와 객체
03 자료형과 연산자
04 조건문과 반복문
05 함수
06 파일 처리
07 데이터 분석을 위한 주요 라이브러리
요약
연습문제
Chapter 05 오픈 API를 이용한 빅데이터 크롤링
01 네이버 API를 이용한 크롤링
1 크롤링이란
2 네이버 개발자 가입
3 네이버 뉴스 크롤링
02 공공데이터 API 기반 크롤링
1 공공데이터 활용 신청
2 공공데이터 크롤링
요약
연습문제
Chapter 06 웹페이지 분석 기반 빅데이터 크롤링
01 정적 웹페이지 크롤링
1 정적 웹페이지 크롤링 준비
2 정적 웹페이지 크롤링 실습
02 동적 웹페이지 크롤링
1 동적 웹페이지 크롤링 준비
2 동적 웹페이지 크롤링 실습
요약
연습문제
PART 03 빅데이터 분석 - 기본 프로젝트
Chapter 07 통계 분석
01 [기술 통계 분석 + 그래프] 와인 품질 등급 예측하기
02 [상관 분석 + 히트맵] 타이타닉호 생존율 분석하기
Chapter 08 텍스트 빈도 분석
01 [영문 분석 + 워드클라우드] 영문 문서 제목의 키워드 분석하기
02 [한글 분석 + 워드클라우드] 한글 뉴스 기사의 키워드 분석하기
Chapter 09 지리 정보 분석
01 [주소 데이터 분석 + 지오맵] 지리 정보 분석 후 맵 생성하기
02 [행정구역별 데이터 분석 + 블록맵] 행정구역별 의료기관 현황 분석하기
PART 04 빅데이터 분석 - 머신러닝/딥러닝 프로젝트
Chapter 10 회귀 분석
01 [회귀 분석 + 산점도/선형 회귀 그래프] 항목에 따른 자동차 연비 예측하기
02 [선형 회귀 분석 + 산점도/선형 회귀 그래프] 대기오염 데이터와 미세먼지의 연관성 분석하기
Chapter 11 분류 분석
01 [로지스틱 회귀 분석] 특징 데이터로 유방암 진단하기
02 [결정 트리 분석 + 산점도/선형 회귀 그래프] 센서 데이터로 움직임 분류하기
Chapter 12 군집 분석
01 [K-평균 군집화 분석 + 그래프] 타깃 마케팅을 위한 소비자 군집 분석하기
Chapter 13 텍스트 마이닝
01 [감성 분석 모델링] 영화 리뷰 데이터로 감성 분석 모델링하기
02 [감성 분석 + 바 차트] 챗GPT 뉴스 텍스트의 감성 분석하기
03 [토픽 분석 + LDA 토픽 모델] 뉴스 텍스트에서G 챗PT 토픽 분석하기
Chapter 14 딥러닝 기반 분석
01 [LSTM 시계열 분석] 주가 시계열 분석하기
02 [Prophet 시계열 분석] 100일 후의 주가 예측하기
03 [CNN 이미지 분석] 숫자 이미지 분류하기
04 [CNN 이미지 분석] 강아지 품종 분류하기
부록
01 아나콘다 주피터 노트북 설치 및 사용하기
02 개발자 모드 사용하기
03 KoNLPy 라이브러리 설치하기
1부. 빅데이터 분석 – 이해(1~3장)
4차 산업혁명, 데이터 과학, 빅데이터의 관계를 이해하고, 데이터 과학 방법론을 적용하는 빅데이터 분석에 대해 이해한다.
2부. 빅데이터 분석 – 준비(4~6장)
데이터 과학 기반의 빅데이터 분석에 필요한 파이썬 프로그래밍을 배운다. 특히 파이썬을 이용한 데이터 크롤링은 유용한 빅데이터 수집 방법이므로 잘 알아두도록 한다.
3부. 빅데이터 분석 – 기본 프로젝트(7~9장)
데이터 과학 방법론과 빅데이터에 대한 이해를 바탕으로 기본적인 빅데이터 분석 프로젝트를 수행한다. 통계 분석, 텍스트 빈도 분석, 지리 정보 분석을 시각화 기법과 함께 파이썬 프로젝트로 진행한다.
4부. 빅데이터 분석 – 머신러닝/딥러닝 프로젝트(10~14장)
먼저 머신러닝 기반의 빅데이터 분석 프로젝트를 수행한다. 머신러닝의 지도 학습 방식인 회귀 분석과 분류 분석, 비지도 학습 방식인 K-평균 군집화를 프로젝트로 다루고, 텍스트 마이닝 프로젝트를 수행한다. 딥러닝 기반 빅데이터 분석에서는 LSTM 모델을 사용한 시계열 분석, CNN 모델을 사용한 이미지 분류 프로젝트를 수행한다.
부록
프로젝트 실습에 필요한 아나콘다 주피터 노트북 설치 방법 및 사용 방법을 안내한다. 또한 웹 브라우저에서 개발자 모드를 사용하는 방법과 한글 텍스트 분석을 위한 KoNLPy 라이브러리 설치 방법을 제공한다.
자료명 | 등록일 | 다운로드 |
---|---|---|
예제소스 | 2024-12-19 | 다운로드 |