이 책은 2019년에 나왔던 책의 개정판이라고 한다. 1판과 달리 2판에서는 사이킷런 1.0버전에 맞게 바뀐 내용을 표기해서 적고 있고, 책의 전반적인 내용도 머신러닝을 다루고 있기에 사이킷런에 대한 모든 클래스와 함수들을 살펴보는데 주력을 하고 있다.

이 책의 가장 좋은 점은 물 흐르듯 설명을 이어나간다는 점을 들 수 있을 것 같다. 코드와 이론을 병행하면서 모델에 대한 기본적인 이해를 사용한 후 어떤 상황에서 어떤 함수를 써야하는지를 코드로 보여주고 있어 지식과 실습을 겸비할 수 있어 무척 좋다고 느껴졌다.

또한 어떻게 데이터를 전처리 하는지를 데이터의 유형에 따라 세부적으로 나뉘었으며, 이를 바탕으로 어떤 모델을선택할지, 어떤식으로 분석할지 일련의 과정을 하나하나 세세히 설명하고 있어, 정말 이 책 한권이면 추후에 어느 모델로 어떤 데이터를 분석하더라도 금방금방 찾아서 확인할수 있을 좋은 내용의 책이란게 느껴졌다. O'REILLY에서 낸 건 늘 믿을만 했는데, 이번 책에서도 그 점이 잘 느껴졌다.

사실 최근 딥러닝이 주목을 받기에 상대적으로 단순하다고 느껴지는 머신러닝이 덜 주목을 받고 있어 나조차도 관심이 소홀하다고 느껴지는게 많았는데, 이 책의 내용을 차근차근 살펴보니 생각보다 정리해야하는 내용이 많다는것이 느껴졌고, 그만큼 알차고 좋은 내용이 많다는 것도 잘 다가왔다. 머신러닝의 모델 뿐 아니라 어떤 식으로 더 고도화를 할지, 더 적합한 데이터셋을 만드는지에 대한 노하우도 잘 실려있어서 전반적인 모델을 사용한 프로젝트에 큰 도움을 줄 수 있다고 느껴진다.

swan***l2021-10-01

[서평] 파이썬 데이터 분석 - 데이터 분석가 추천 도서

gand***l2021-09-23

파이썬 데이터분석의 교과서

hki***l2021-09-22

분석가에게 추천하는

프로그래밍 언어 관련 <책>을 손에 쥔다는 것

이전에도 파이썬 관련 도서의 서평을 썼습니다. 이번에도, 여전히, 그리고 파이썬에만 국한되지 않은 권고사항이 있습니다.

" 파이썬을 아직 설치도 해보지 않은 분들 보다는 최소한 작은 프로젝트라도 해보신 분들께 <책>을 추천드립니다. "

물론 저는 처음부터 책으로 학습한게 아니기 때문에 완벽하게 표본을 비교할 수는 없지만, 저도 배울 때 문법 책 1페이지부터 시작하라는 추천을 받은 적은 없습니다. 대신 강의로 파이썬을 입문하고, 90% 구글링으로 작은 프로젝트를 해보고, 그 빈도가 조금씩 줄어드는 시점에서 <책>을 손에 쥐었습니다.

그렇기 때문에 책을 한 장 한 장 넘길 때 마다 아하 모먼트가 이어졌습니다. 처음부터 책을 보기 시작하면 지루하겠지만요. 나도 모르게 이해는 안 되지만 관성적으로 쓰던 것들의 원리를 알게 되니까요. 아는 게 많아질수록 더 효율적인 코드를 짜게 되는 건 물론입니다.

왜, <파이썬 라이브러리를 활용한 데이터 분석>일까?

얼마 전에 데이터 관련 라디오를 듣다가 공감했던 이야기가 있습니다. " 데이터분석가도 파이썬 같은 프로그래밍 언어를 사용하지만, 개발을 하는 건 아니다. " 실제로 자주 사용하는 라이브러리가 개발자 분들과는 조금 다르지요. 가장 많이 사용하는 Pandas 라이브러리만 해도 개발 보다는 분석에 최적화 되어 있습니다.

서점에서 '영어' 학습서를 파는 곳을 가보면 종류가 참 다양합니다. 기본적인 문법서부터 시작해서, 비즈니스 영어, 일상영어 등 목적에 따라서 같은 언어인데도 참 다릅니다. 이렇게 생각하면 쉽지요!

파이썬 문법서를 보는 것도 언어 자체를 이해하는 데에 도움이 많이 되지만, 아무리 두껍고 자세한 문법책이라도 모든 영역을 자세하게 다룰 수는 없습니다. 따라서, '데이터 분석'이라는 목적에 특화된 이 책이 특별한 겁니다. 데이터 형식 같은 기초 문법을 설명하더라도 실제로 데이터 분석에 활용하는 것을 가정하기 때문에, 훨씬 친숙하고 도움이 되지요.

어떻게 활용하면 좋을까? (feat. 구글링)

기본 문법부터 고급 기능까지 포괄하고 있습니다. 기초 문법과 라이브러리는 물론이고,IPython 과 주피터노트북과 같은 유용한 툴에 관해서도 언급하고 있습니다. 파이썬 101 까지는 아니지만, 데이터분석을 위한 파이썬 101 정도는 되겠습니다. 저도 실제로 처음부터 가볍게 실습하면서 읽었는데, 상당히 도움이 되었습니다.

현업에서는 분석 자체가 중요하기 때문에 빠른 구현이 중요합니다. 그만큼 구글링이 필요하지요. 일단 어떻게 하는 건지는 이해가 되고, 어떤 문법을 쓰면 어떤 결과가 나오는지는 이해가 됩니다. 하지만 애초에 구글링을 할 때 자세한 이론적 설명 보다는 빠른 사용법을 찾습니다. 그래서 책을 통한 학습이 송송 구멍이 난 부분을 채워주지요.

만약 파이썬 기초 학습은 했는데, Pandas 는 써보지 않은 분들이라면 해당 챕터부터 시각화 부분, 분석예제까지는 그대로 따라서 실습해보시는 것도 추천합니다. 물론 한 번 따라한다고 전부 기억할 수 없으니 구글링은 계속 하게 되는데요. 뭐가 있는지도 모르고 구글링 하는 것과 키워드 정도는 알고 구글링 하는 건 전혀 다르답니다! 이때 중요한 건 눈으로 읽으면서 '이런 게 있구나'에 그치지 않고 직접 따라해보는 겁니다!!

저는 현업에서도 파이썬을 사용해본 정도의 수준인데, 그래서 더 재미있었습니다. 원래 복습-복습-복습은 숙명이고.. 숨겨진 꿀 기능을 찾고, 더 빠르고, 가독성 높고, 효율적인 코드를 짤 수 있게 해주죠. 파이썬 문법책을 꼼꼼히 읽어봤다면 그 부분은 실습까지는 아니어도, 앞서 이야기한 것처럼 '분석가 입장에서는 이런 문법을 이렇게 생각할 수 있구나' 느끼면서 읽어보시는 걸 추천드립니다!

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

enur***l2021-09-22

데이터 분석 이론이 아니라 파이썬과 라이브러리를 활용해서 실습 경험을 쌓을 때 도움되는 책

hayj***l2021-09-21

파이썬이랑 한판 놀기

dong2***l2021-09-20

[리뷰] 파이썬 라이브러리를 활용한 데이터 분석(2판)

moo***l2021-09-17

파이썬 라이브러리를 활용한 데이터 분석(2판)을 읽고

이 책을 본 순간 처음 드는 느낌, '와 두껍다'. 무려 700 페이지에 육박하는 도서였습니다. 책 두께가 두꺼운 만큼, 내용도 많다는 의미겠지요. 반면에 어려운 내용을 잘 풀어서 설명해서 처음 접근하는 사람이 그나마 덜 부담스럽게 느낄 수 있는 책이라고도 볼 수 있습니다. 이 책은 바로 그런 책이라는 생각이 듭니다.

책의 작가인 웨스 맥키니는 pandas 프로젝트를 시작한 사람입니다. 데이터 분석에 관한 책이면서, 파이썬 라이브러리를 활용하는 것이라고 제목에 나타나있지만, 실은 책의 대부분의 내용은 pandas 에 대한 내용으로, pandas 설명서라고 불러도 과언이 아닐 듯 합니다. 어느 책에서나 대체로 그러하듯이, 초반에는 예제를 사용하기 위한 환경과 기초 개념에 대한 설명이 있습니다. 4장에 이르러서 numpy에 대한 기본 내용을 다룹니다. 이후 5장부터 12장까지는 pandas 사용법에 대한 내용입니다. 데이터 분석에 pandas 라이브러리가 얼마나 큰 비중을 차지하고 있는지 알 수 있는 단적인 내용입니다. 하지만, 그 뒤에 13장에서는 Patsy, statsmodels, scikit-learn 과 같은 모델링 라이브러리를 사용하는 방법과 14장에서 데이터 분석도 다루고 있기 떼문에, 데이터 분석이라는 분야에서 필요한 부분을 폭넓게 다루고 있다고도 생각합니다. 또 appendix에서는 앞에서 기본만 다룬 numpy를 좀 더 심층있게 다루고 있고, IPython 사용법도 다루고 있기 때문에 데이터 분야의 개발을 담당하는 사람에게는 실용적인 책일 것입니다.

개인적으로는 파이썬을 접할 기회가 적어서, 다른 기술 문서의 코드를 보면서, 대략 이러하게 진행되는구나 정도만 파악했는데, 파이썬 기초를 다루고 있고, 개념을 간단 명료하게 잘 설명해줘서, 그 뒤에 이어지는 numpy나 pandas 사용 코드를 보는데도 상당히 도움이 되었습니다. 특히 슬라이싱과 값 분리하기 등과 같은 개념은 pandas의 기본 자료형인 Series와 DataFrame을 이용하는 코드에서는 필수적으로 이해해야 하는 내용인데, 미리 잘 파악하게 해둬서 도움이 많이 되었습니다.

pandas 는 알아갈수록 놀라운 라이브러리인 것 같습니다. 복잡한 데이터 형태를 많이 다뤄보지 않은 이유도 있겠지만, 테이블 형태의 데이터를 이렇게 다양한 방식으로 처리할 수 있는지, 또 이렇게 간단히 해낼 수 있는지 경이롭습니다. 데이터을 생성하고, 검색하고, 연산하고, 필터링하고, ... 그것도 좋은 성능으로 해내니, 인기가 많은 이유겠지요.

데이터를 다루는 외부 자료나 툴과의 연동도 간단하게 할 수 있는 것도 마음에 듭니다. csv이나 JSON 같은 형태는 많이 사용하고 있어서 기본일 수는 있겠지만, 엑셀이나 외부의 데이터베이스, 웹 API까지 연동이 된다니 지원하는 편의성이 감탄스럽습니다.

압도하는 책의 내용량으로 아직 완독을 하진 못했지만, 앞으로 이어질 흥미롭고 놀라울 내용이 기대가 됩니다. 진입 장벽을 느낄 수 있는 데이터 분석이라는 분야에 시발점으로 삼을 수 있는 좋은 책을 만난 것 같습니다. 그리고, 이제는 너무나 인기 분야가 되어 버린 AI 에서도 소양이 될 지식을 전달해 줄 수 있는 훌륭한 책입니다.

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

veli***l2021-09-16

도서리뷰 8번째 \"파이썬 라이브러리를 활용한 데이터 분석\"

rick***l2020-11-02

하~ 이 책 신기하네~, 기본이라 말하는 다른 책과 다른 결을 가지는 기본서~

0. 하~ 이 책 신기하네~, 기본이라 말하는 다른 책과 다른 결을 가지는 기본서~

여러 권의 데이터 분석 책들을 리뷰해 왔지만, 처음에 이 책에서 받은 첫인상은 "어! 두껍네~"였습니다. 다른 책들과 두께 차이가 상당히 많아 그 구성이 매우 궁금했습니다. 저의 첫 짐작은 "다양한 사례를 많은가?" 정도로 생각했는데, 그 예상은 보기좋게 빗나갔습니다.

오~ 이 책 생각보다 섬세하네~, 132페이지를 할애해 Python을 설명한다~

최근 파이썬은 프로그래밍 언어로 많은 각광을 받고 있습니다. R이라는 언어로 데이터 분석을 다루는 책들도 있지만, 실제 그 대세를 체감할 정도로 파이썬은 많은 주목을 받고 있습니다. 하지만, 보통 데이터 분석 입문서들은 데이터 분석을 중심으로 하기 때문에, 파이썬을 데이터 분석에 활용하기 위한 준비과정을 세심하게 설명하진 않습니다.

하지만 이 책은 다른 책들과 다르게 기초적인 내용을 상세히 다뤄줍니다. 즉 이 책은 데이터 분석을 위한 아주 기본이 되는 라이브러리를 설명하는 것, 그 자체가 이 책의 존재 이유입니다.

Chapter 1 : 시작하기 전에

Chapter 2 : 파이썬의 기본

Chapter 3 : 내장 자료구조, 함수, 파일

사진1.jpg

아~ 데이터 분석을 위한 파이썬을 설명하기 위한 책이구나~ 그리고 처음 3장을 넘어 4장의 Numpy, 5장의 Pandas의 설명을 보면서, 저자는 이 책을 통해 독자에게 무엇을 설명하고자 하는지 확실하게 알 수 있었습니다.

이 책은 다른 책들과 다르게 분석에 대한 테크닉을 가르치려하지 않습니다. 즉 이 책은 분석알고리즘을 이해시키고 설명하는데 책을 할애하지 않고, 데이터 분석시, 프로그래밍 측면에서 기초가 되는 라이브러리를 정확하게 사용할 수 있도록 그 사용법을 전달하는데 집중합니다. 이 책은 아래와 같이 보다 깊이 있는 라이브러리를 사용하는 방법에 대해서 설명합니다. 그림과 충분한 예시를 통해 라이브러리를 사용하는 방법에 대해서 구체적으로 설명하려 노력합니다.

1. Numpy, Pandas, matplotlib에 대해서 잘 알고 싶으셩? 이 책이 답이다.

이 책은 지금까지의 데이터 분석과 다르게, 데이터 분석을 수행할 때 필요한 Numpy, Pandas, matplotlib 등의 대표적인 Python 라이브러리를 다양한 예제를 통해서 깊게 설명합니다. 또한 Note와 Caution을 통해서 라이브러리를 공부하면서 학습하는 예시 및 실행에 독자가 꼭 짚어바야하는 사항들을 섬세하게 부연으로 설명하고 있습니다.

그렇다면 이 책이 다른 책과 다른 것은 어떤 것일까요? 다른 데이터 분석책들도 numpy, pandas를 설명하는데 구지 뭐 이렇게 까지 자세하게 알야야하는 것이 또 있을까요? 사실 저는 이 책을 통해 기존의 책들과 꼭 한번 병행해서 봐야할 분명한 점을 확인할 수 있었습니다. 즉 numpy를 통해 강의에서는 종종 언급하던 선형대수, 난수생성 방법 등 실제 데이터분석에서 필요한 numpy의 기능을 보통의 데이터 분석에서는 별도로 설명하지 않고, 분석알고리즘의 설명에서 다루곤 합니다. 하지만 이러한 부분에서, 예시를 다룰 때 문제가 되는 부분은 이게 Numpy를 통해 이뤄지는 것인지 아니면, 데이터 분석 알고리즘 내에서 이뤄지는 것인지 헛갈릴 경우가 왕왕 발생하기 때문이죠. 그래서 알고리즘의 라이브러리를 이용할 때 numpy의 고유 기능임에도 불구하고, 알고리즘 상에서 제공하는 것으로 착각하는 경우가 생깊니다. 사실 대부분의 알고리즘을 실행하기 위한 전처리의 골자는 numpy나, pandas가 다 처리해 주는 것인데도 말이죠.

또한 이 책의 말미에는 고급 Padas의 기능을 부가적으로 설명합니다. 최근 시간이 갈수록 Pandas는 고급 사용자를 위한 깊이 있는 기능들을 추가되고 있는데, 하나의 장을 통해서 에서는 고급 분석자들이 사용하는 몇가지 고급기능들을 소개합니다.

*Categorical Data : Pandas 메모리 사용량을 줄이고 선응을 개선할 수 있는 방법으로 Pandas는 정수 기반의 범주형 데이터를 표현할 수 있는 Categorical행이라고 하는 특수한 데이터 형을 가지고 있습니다. .

*GroupBy : Pandas는 Series와 DataFrame에서 groupby 메서들을 사용할 수 있으며, apply 메서들을 이용해 dataFrame을 변환하는 방법을 가지고 있습니다. transform이라는 내장 메서드를 이용하면 apply메서드와 유사하게 동작하면서도 사용할 수 있는 함수의 종류에 대해 좀 더 많은 조건을 포함시킬 수 있습니다.

이처럼 데이터 분석에서 필요한 다양한 데이터 전처리 기법을 numpy, pandas를 중심으로 설명하여, 보다 능수능란하게 데이터 분석을 할 수 있도록 내용을 풍부하게 담으려 저자는 노력했습니다.

사진2.jpg

2. 2판에서 달리진 점

이 책은 이미 [1판]을 통해 이미 독자들에게 소개를 되어 왔습니다. 그러나 최근 파이썬의 문법이 업데이터되어 소스코드의 변경될 필요가 있었고, 아래의 내용으로 [2판]이 갱신 되었습니다.

- 파이썬 튜토리얼을 포함한 모든 코드를 파이썬 3.6 기반으로 수정했다.

- 파이썬 설치 과정을 아나콘다 파이썬 배포판과 몇몇 필수 파이썬 패키지 기준으로 설명했다.

- pandas 라이브러리 버전을 2017년 최신 버전으로 갱신 했다.

- pandas 고급 사용법과 사용팁을 담은 새장을 추가했다.

- statsmodels와 scikit-learn 라이브러리 사용에 대한 간략한 소개를 했다.

저자는 2판을 통해서, 새로운 독자들이 좀 더 쉽게 접근할 수 있도록 1판의 내용 중 많은 부분을 새롭게 구성하였습니다. 현재 이책은 중국어, 프랑스어, 독일어, 일본어, 한국어 그리고 러시아로 번역되어 있으며, padans 프로젝트를 통해 계속적으로 업그레이드 되는 기능들을 소개하고자 저자는 2판을 통해, 이러한 기능들을 소개하고자 하였습니다.

3. 맺음말

사실 이 책은 앞서 설명한 바와 같이 다른 책과는 다르게 좀 더 파이썬을 기반한 데이터 처리 부분을 매우 상세히 다루고 있습니다. 어떤 부분에서는 "그래서 뭐~" 라고 이야기 할 수 있지만, 사실은 이런 부분이야 말로 고수를 판가름 하는 가장 중요한 내용이라는 점을 여러분들은 꼭 간과하지 않기를 바랍니다. 사실 저도 리뷰를 작성하면서, 많은 독자들이 "난 데이터 분석을 하고 싶고, 알고리즘을 배우고 싶어~"라면서 이책에 대해 크게 관심으로 가지고 있지 않지 않을까 걱정이 됩니다. 그런 분들에게 전 이런 이야기를 하고 싶습니다.

욕심을 부리면 꼭 탈이 나듯, 물리적으로 시간을 들여 학습해야할 과정을 돌아가서 뒤늦게 후회를 하지 않길 빕니다. ~

공부는 항상 넘어가야 할 산이 있기 마련입니다. 이 부분은 제대로 공부하지 않고 넘어가게 될 경우, 응용에서 많은 어려움을 가질 수 있으며, 정석으로 코드를 수립한 고수 코드를 해석하고 이해하는데 많은 부분 어려움을 느낄 수 있습니다. 첫 술에 배부를 수 없듯, 이 책을 그 과정을 이해하는데 이 사용하고, 설명한 내용을 마스터 한다면, 고수가 가는 길의 큰 길잡이가 될 것이라 생각이 듭니다.

간만에 기본서를 접해서, 리뷰하는게 좀처럼 쉽지는 않았지만, 제가 보고 느낀점을 충분히 설명해 보았습니다.

cool***l2020-10-26

파이썬부터 데이터 분석까지 한권으로 끝낼 수 있는 효과적인 책!

ars***l2020-10-25

파이썬 라이브러리를 활용한 데이터 분석

yejinso***l2020-10-24

파이썬부터 데이터 분석까지 한권으로 끝내기

책 소개

책 제목 : Python for Data Analysis (파이썬 라이브러리를 활용한 데이터 분석)
글쓴이 : 웨스 맥키니
옮김 : 김영근
출판사 : 한빛미디어
2판 4쇄 : 2020년 08월 01일

책의 특징

초점 : 이 책은 파이썬을 처음 접하는 사람도 데이터 분석을 쉽게 접할 수 있도록 파이썬의 기초부터 고급 활용까지 차근히 밟아나갈 수 있도록 한다.
설명 방식 : 실제 사례를 이용하거나 각 장마다 간단한 예제를 포함하여 독자들이 실사례를 쉽게 접하도록 하고 차근히 활용해 나갈 수 있도록 돕는다.
- 파이썬 언어의 기본 문법부터 자료구조, 자주 쓰이는 패키지들에 대한 자세한 설명들과 예시들 또한 포함하고 있다.
- 세부적으로 단계를 기술하여 해당 기능 하나하나를 어떻게 활용하면 될지를 간단한 예제로 알 수 있다.
- 파이썬을 활용한 데이터 분석에 필요한 프로그래밍 실력을 다질 수 있도록 한다.
- 여러 데이터 분석 예시 프로젝트를 다루고 있다. (영화 평점, 이름 통계, 선거 데이터 등)
제공하는 사이트 : 이 책은 동영상 강의 및 깃허브를 제공한다.

책의 한줄평

파이썬부터 데이터 분석까지 한권으로 끝내기

hunte***l2020-10-23

실무자에게 꼭 필요한 책

학교다닐때부터 문과였기는 했지만 통계와 데이터분석에 관심이 아주 많았다. 대학원을 가서도 사회과학을 했지만 내 손에는 통계와 데이터분석관련 책이 계속 놓여있었다. 회사에 들어가서도 영업부서부터 시작했지만 그당시 한창 뜨고 있었던 빅데이터, 기계학습이 유행하면서 지금은 기업의 영업활동에서 가장 중요한 것이 고객 데이터 분석이 되었다. 처음에는 SPSS, SAS, Minitab, Stata 같은 툴을 만지작 거리다가 대학원에 들어가서는 R을 접하면서 더욱 더 데이터 분석에 맛을 들였다. 회사에서는 잠시 영업일을 하다가 기획과 마케팅 파트로 넘어오면서 프로그래밍 언어에 관심을 기울이게 되었는데 대체로 전공자가 아닌 사람이 시작할 수 있는 언어가 파이썬이라고 해서 파이썬을 배웠다. 그런데 내가 꾸준히 관심을 가졌던 데이터분석을 파이썬으로 할 수 있지 않을까해서 선택하게 된 책이 이책이다. 파이썬은 오픈소스방식으로 라이브러리가 무한하다. 지금도 늘어나고 있다. 그래서 기존 통계나 수학 소프트웨어에사 사용할수있는 기능들이 파이썬 라이브러리로 개발되고 있다. 이책에서 나오는 NumPy, pandas, matplotlib, IPython, Jupiter 등도 데이터 분석을 용이하게 해주는 라이브러리이다. 책에서는 이러한 라이브러리의 소개와 기본 주요기능들을 소개하고 실행하게 도와준다. 그리고 예전에 통계학 수업을 들을때 중요하게 이야기들었던 EDA(탐색적 데이터 분석)을 정교하게 할 수 있는 데이터 정제, 변형, 조인, 병합을 통해 정말 Raw data에서 활용가능한 데이터 형식으로 가공할 수 있는 방법을 알려준다. 또한 데이터 집계와 그룹화된 연산을 통해 분석 툴이나 라이브러리를 사용할 수 있도록 데이터 디자인을 가이드해준다. 역시 이책의 정수는 말미에 있는 데이터 예제이다. 미국 국무부 데이터, 영화 평점 데이터, 신생아 이름, 미국 농무부 영양소 정보, 미국 선관위 데이터베이스 등 재미있고 다양한 분석의 예제를 통해 저자의 분석방향을 살펴볼 수 있다. Appendix는 고급 Numpy와 IPython 시스템에 대해서 나오는데 좀더 깊은 이해가 필요한 독자에게 좋을 것 같다. 파이썬은 초심자의 언어로 알려져있지만 내생각에는 최고의 확장성을 가지는 프로그래밍언어가 더 맞는 것 같다. 이책이 지향하는 것처럼 파이썬은 접착제처럼 쓰이는 연결자로서의 언어가 아닐까 생각해본다.

tee***l2019-07-14

판다스 창시자가 알려주는 진짜 판다스

이 책은 구판이 1.5만부 이상 팔린 베스트셀러다.

이유는 간단하다. 파이썬에서 데이터를 다루는 라이브러리는 pandas가 가장 유명한데, 책의 저자인 웨스 맥키니가 바로 그 pandas의 창시자이기 때문이다.

pandas에 대해서라면 누구보다도 잘 설명할 수 있는 사람이 초보자를 위해 기초부터 알려주니 내용이 좋을 수밖에 없다. '왜 이런 함수를 이렇게 사용해야 하는지', '어떤 생각에서 이런 형태로 동작하도록 설계했는지'에 대한 저자의 경험과 생각 역시 본문에 잘 녹아져 있어서 이해에 도움이 된다.

또한 이 책은 pandas 학습서에만 그치지 않는다. 도서 제목처럼, [데이터 분석]이 주제이기 때문에, IPython & Jupyter notebook, numpy, pandas, matplotlib 등 파이썬을 활용한 데이터 분석에 필요한 주요 라이브러리를 제대로 다루고 있다. 특히 저자의 numpy 에 대한 설명은 간결하고 뛰어나다. pandas 자체의 내부 핵심 기반이 numpy 이기 때문에 그럴만도 하지만 말이다.

이 책의 1판은 pandas가 아직 초기 버전일 때 출간되었기 때문에, 지금 pandas를 다루는 사람들에게는 조금 안 맞는 부분이 있었다. 예를 들면, 구판에는 데이터 선택 시 .ix 메서드를 자주 사용했었다. 하지만 pandas의 최신 버전들은 .ix 메서드를 더 이상 지원하지 않을 예정이라, 개정판에서는 .ix가 아니라 .iloc/.loc 로 사용하도록 추천하고 있다.

pandas에 대한 설명을 2017년 버전 이후 기준으로 변경했다는 점 외에, 다른 변경사항 중에는 다음 내용이 주로 눈에 띈다.

- Python을 3.6 버전 기반으로 변경

- pandas의 고급 사용법과 활용팁을 담은 내용 추가

- statsmodels와 scikit-learn 라이브러리 사용에 대한 간략한 소개 추가

이 책은 일단 두께가 두툼하다. 그만큼 내용도 충실하다. 파이썬와 그 생태계를 이용해서 데이터 분석을 시작하는 사람에게 언제나 첫손에 꼽히는 추천도서였는데 더 좋아졌다.

국내·외를 막론하고 데이터 분석을 하기 위해 numpy와 pandas를 배우고 싶은 사람에게 언제나 첫손에 꼽히는 교과서급 책으로, 파이썬으로 데이터 분석을 시작하기 위한 모든 것이 담겨있다고 생각한다.

zzo***l2019-07-14

판다스 핵심개발자에게 배우는 파이썬 데이터 분석 최고의 책

주변에서 판다스 책을 추천해 달라는 얘기를 들으면 이 책을 가장 우선으로 추천하곤 했다. 제목은 파이썬 라이브러리를 활용한 데이터 분석이지만 이 책 만큼 판다스를 잘 다루고 있는 책은 드물 것이다. 왜냐면 이 책은 판다스 라이브러리를 개발한 웨스매키니가 직접 쓴 책이기 때문이다.

수학을 전공한 웨스매키니는 R에서 영향을 받아 판다스 라이브러리를 만들었다고 한다. 또, 증권사에서 퀀트로 일했기 때문에 행과열로 된 데이터 뿐만 아니라 시계열 데이터를 다루기도 좋다. 그리고 내부적으로 Numpy 라이브러리를 수치계산 라이브러리로 사용하고 있기 때문에 계산도 빠른 편이다. 데이터분석, 전처리, 피처엔지니어링, 시각화, 시계열 분석, 업무 자동화 등 판다스는 다양한 분야에서 활용되고 있다.

또, 비전공자나 비개발자들이 프로그래밍을 배우고 싶다고 뭐부터 배우면 좋을지 물어보면 판다스 라이브러리를 가장 많이 추천한다.

엑셀은 전공이나 도메인에 무관하게 사용되고 있다. 그런데 엑셀의 치명적인 단점이 대용량 데이터를 다루기에 적합하지 않다는 것이다. 100만줄 이상의 엑셀파일을 불러온 경험이 있는 사람이라 면 그 데이터를 로드하는 것도 힘들지만 컬럼하나를 추가하거나 간단한 수식을 추가하기 위해서도 우리의 많은 인내심을 요구하게 된다.

그런데 같은 파일을 판다스로 읽어온다면 내 컴퓨터의 메모리가 허락하는 한도내에서 데이터를 로드해서 전처리를 자유롭게 할 수 있고 파이썬 스크립트를 작성해 놓으면 매달 혹은 매주, 매일 >반복되는 업무에서 파일위치만 변경해 주면 반복된 작업을 엑셀만을 사용하는 것보다 간편하게 처리할 수 있다.

이 책의 초판이 출판된지 시간이 많이 지나서 2판이 나왔으면 좋겠다는 생각을 종종 해왔는데 이렇게 2판이 출판되었을 때 반가운 마음이 들었다.

또, 이 책은 판다스 뿐만 아니라 책의 초반부를 파이썬 기초 문법에 할애하고 있다. 이 책을 통해 파이썬을 처음 배우는 초심자라면 꼭 필요한 파이썬 기초도 함께 배울 수 있다.

책 표지 - 만약 판다곰이 판다스와 관계가 있다면 표지가 판다곰이지 않았을까 싶지만, 판다곰과 Pandas는 아무런 상관이 없기 때문에 표지에도 판다곰이 등장하지 않는다.

2판이 나오며 개선된 내용이 정리되어 있다.

목차 - bit.ly의 usa.gov 데이터로 실사례를 분석해 볼 수 있다. 타임존, 운영체제별 데이터를 집계해보는 예제가 있다.

MovieLens의 데이터는 영화 평점 데이터를 텍스트와 함께 분석해 본다.

신생아 이름은 1800년대부터 태어난 신생아의 이름을 분석해 보며, 특정 이름이 특정 시기에 유행을 하고 있다는 것을 볼 수 있다.

이 외에도 미국 농무부의 영양소 정보라든지, 연방선거관리 위원회 데이터베이스를 볼 수 있다.

matplotlib을 pandas 를 통해 더 간단하게 사용할 수 있는 코드를 안내한다.

유행하는 이름의 트랜드를 시각화로 확인해 볼 수 있다.

그리고 아래의 URL에 소스코드도 모두 공개가 되어 있다. 2판이 업데이트 되며, 2nd-edition 이라는 브랜치가 추가되었다.

아래의 링크에서 colab으로 직접 실습이 가능하다. https://colab.research.google.com/github/wesm/pydata-book/blob/2nd-edition/ch02.ipynb

github 소스코드는 아래 링크에서 확인해 볼 수 있다. wesm/pydata-book: Materials and IPython notebooks for “Python for Data Analysis” by Wes McKinney, published by O’Reilly Media

bum***l2019-07-13

[리뷰] 파이썬 라이브러리를 활용한 데이터 분석

lees***l2019-07-12

[리뷰]파이썬 라이브러리를 활용한 데이터 분석 2판

zid***l2019-07-10

[책리뷰] 파이썬 라이브러리를 활용한 데이터 분석, 한빛미디어

발매 시작된지 2달이 채 되지 않은 신선한 책인 '파이썬 라이브러리를 활용한 데이터 분석'

이 책은 데이터를 분석하는 다양하고 기본적인 방법을 파이썬을 통해 소개한다.

1장에서는 데이터 분석을 위해 파이썬의 어떠한 도구를 사용하는지 설명한다. 그 도구에는 NumPy, pandas, matplotlib, IPython, Jupyter, SciPy, scikit-learn, statsmodels 등등이 있다.

이 책은 파이썬 인터프리터인 IPython를 주로 사용하여 예제를 다루고, 코드,텍스트,데이터 시각화를 비롯한 출력을 대화형으로 구성할 수 있는 Jupyter notebook로 결과물을 보여준다.

하여, 2장에서는 이 IPython과 Jupyter notebook이 무엇인지 설명하고, 2장과 3장에 파이썬의 기본 문법을 다룬다. 기본 문법의 예제는 IPython을 사용한다.

4장에서는 산술 계산을 위한 가장 중요한 라이브러리인 NumPy의 사용법을 소개하고, 5장에서는 고수준의 자료구조와 빠르고 쉽게 사용할 수 있는 데이터 분석 도구인 pandas를 소개한다.

이제 데이터 분석을 위한 도구를 알았다면, 6장에서 9장까지는 그 분석 도구를 이용하여, 데이터에 접근하는 방법과 데이터를 정제하고, 분석하고, 시각화하는 방법을 소개한다.

10장부터는 개념이 조금 어려워지는데, 데이터 집합을 자연스럽게 나누고 요약할 수 있는 방법을 제공하고, 시간상의 여러 지점을 관측하거나 측정할 수 있는 데이터를 활용하여 분석하는 방법을 제공한다. 그리고 pandas의 고급 기술과 파이썬 모델링 기법을 소개한다.

마지막으로 14장은 이 책에서 소개한 도구, 방법론, 기술들을 통해 데이터를 분석하는 예제를 보여준다.

데이터를 분석해보고 싶은 분이라면 적극 추천하는 책이다.

mega***l2019-07-10

NumPy,Pandas를 배우기 위한 좋은 매뉴얼, 신판에서 새로운 내용을 기대한 사람에게는 다소 아쉬운 구성

개인적으로 구판을 가지고 있었는데, 이번에 신판을 리뷰할 기회가 생겨서 다시 한 번 읽어보게 되었다.

우선 이 책의 정체성을 짚고 넘어가야 할 것 같다.

번역판 제목은 "파이썬 라이브러리를 활용한 데이터 분석(2판)-영화 평점, 이름 통계, 선거 데이터 등 실사례 사용"이다. 또한, 책의 뒤 표지에 보면 "빅데이터 분석에 관한 가장 완벽한 교재"라고 되어있다. 내용을 자세히 안 보고 제목과 표지만 보면 데이터 분석을 알려주는 책 같지만 실제로 읽어보면 내용이 좀 다르게 진행된다.

원서제목은 ["Python for Data Analysis, 2nd Edition : Data Wrangling with Pandas, NumPy, and IPython"]이다. 부제가 "Data Wrangling"인데, 데이터 분석에 종사하지 않다 보니 정확히 어떻게 번역하는지 모르겠지만 "데이터 전처리"라고 이해하고 있다.

이 책은 파이썬과 Pandas 등의 도구를 사용하여 데이터를 가공 정제하는 데 초점이 맞추어져 있다. 실사례를 통해 분석업무를 알려주는 책은 아니니 구매하고자 하시는 분들은 꼭 유의하시길 바란다.

원서제목처럼 Pandas 와 NumPy를 놓고 생각하면 아주 잘 만들어진 책이라고 생각한다.

번역도 잘 되어있고, 1판에서 넘어오면서 용어들을 다듬어서 더 읽기 좋아졌다. 또한, 구판에서 예제코드를 2단 문서형태로 처리했었는데 이를 1단 문서 형태로 변경하였다. 이전 대비 페이지가 조금 늘어나겠지만, 가독성은 훨씬 좋아졌다.

파이썬을 처음 사용해보는 데이터분석가 이거나, 어느 정도 파이썬을 다룰 줄 알면서 데이터 분석을 시작하고자 하는 사람을 위한 책이다. R 등 다른 도구로 분석업무를 해온 사람에게는 파이썬을 통해 기존업무를 어떻게 처리할 수 있는지 이해할 수 있으며, 처음으로 데이터 분석에 대해 배우고자 하는 사람들에게는 데이터 분석에 대해 이해하는 데 도움이 되리라 생각한다. 특히, Numpy와 Pandas를 자세히 소개하며 실제 사용할 수 있는 수준으로 발전해 가는 데 많은 도움이 된다. Pandas를 계속 사용할 사람이라면 옆에 두고 수시로 보게 되지 않을까 생각한다.

표지비교 코드비교

구판과 비교해 본다면... 혹시 구판을 가지고 있다면 신판은 필요 없을 것 같다.

내용이 크게 변한 것이 없으며(예제코드도 거의 동일), 좀 더 이해하기 좋도록 배치만 다시 했다. 구판에서 "CH.11-금융 어플리케이션"부분이 삭제되고 "CH.12-고급 Pandas","CH.13-파이썬 모델링 라이브러리"부분이 추가되었는데, 그렇게 많은 분량은 아니다. 특히 CH.13의 경우 따로 공부해야 할 방대한 주제를 20페이지 정도 소개만 한 수준이므로 이를 위해 신판을 또 구매할 필요는 없을 것 같다. 이 외에 IPython(Jupyter) 와 Pandas 변경사항이 조금 반영된 정도이다. 구판(1판 수정보완판)이 파이썬2 기준으로 만들어졌지만, 구판에서도 파이썬3 기준으로 실습하는 데 큰 문제가 없었기 때문에 파이썬3이 대세가 된 것을 알게 된 것 이상의 의미는 없는 것 같다.

2판이 크게 바뀐점이 없다는것은 그만큼 구판의 내용이 좋았다는 의미겠지만, 신판에서 새로운 내용을 기대한 사람에게는 다소 아쉬움이 남는다.

whycr***l2019-07-02

데이터 분석에 필요한 라이브러리 한방에 정리

파이썬과 머신러닝에 한참 빠져있다보니 여러 오픈소스를 살펴볼 수 있었는데요. 간혹 난해한 코드를 만나는 경우가 분명 있었습니다. 어떤 의미로 사용된 코드인지 이해하기 위해서 별도의 의사코드를 작성해서 진행을 해보기도 하고, 특히 matplotlib같은 경우에는 매번 당장 사용할 때가 아니면 그 사용법을 익혀두기 어려웠습니다. 그러던중 좋은 기회로 한빛미디어에서 출간된 Python for Data Analysis를 만나게 되었습니다. 1판이 무려 만 오천여부가 팔렸다고 하니 이미 그 수치에서 이 책은 신뢰할 수 있겠습니다.

책의 초판은 2012년에 출간되었고 당시에는 파이썬의 열풍이 지금처럼 대단하지 않았었죠. 이미 상당한 시간이 흘러 머신러닝과 빅데이터에 힘입어 Python은 이제 대세 language로 자리잡았다고 해도 과언이 아닐텐데요, 이 책은 이제 Python3를 바탕으로 아주 사소한 문법부터 시작해서 jupyter notebook의 핵심 이론인 Ipython, 그리고 데이터 분석에 필요한 matplotlib, pandas, numpy까지 거침없이 다뤄나갑니다.

아마도 위에서 언급한 라이브러리가 개별적으로 포스팅되어 있는 블로그 등은 꽤 많을텐데 이렇게 한 권으로 제대로 다루는 것은 아마도 Python for Data Analysis 이 책이 유일하지 않을까 싶습니다. 그만큼 꽤 고급진 내용까지 잘 다루고 있습니다. 데이터를 분석한다는것은 사실 그 안에 데이터를 불러와서, 정제하고 가공하는 등 꽤 많은 준비 과정이 필요한데 이 책에서 다뤄지는 예제는 이미 그런 부분까지 세심하게 실습하고 있습니다. 라이브러리의 기초적인 활용법까지 고급 스킬까지 한방에 정리하고 싶다면 이 책은 좋은 선택지가 될 것이라고 믿습니다.

마무리

여기에 곁들여서 이야기하자면 pandas는 단순히 로컬 데이터 분석에서만 끝나는 것이 아니라 다양한 클라우드와도 밀접한 연관이 있습니다. 이미 Google Cloud에 BigQuery와는 상당히 밀접하게 동작하고 있기 때문에 요즘같은 클라우드 시대에 데이터를 분석하는 롤을 갖고 있는 사람에게 Pandas는 필수적인 라이브러리입니다. 그렇기에 이 책을 통해 좋은 인사이트를 얻으실 수 있기를 바랍니다.

파이썬 라이브러리를 활용한 데이터 분석(2판)

"학습 환경"

프로그래밍 언어 관련 <책>을 손에 쥔다는 것

왜, <파이썬 라이브러리를 활용한 데이터 분석>일까?

어떻게 활용하면 좋을까? (feat. 구글링)

목차

책 소개

책의 특징

추천 대상

책의 한줄평

마무리

자료 다운로드시 유의사항

▶ 부록/자료 관련 FAQ