파이썬 데이터 분석 입문

데이터 분석이나 머신러닝을 공부하기 시작한지는 꽤 됐지만 본격적으로 깊게 공부하지는 못해서 입문서를 주로 보고 있었는데 같이 데이터 분석 책이더라도 책마다 중점적으로 다루는 내용이 조금씩 달라 결국 여러 권의 책을 다 가지고 있게 된다. 이 책도 기존에 내가 가지고 있던 책들과는 주제가 달라서 keep 해놔야 할 것 같다.

‘파이썬 데이터 분석 입문’이라는 책 제목만 보고 데이터 분석에 사용되는 알고리즘을 파이썬으로 구현하는 것을 중점적으로 설명한 책이려니 했는데, 이 책은 알고리즘 보다는 데이터 전처리에 대한 설명이 훨씬 자세히 되어있다.

9개 챕터 중에 무려 4개의 챕터가 CSV, 엑셀, DB 등의 형태로 있는 데이터를 파이썬 프로그램에 로딩하고 분석/계산하기 좋은 형태로 가공하는 것에 대해서 설명하고 있다. 사실 데이터 분석을 공부하게 되면 데이터 분석과 관련된 통계 지식이라든지, 사용하는 알고리즘을 학습하는 데에 시간/노력을 집중하게 되는데, Coursera 등의 MOOC 강의 구성을 참고해보면 Data Science 트랙에서 빠지지 않는 것이 데이터 처리에 대한 내용이다. 지루하고 쉬워 보여서 많은 사람들이 그냥 훑어보고 지나가는 내용이지만 실제로 프로젝트를 하거나 현업에 사용하려고 하면 가장 먼저 수행해야 하는 게 데이터 전처리이기 때문에 사실 가장 노하우가 필요하고, 많이 연습해 보아야 실력이 느는 부분이기도 하다.

어쨌든 4개의 챕터에서 데이터 로딩과 전처리에 대해서 설명하는데, 이 책에서 내용을 설명할 때 좋은 것 중 하나가 일반 파이썬 코드로 작성된 것과 Pandas 패키지를 사용할 때의 차이를 비교해서 설명한다는 것이다. 데이터 분석에서 주로 사용되는 파이썬 패키지에는 Numpy, Pandas 등이 있다는 것은 데이터 분석을 공부해본 사람들이면 익히 아는 내용이지만 왜 저 두 패키지가 많이 사용되는지에 대해서는 많이 고민해보지 않았을 것이다. 책에서는 Pandas를 쓸 때와 쓰지 않을 때의 코드를 비교하면서 쓰지 않았을 때 발생할 수 있는 복잡한 예외 처리를 Pandas를 사용하면 간단하게 해결할 수 있다. 합계나 평균처럼 간단한 통계치를 계산할 때도 Pandas를 사용하는 것이 훨씬 유용하다는 것을 차근차근히 설명해준다. 데이터 분석을 처음 공부하는 사람의 입장에서 비교해서 설명해주면 Pandas를 왜 사용해야 하는지, 데이터 처리를 할 때 어떤 점들을 고려해야 하는지 명확하게 알 수 있어서 도움이 많이 될 것 같다.

책의 중반부까지 데이터 전처리에 대해서 설명하고 그 다음부터는 데이터 시각화와 간단한 알고리즘 등이 설명되어 있다. 데이터 시각화는 간단히 matplotlib로 그래프 그리는 방법, 그래프의 종류, 그리고 자주 사용하는 다른 그래픽 패키지, seaborn, ggplot 등이 소개되었다. 알고리즘은 선형회귀, 로지스틱 회귀 등이 설명되어 있는데, 기본적인 통계 지식이 있는 것을 가정하고 작성된 내용이라서 자세한 내용은 다루지 않고 있다.

전체적으로 이 책은 입문서이긴 하지만 데이터 분석을 이제부터 공부해보려는 사람들에게는 적합하지 않은 것 같고, 대충 데이터 분석을 어떻게 하는지는 알겠는데, 인터넷에서 긁어모은 데이터를 가지고 분석을 어떻게 시작해야 할지 막막한 사람들, 아니면 데이터 전처리에 대한 내용을 인터넷에서 할 때마다 검색해서 찾기는 귀찮고 필요한 내용을 그때그때 찾아볼 책이 필요한 사람들에게 추천한다. 정독할만한 책은 아니고 정말 레퍼런스용으로 적당한 책인 것 같다.

whycr***l2017-12-02

데이터 분석 입문!

빅데이터가 유행하고 뒤이어 머신러닝, 딥러닝의 시대가 오면서 데이터 분석 분야가 핫해지고 있다. 그에따라 데이터 분석가, 데이터 엔지니어의 수요가 많아지고 있는데, 한빛미디어에서 그 직업군의 길라잡이가 되어주는 책이 나왔다.

Foundations for Analytics with Python

파이썬 데이터 분석 입문

페이스북 데이터 과학자로 근무했던 Clinton Brownley 의 책이 원서이고 한창진/이병욱 님이 번역을 하셨다. 번역서지만 훌훌 읽는데 무리가 없다.

구성

이 책은 파이썬이라는 프로그래밍 언어를 기본으로 데이터 분석을 다룬다. 우선 프로그래밍 기초가 없는 독자를 대상으로 했기 때문에 1장에 "파이썬 기초" 를 시작으로 하고, 2장에서는 CSV 파일을 다루는 기법을 소개한다. 3장은 엑셀 파일을 다루는 여러가지 방법을 소개하고, 4장은 파이썬 내장 모듈인 sqlite3 와 MySQL 같은 데이터베이스를 통한 데이터 분석을 다룬다. 5장은 앞선 내용에 대한 응용작업을 기술한다.

이후 6장에서는 데이터 분석의 꽃인 "데이터 시각화"를 다루는데 matplotlib 을 시작으로 팬더스, ggplot, seaborn 을 사용한다. 7장은 공개 되어 있는 데이터셋을 기반으로 기술통계와 모델링을 다룬다. 8장은 스크립트 자동 실행 예약을 다루는데 윈도우의 작업 스케줄러와 *NIX 에서의 crontab 을 소개한다. 끝으로 9장은 더 공부할 것들에 대해 몇 가지 언급하고 책은 마무리 된다.

아쉬움

입문 서적인 것을 생각했을 때 모든 코드에 대한 실행 결과가 함께 첨부되지 못한점이 크게 아쉽게 다가온다. 모든 독자가 컴퓨터 앞에서 예제를 타이핑할 수 없다는 점을 감안하지 못한 듯 하다. 또한 자세한 설명이 누락된 느낌이다. 친절하지 못하다는 표현이 맞을까? (예를들어) 특히 6장 "데이터 시각화" 는 배경 지식이 있는 상태로 읽어도 쉽지가 않다.

이런점은 좋다

앞선 구성에서 알 수 있듯이 정말 많은 것을 두루 다루고 있다. 비록 친절하지는 않지만 다양한 지식을 얻을 수 있다. 사실 "그런게 있다"만 알아도 나중에 검색이나 심도있는 과정을 통해 자세히 확인할 수 있으니까 말이다. 어느 분야든지 입문할 때 폭넓은 배경지식이 필요하다는 점을 감안하면 이 책이 바로 그런 부분을 충족시켜 주는 책이다.

마무리

유행에 크게 민감하게 반응할 필요는 없지만 데이터 분석은 이미 많은 분야에 필수가 되었다. 꼭 데이터 분석이나 데이터 엔지니어가 아니더라도 사회는 기타 업종의 개발자나 엔지니어에게 데이터 분석에 대한 최소한의 역량을 요구한다 (기획자나 마케터에게도 그런 역량을 요구하는 세상). 그렇기 때문에 최소한의 노력으로 화려한 결과를 도출하고 싶다면 데이터 분석이라고 하는 분야에 살짝 발을 딛는 것도 나쁘지 않겠다. 이 책이 그 시작을 도와줄 것이다.

tee***l2017-11-29

엑셀 좀 끄고 자동화된 데이터 분석을 해보자

# 파이썬으로 데이터 분석을 하면 뭐가 좋을까?

엑셀로 데이터 분석을 하던 사람에게는 프로그래밍을 통한 분석방식은 답답하다. 뭐 하나 만들기도 까다롭다. 무엇보다도 작성이 오래 걸린다. 엑셀에서 자동으로 지원하는 함수들이 없어서 손으로 한 땀 한 땀 구현해야 할 때도 있다. 그러나 데이터 분석의 대부분은 반복적인 작업이다. 어쩌다 한 두번 작업할 때는 엑셀로 수작업하는 것이 빠르겠지만, 장기적으로는 재사용이 가능하고 다양한 변형이 쉬운 프로그래밍이 효율적이다. 파이썬과 DBMS의 쿼리를 활용하면 방대한 데이터를 훨씬 쉽게 다룰 수 있다는 것도 장점이다.

# 이 책의 예제는 윈도와 파이썬3를 기반으로 한다.

이 책의 예제는 윈도를 기반으로 한 파이썬 스크립트이다. 맥에서의 작업 방식도 같이 소개하지만, 기본적으로 윈도를 중점으로 설명한다. 우리나라에서 윈도 점유율이 90%가 넘는 상황에서 초보자들은 윈도를 사용하고 있을 가능성이 가장 높기 때문이다. 개인적으로도 데이터를 다루는 작업에 MS Office 를 많이 활용하는 편이라 엑셀과 병행할 수 있는 개발환경이 편리했다.

# 1장 파이썬 기초

숫자/문자/리스트/튜플/딕셔너리와 같은 파이썬 기본 자료형을 다룬다. 날짜형 자료를 다루는 방법을 차근차근 설명해주는 부분이 좋았다. 실제 업무에서 가장 많이 다루게 되는 자료형이니까. 프로그래밍 기초가 없는 사람들을 위해 제어문, 함수, 예외 처리 같은 내용도 차근차근 설명되어 있다.

# 2장 CSV 파일

예전부터 데이터를 전송하는 데 가장 많이 사용되어온 plain text 형태의 CSV 파일을 다루는 방법에 관해 설명한다. 단일 파일과 여러 파일을 읽고 수정하는 방법과 파일 요약 정보 출력, 데이터 병합 등이 잘 나와 있다.

# 3장 엑셀 파일

파이썬의 xlrd 패키지를 사용하여 엑셀 파일을 처리한다. 엑셀에서 까다로운 점인 날짜=숫자 저장 형태와 변환 방법을 설명하는 부분이 좋았다. 워크시트를 읽고 파싱한 후 간단한 기본 통계 계산 등을 수행한다.

# 4장 데이터베이스

파이썬에 내장된 sqlite3 모듈을 사용해서 DB 생성, 테이블 생성, 쿼리 수행 등 기초 데이터베이스 작업을 설명한다. MySQL을 내려받아서 설치하는 방법도 다뤄서 DBMS 입문으로는 부족함이 없었다.

# 5장 응용 작업

데이터 처리 및 분석 작업을 다룬다. 다양한 엑셀/CSV 파일에서 특정 레코드를 찾고, 수치 데이터를 카테고리로 그룹화하여 통계를 내본다. 텍스트 파일을 그룹화하고 카테고리에 대한 통계를 산정하며, MySQL 로그 파일을 파싱하여 로그 횟수를 계산하는 등의 다양한 응용 작업을 수행한다.

# 6장 데이터 시각화

데이터 시각화 패키지를 이용하여 데이터를 시각화하는 방법을 배운다. 가장 대중적인 matplotlib으로 시작하여 간결함이 매력적인 pandas와 R로부터 나온 ggplot을 다뤄본다. 마지막의 seaborn은 어딘지 친숙하지 않아서 약간 당황했다.

# 7장 기술통계와 모델링

회귀 및 분류 모형을 추정한다. 앞 장에서 배운 pandas로 그룹화와 통계 함수를 사용하고, statsmodels 패키지를 사용하여 다양한 회귀 및 분류 모형을 추정해본다. 이 장에서 배우는 다중회귀모형 및 로지스틱 회귀모형은 워낙 많이 사용되는 내용이므로 모든 사람에게 유용할 것 같다.

# 8장 스크립트 자동 실행 예약하기

윈도의 작업 스케줄러와 맥/리눅스의 cron 을 사용해서 스크립트를 주기적으로 자동 실행하는 방법을 배운다.

# 9장 더 공부할 것들

과학 분야에서 많이 사용되는 numpy, SciPy 등의 추가 패키지들과 스택, 큐, 그래프, 트리 등의 자료구조를 간단히 소개한다. 내용 자체는 워낙 짧다. 궁금한 부분은 각각의 패키지를 다룬 중급 도서를 봐야 할 것 같다.

# 평점은 높지 않은데 책 내용이 좋다.

리뷰를 쓰기 위해서 찾아본 온라인 서점에서 이 책의 평점은 높지 않았다. 당연하다. 숙달된 데이터 분석가와 프로그래머들에게는 쉬운 내용이다. 그러나 이 책의 독자는 개발을 전혀 할 줄 모르는 사람이다. 엑셀을 잘 다루면서도 어딘지 모를 답답함을 느껴온 사람들에게는 이 책이 가뭄의 단비와 같다. 개발 지식이 깊지 않아도 충분히 데이터 분석을 할 수 있다는 것을 보여주기 때문이다. 더 방대한 전문 데이터 분석가로 가는 길은 이후 독자가 얼마만큼 더 공부하냐에 달린 것 같다. 매일 엑셀의 4~5중 함수 괄호에 시달리는 옆자리 동료에게 꼭 안겨주고 싶은 책이다. 파이썬의 기본기를 좀 더 단단히 다지게 해주는 점프 투 파이썬(https://wikidocs.net/book/1)링크와 함께라면 충분할 것 같다.

kianms10***l2017-11-28

Founcations for Analytics with Python(파이썬 데이터 분석 입문)

pskaly***l2017-11-27

[파이썬 데이터 분석 입문]으로 파이썬 & 데이터 분석 동시 입문하기

파이썬데이터분석입문

2011년, 대학생 때 친구들과 스크립트언어 하나를 공부하기로 하면서 파이썬을 처음 접한 이후로 지금까지 파이썬을 매우 유용하게 사용해오고 있다. 처음에는 간단한 웹 프로그램을 만들면서 시작했고, 대학원에 와서는 Flask를 이용한 연구용 웹 프로토타입 개발이나 데이터 분석을 위해 사용중이다. 파이썬 이외에도 데이터 분석을 위해 R도 가끔 쓰고, ggplot을 이용하여 그래프도 그리는 수준이라, 분명 이 책에서 대상으로 하는 데이터 분석 초보는 아니다. 그래도 당장 눈앞에 닥친 과제를 해결을 위해서 초급부터 한단계씩 오르기보다는 온 몸으로 부딪혀가며 거칠게 배워온터라 데이터 분석 입문시 반드시 알아야 할 기본기가 부족한 것은 아닐까라는 생각은 항상 하고 있었는데 우연한 기회에 이 책을 접하게 되었다.

파이썬데이터분석입문_1

이 책은 책 제목을 잘 따르고 있다. "Foundations." 일단은 데이터 분석이전에 파이썬의 기초부터 시작한다. 실제로 책 전체 350페이지 중 첫 100페이지가 파이썬 설명에 할애되었다. 단 100페이지로 파이썬을 전부 다루는 것은 당연히 불가능하므로, 데이터 처리에 필수적인 부분만 집중적으로 공략한다. 그리고 CSV/Panda를 이용한 데이터 분석, 엑셀 데이터 분석, 그리고 SQLite3/MySQL를 이용한 데이터베이스 기반 데이터 분석 등을 하나씩 다루고 있다. 데이터 분석 입문으로 필수적인 내용들이다. 하나하나 예제소스와 출력 결과를 보여주고 있기 때문에 이해하기도 쉽다. 단, 이 책을 통해 데이터 분석에 입문하고자 하는 사람은 반.드.시. 예제를 다 따라쳐보길 권한다. 그리고 이 책을 읽으면서 놀란 점은 번역이 매우 깔끔하다. O'REILLY 표지만 아니었다면 국내에서 새로 낸 책인줄 알았을 정도다.

아쉬운 점으로는, 이 책에서 csv 라이브러리 이외에 Pandas까지 같이 언급하고 있는데, 이제 프로그래밍도 처음 접하는 초보에게 pandas까지 가르치는게 맞는지 잘 모르겠다. 어차피 여기서는 csv로도 할 수 있는 일을 판다스로도 해보는 수준이라. Pandas의 강력함이 전혀 보여지지 않는다. 또한 좀 더 실전적인 예제들이 들어있었다면 좋았을 것 같다. 카테고리별 평균구하기 정도의 예제가 아니라 실제로 독자들이 읽으면서 공감할만한 예제, 예를 들면, 고객 구매 데이터에서 가장 많이 구매된 항목순으로 랭킹 보여준다던가, 특정 물품과 함께 구매될 때 가장 많이 같이 구매된 물품 예상하기 등의 예제였다면 더 재미있게 따라할 수 있지 않았을까 싶다.

"이 책은 데이터 분석을 위해 스프레드시트를 자주 이용하지만 프로그래밍 경험은 전혀 없는 독자를 대상으로 한다." p9

여기서 "스프레드시트를 자주 이용하지만"이 포인트인 것 같다. 특히 주위에 엑셀을 계속 써오던 사람은 엑셀만으로도 데이터 분석과 그래프 그리기가 충분하다고 말하지만, 데이터 양이 엑셀에서 커버할 수 있는 범위를 넘어서기 시작하면 엑셀만으로는 다루기 힘들다. 엑셀에서 다양한 함수를 제공한다하지만, R이나 파이썬 패키지에 비할 바도 아니다. 결국 데이터 분석을 해야하는 사람이라면, 엑셀로 다 할 수 있다고 혼자 끙끙앓지말고 당장 R이든 파이썬이든 이용해서 본격적인 데이터 분석으로 들어와야한다. 진입장벽이 좀 높긴하지만, 그 진입장벽을 낮추는데 이 책이 도움을 줄 수 있을 것 같다.

특정 언어를 활용한 뭔가 해내기 종류의 책을 볼 때마다 느끼는 것이지만, 그 책을 10번 읽어도 소용없다. 추가적인 공부가 더 필요하다. 처음 프로그래밍을 하는 사람이 이 책을 통해 100페이지 분량의 파이썬 설명을 공부한다고해서 파이썬을 이해하기는 굉장히 어렵다. 이 책을 읽고나면 이제 말 그대로 데이터 분석에 "입문" 한 수준이다. 이 책에서 배운 내용들을 더 잘 활용하기 위해서 다음과 같은 내용들을 추가로 공부해보길 권한다.

점프 투 파이썬: 파이썬 분야의 베스트셀러 책이다. 책을 구입해도 좋고, 책 내용이 온라인에 완전 무료로 공개되어있으니 https://wikidocs.net/book/1로 접속해서 하나씩 보면서 공부해도 좋다.
데이터베이스: 이 책에서 데이터베이스로 SQLite3와 MySQL을 다루고 있다. MySQL은 "Head First MySQL"이 데이터분석을 처음 접하는 사람에게 적합한 책으로 권한다. 나도 MySQL을 막연하게 알고 있을 때, 이 책을 통해 기본을 다졌다. 책사는게 싫다면 생활코딩에서 MySQL 기본 강의가 있으니 참고해도 좋다: https://opentutorials.org/course/195
R: R은 데이터 분석 및 통계를 위한 언어이다. 이 책에서 다루고 있는 파이썬용 ggplot 라이브러리 등은 사실 R에서 먼저 쓰였던 것들이다. 데이터 분석에 본격적으로 뛰어들면 결국 R과 만나게 될 것이다. 코세라에서 무료로 공개되어있는 R강의를 추천한다: https://www.coursera.org/learn/r-programming

파이썬 데이터 분석 입문

자료 다운로드시 유의사항

▶ 부록/자료 관련 FAQ