파이썬 라이브러리를 활용한 머신러닝(번역개정2판)

gand***l2022-04-03

개발자들을 위한 scikit-learn 머신러닝 학습서

azs***l2022-04-01

[도서리뷰] 파이썬 라이브러리를 활용한 머신러닝(번역개정2판) Introduction to Machine Learning with Python

* "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

TLDR; 머신러닝에 처음 입문하는 분들에게 추천드립니다. 한권을 읽으면 머신러닝을 경험해 볼 수 있고, 어떤 공부를 해야하는지를 알 수 있습니다.

개발자라면 누구든, 아니 개발자가 아니더라도 머신러닝이랑 키워드엔 관심이 있을 것이다. 시중엔 머신러닝 입문에 대한 여러가지 책이 나와있고, 많은 책의 종류 만큼 다양한 방식으로 머신러닝에 대해 알려주고 있다. 이론부터 알려주는 책이 있는가 하면 실습부터 하는 책이있고 두가지를 복합적으로 하는 책도있다. 그중 "파이썬 라이브러리를 활용한 머신러닝"은 실습위주의 방식으로 머신러닝을 알려주고 있다. 사이킷 런을 이용해서 기존에 제공되는 학습데이터를 이용한 지도학습 머신러닝을 시작으로 비지도학습과 데이터 전처리, 데이터 표현과 특성공학, 모델 평가와 성능 향상, 알고리즘 체인과 파이프라인, 텍스트 데이터 다루기를 실습해보며, 책을 마무리하며 머신러닝과 관련된 여러 이론, 사이킷런 외의 프레임워크와 패키지, 챙킹, 추천시스템과 그 외 알고리즘, 확률 모델링, 신경망 등 더 공부할 주제에 대해서 알려준다.

이 책을 한권 읽고 공부한다고 해서 머신러닝에 대한 모든것을 알 수는 없지만 책을 읽고나면 당장 머신러닝을 적용할 능력을 갖추게 될것이고, 머신러닝을 심화학습하기 위해 필요한 컴퓨터공학 / 수학적 이론들에대한 소개를 받기때문에 본격적으로 공부를 시작할 수 있는 가이드로서 좋은 역할을 한다.

이 책은 머신러닝에 관심이 있는사람 중 이론적인 부분먼저 하기보단 실제 실습을 토해 결과를 보면서 학습하기 원하는 사람에게 추천한다.

geonsp***l2022-04-01

[리뷰] 파이썬 라이브러리를 활용한 머신러닝(번역개정2판)

파이썬은 사용하기 편리한 언어로 수학계산에 용이성으로 인해 머신러닝 분야에 많이 활용되는 언어입니다. 이런 많은 라이브러리를 가지고 데이터 과학자가 활용하기 편리한 기능들을 제공합니다.

수정됨_IMG_3259.jpg

해당 도서는 scikit-learn을 이용하여 머신러닝을 하는 내용에서 설명을 해 줍니다. 해당 라이브러리 외에도 jupyter notebook, Numpy, pandas, SciPy 그리고 matplotlib 이 필요합니다.

도서는 파이썬을 2, 3 버전 모두 활용이 가능하나 3버전을 추전합니다. 2버전은 이제는 지원이 끝났기 때문에 새로운 기술을 익히기 위해서는 3버전으로 시작하라고 합니다.

책은 모두 8장으로 이루어져 있습니다.

소개
지도학습
비지도 학습과 데이터 전처리
데이터 표현과 특성 공학
모델 평가와 성능 향상
알고리즘 체인과 파이프라인
텍스트 데이터 다루기
마무리

도서의 차트는 칼라 인쇄로 데이터 결과물을 확인하는 데 도움이 됩니다.

수정됨_IMG_3260.jpg

도서의 예제는 바로 github에 존재합니다. 예제 에서 확인이 가능합니다.

외국도서이기 때문에 7장의 텍스트 데이터 다루기 부분에는 영어로 된 부분만 설명이 되는데 추가 부록으로 KoNLPy를 활용한 영화리뷰 분석이 들어가 있습니다. KoNLPy를 이용하여 네이버 리뷰를 분석하는 예제가 있어 텍스트 분석을 위한 예제에 조금 더 도움이 됩니다.

지도학습 및 비지도학습을 이용한 여러 알고리즘 등이 설명되어 있어 머신러닝을 활용한 제품이나 기술에 대한 이해를 위해 도움이 되는 도서입니다.

* 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

moralmo***l2022-04-01

[리뷰] 파이썬 라이브러리를 활용한 머신러닝 번역개정2판

지금으로부터 불과 몇년 전에, 초판 번역서였던 이 책을 접한 기억이 납니다. 지금은 상대적으로 딥러닝 분야가 크게 발전하며 관련 분야에 관심을 가지는 분들이 훨씬 많아졌지만, 당시만 하더라도 scikit-learn을 필두로 하여, ML이 큰 위세를 떨쳤던 것으로 기억합니다.

역자이신 박해선 님께서는 scikit-learn 정식 1.0 버전이 릴리즈 되고, 여기에 맞추어 코드와 전체적 내용을 업데이트 했다고 합니다. 또한, 모든 코드는 구글 코랩에서 실행 가능하도록 변경 되었다고 하는데요. 아무래도 일부 학습 과정에서 로컬 PC로 다소 시간이 많이 소요되는 경우가 있다보니, 반갑지 않을 수 없는 변화입니다.

지난 초판을 접할 때만 하더라도 아무것도 모르던 학부생이였던 제가, 인공지능대학원에 진학해서 개정2판을 보고 있으니 여러모로 감회가 새롭습니다. 모쪼록, 책의 내용을 좀 더 살펴보도록 하겠습니다.

아무래도 최신 데이터과학 서적들은 딥러닝에 초점을 맞춘 책들이 꽤 많습니다. ML 기법은 여러 통계학 기법에서 시작하여 발전된 기술들이 많고, 그 기저의 내용들은 크게 변화되지 않았기 때문인데요. 반면에 딥러닝은 계속해서 신기술이 나오고, 또 나오다보니, 지난 기초 서적들도 Transformer와 Self-Attention과 같은 내용을 탑재시킨 개정판을 내는 경우가 종종 보이곤 합니다. 당연히 새로운 신간도 계속해서 출간되고 있습니다.

그럼에도, 이 책이 가지는 특징과 장점은 뚜렷합니다.

여전히 머신러닝은 많은 분야에서 유효하고, 많은 장점을 가진 기술입니다. 딥러닝의 경우 많은 분야에서 굉장한 성능을 내고 있지만, 그만큼 학습이 오래 걸리거나, 과도하게 많은 자원을 요하는 경우가 많습니다. 또, 실제로 풀어야 하는 문제의 종류에 따라서, 머신러닝으로 훨씬 더 쉽고 간결하게 해결 할 수 있는 경우도 많습니다.

예를 들어, 3장의 비지도 학습 파트에서 실습하는 DBSCAN을 이용한 얼굴 데이터셋 군집화의 경우, 아마도 딥러닝을 적용하면 얼굴 데이터의 Feature를 더욱 효과적으로 추출하고, 학습할 수 있을 것입니다. 하지만, 실습에서 DBSCAN으로 군집화 해낸 몇몇 카테고리 (웃는 여성, 옆모습 등)를 확인하거나, 데이터셋의 전반적인 추이를 확인하는 정도의 작업만 필요한 상황이었다면, 굳이 CNN 등을 적용하여 얼굴 데이터 셋의 Feature를 학습할 이유는 없을 것입니다.

게다가, 많은 경우, 머신러닝의 방법론과 딥러닝의 방법론은 서로 유기적으로 연결되어 있는 경우가 많아, 하나의 학습과 경험이 결국 다른 쪽의 학습에도 영향을 주게 됩니다.

특히 이 책의 경우, 더 뚜렷한 장점이 있는데요.

매번 쓰는 MNIST 같은 학습용 데이터만 사용해서 실습을 해보는 것이 아닌, 좀 더 다양한 데이터를 통해 다양한 상황에서의 실습을 진행할 수 있습니다. 또한, 실습에 사용하는 코드의 설명이 상세하고 친절합니다. 일단 코드를 쭉 나열하고, 실습해봅시다, 정도로 끝나는 것이 아닌, 단계별로 나누어져서 실습을 진행할 수 있는 구조인데요. 덕분에 잘 설계된 일련의 교과 과정 속에서 머신러닝을 배우는 것과 같은 느낌을 받을 수 있었습니다.

시각화 또한 비교적 충실하게 실습을 진행하는 경우가 많습니다. 저도 따라해보면서, 이런 식으로도 데이터를 나타낼 수 있구나... 하면서 많이 배우게 되었는데요. 하나하나 세심하게 실습 과정을 따라하다보면, 책의 메인 콘텐츠 이외로도 유용한 스킬들을 많이 습득하실 수 있을 것입니다.

많은 경우, ML/DL 학습자 분들은 이미 한 두권 이상의 책을 보았거나, 강의를 통해 기본적인 학습을 진행하셨을 것입니다. 기초 ML 학습 단계에서 한 계단 더 도약하기 위해, 심화된 도서를 찾으신다면, 본 도서가 분명히 많은 도움이 될 것입니다.

ljw2***l2022-04-01

[리뷰] 파이썬 라이브러리를 활용한 머신러닝

shs6***l2022-03-31

파이썬 라이브러리를 활용한 머신러닝

월에 읽게 될 책은 파이썬 라이브러리를 활용한 머신러닝 입니다!

개인적으로 읽고 싶었던 책이 배송이 되어서 기분이 좋았네요 ㅎㅎㅎ

먼저 2월달에 리뷰를 했던 금융 전략을 위한 머신러닝과 순서가 조금 잘못 된 것 같지만 한번 리뷰를 해보겠습니다.

파이썬 라이브러리를 활용한 머신러닝

저자: 안드레아스 뮐러, 세라 가이도
출판: 한빛미디어
발매: 2022.02.25.

먼저 이 책은 머신러닝에 입문하는 사람을 위해서 작성된 책 입니다.

머신러닝과 사전 지식이 필요 없는 입문서라고 할 수 있습니다.

python과 scikit-learn 을 중점으로 설명하기 때문에 천천히 따라가면 누구나 어렵지 않게 이해할 수 있을거라 생각합니다.

이 책의 구성을 간단하게 설명해보겠습니다.

1장 : 머신러닝과 머신러닝 애플리케이션의 기초 개념

2,3장 : 실전에 가장 널리 사용하는 머신러닝 알고리즘 설명

4장 : 머신러닝에서 데이터를 표현하는 방법이 얼마나 중요한지와 데이터의 어떤 면을 주의 해야하는 지 설명

5장 : 모델 평가와 매개변수 튜닝을 위한 고급 방법, 교차 검증과 그리드 서치

6장 : 모델 연결하고 워크플로를 캡슐화하는 파이프라인 개념 설명

7장 : 앞 서 설명한 방법들을 텍스트 데이터에 적용하는 방법 설명

8장 : 심화 내용

머신러닝에 관심이 많은 초심자 분들이 공부하면 굉장히 좋을 책이라고 생각이 듭니다.

꼼꼼하게 코드가 잘 설명되어 있으며 쉽게 따라 할 수 있도록 설명이 되어 있습니다.

그리고 전체적으로 머신러닝의 모든 과정을 훑어 주기 때문에 큰 그림을 잡는데에도 좋다고 생각합니다.

각 장마다 바로 실습을 진행할 수 있어서 공부하는데 더욱 흥미를 주는 것 같아서 학습하기에 좋았습니다.

hyeon***l2022-03-31

역자님 감사합니다.

2022년 2월에 출간된 <파이썬 라이브러리를 활용한 머신러닝 2E>에 대해 소개합니다. 이 책의 부제는 '사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서'입니다. 이 책의 저자는 안드레이아스 뮐러(Andreas Mueller)와 세라 가이도(Sarah Guido)님입니다. 두 분 모두 관련 분야의 전문가로 활동하고 있습니다.

이 책의 초판 원서는 아마존 리뷰에서 우수한 점수(4.6점, 5점 만점)를 받았습니다. 필자는 이 책의 초반 버전을 봤었습니다. 이 책은 원서의 초판 4쇄버전을 기반으로 사이킷런(Scikit-learn)의 최신 버전을 반영하여 개정했습니다. 역자는 혼자 공부하는 머신러닝+딥러닝을 집필하신 박해선 님으로 이 분야에서 매우 유명하신 분이며, 관련 분야의 서적을 다수 번역한 이력이 있습니다. 번역자 님의 블로그에 기술된 이 책의 소개글입니다.

<파이썬 라이브러리를 활용한 머신러닝 2E>은 약 500페이지로 구성되어 있어 휴대하면서 읽기에 크게 부담스럽지 않습니다. 전자책으로도 출간되어 있음으로, 전자책 뷰어가 있으시다면 전자책으로 만나보는 것도 좋을 것 같습니다. 구매 가격도 더 저렴합니다.

한빛미디어 평가단에 참가하여 작성한 글이며, 한빛미디어에서 제공해준 책을 읽고 작성했음을 밝힙니다.

이 책의 매력은?

<파이썬 라이브러리를 활용한 머신러닝 2E>은 8개의 챕터로 구성되어 있습니다. 2019년에 출간딘 책의 개정판으로 최신 버전의 사이킷런을 반영하고 책을 읽으면 읽을 수록 독자를 배려한 부분이 눈에 띕니다. 또한, 원서보다 더 멋진 번역서라고 이야기하고 싶을 정도로 역자의 노력이 돋보이는 책이라고 생각합니다. 사이킷런을 활용하여 머신러닝을 학습한다면 매력적인 책입니다.

머신러닝을 처음 접하시는 분은 다소 어려울 수 있습니다. 하지만 하나하나 예제를 따라가며 조금씩 진행하다보면 조금씩 지식이 체득되는 것을 느낄 수 있을 것입니다. 또한, 예제가 구글 Colab 기반으로 되어 있으므로 실습을 진행하는 데 부담이 덜합니다. 환경설정 등으로 낭비되는 시간을 줄일 수 있고, 예제를 조금씩 고쳐가면서 실습하고 바로 확인할 수 있는 점은 매력적입니다.

<파이썬 라이브러리를 활용한 머신러닝 2E>은 파이썬을 어느 정도 알고 있는 분들이라면 이 책의 코드를 이해하는 것은 어렵지 않을 것 같습니다. 하지만 이 책에서 다루는 지식들은 쉽지 않습니다. 반드시 실습을 하고 응용을 해보는 것을 추천합니다. 단순히 실행하고 넘어간다면 쉽게 기억에서 지워질 것입니다.

사이킷런을 활용하여 머신러닝의 세계에 입문하는 분들에게 추천하고 싶습니다.

마치면서

<파이썬 라이브러리를 활용한 머신러닝 2E>은 매력적인 책입니다.
그리고 보면 볼수록 역자의 열정이 돋보이는 책입니다. 박해선 역자님에게 감사하다고 전하고 싶습니다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

sepping***l2022-03-31

파이썬 라이브러리를 활용한 머신러닝(번역개정2판)

warlord***l2022-03-31

파이썬 라이브러리를 활용한 머신러닝 도서리뷰

junghun***l2022-03-31

파이썬 라이브러리를 활용한 머신러닝 리뷰

‘파이썬 라이브러리를 활용한 머신러닝’은 사이킷런(scikit-learn)으로 머신러닝을 제대로 배울 수 있는 책입니다. 머신러닝(Machine Learning)은 어렵습니다. 직접 필요한 모델을 만들고 남들이 만들어 놓은 코드를 수정하기 위해서는 석박사 수준의 수학지식이 필요하다고 생각합니다. 머신러닝을 하려고 처음부터 수학공부를 하는건 좀 아니라고 생각합니다. 이 책은 사이킷런으로 머신러닝 사용에 중점을 두고 있습니다. 사용해보면서 머신러닝을 왜 사용하는지 이러한 데이터에는 어떤 모델을 사용해야하는지 조금은 이해할 수 있습니다.

이 책은 총 8개의 장으로 되어 있습니다. 머신러닝을 소개하는 1장을 제외하고는 만만한 장이 없습니다. 2장부터는 직접 코드를 실행해보고 결과를 보면서 천천히 학습해야 합니다. 적어도 저는 그랬습니다. 그나마 다행인 것은 개발환경을 따로 세팅할 필요없이 구글 코랩에서 쉽게 코드를 돌려볼 수 있습니다. 코랩을 사용하면 파이썬 개발 접근성이 좋아 회사에서도 짬짬이 공부를 할 수 있었습니다. 이 책은 사이킷런 뿐만 아니라 넘파이(numpy), 판다스(pandas), matplotlib 등 필요한 다양한 파이썬 라이브러리를 사용합니다.

파이썬 코드를 입력해서 나오는 출력 결과를 책에서 사진으로 모두 확인할 수 있기 때문에 코드를 직접 돌리지않아도 책을 보는대는 지장없습니다. 물론 직접 입력하고 출력하는 것이 공부에 도움은 됩니다. 지금 필요한 머신러닝 알고리즘을 찾아서 빨리 나의 데이터에 적용해 보는 것이 이 책의 목적이라 생각합니다. 최근접 이웃, 선형 모델, 나이브 베이츠, 결정 트리, 랜덤 포레스트, 그레이디언트 부스팅 결정 트리, 서포트 벡터 머신, 신경망 등 다양한 모델을 이 책에서 다루고 있습니다.

파이썬 사이킷런으로 머신러닝을 배우고 싶은 사람이라면 한번쯤은 읽어야할 책이라고 생각합니다. 저자가 사이킷런 핵심 개발자고 번역가가 머신러닝, 딥러닝 책을 많이 번역해봐서일까 책이 전반적으로 괜찮습니다. 책에 무슨 내용이 있는지 확인 후 나중에 필요한 내용을 찾아서 코드를 작성한다면 도움이 될 것 같습니다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

tbea***l2022-03-30

[Book Review] 파이썬 라이브러리를 활용한 머신러닝

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

Intro

개정되기 전부터 이 책은 머신러닝을 공부하기에 상당히 유명한 책 중 하나였습니다. 언젠가 한 번쯤 꼭 읽어보고 싶다는 생각을 했는데 이번 기회에 읽게 됐습니다!

Book Review

간단한 소개

쉽게 설명하면 머신러닝에 관한 입문서라고 할 수 있습니다. 그러나 바닥부터 완전히 구현하는 것이 아닌 사이킷런이라는 라이브러리를 이용해서 이미 구현되어져 있는 것을 배우는 책입니다. TensorFlow, PyTorch을 사용하여 딥러닝을 하는 책이 아니라, sklearn 기반의 머신러닝 기초 지식을 배우는 걸 목표로 하고 있습니다. 또한, 딱히 코드를 실행하기 위한 환경 설정이 필요없으며 이 책의 모든 코드는 구글 코랩(Colab)에서 실습할 수 있습니다.

주석

이번 책의 역자님은 박해선님입니다. 역시나 다를까 역자님께서 번역하신 다른 책처럼 이번 책도 번역이 깔끔하고, 역주를 너무 자세하게 잘 활용해주셔서 읽기 편했습니다. 일반적인 책들의 주석이라면 출처 또는 참고할만한 것들만 간단하게 정리하지만, 박해선님이 번역하신 책에는 독자가 이해하기 쉽도록 부가적인 내용들까지 적혀 있습니다. 그렇기에 주석도 꼼꼼하게 읽어보시는 것을 추천합니다.

마무리

마무리 chapter 8에서는 앞으로 어떤 걸 더 공부할지 가이드를 해줍니다. 이 책을 벗어나 더 깊게 머신러닝을 공부해보고 싶은 사람들에게 추천하는 전문적인 자료들입니다. 저는 이 책처럼 키워드를 던져주는 책을 정말 선호하는 편입니다. 친절하다고 느껴지며 독자에게 매우 도움되는 내용이라고 생각합니다.

한국어판 부록

한국어판 부록으로 KoNLPy를 사용하여 한국어 자연어처리를 해봅니다. 이밖에도 역자님께서 더 넣고 싶은 부분들은 부록으로 추가해서 넣은 모습을 확인할 수 있습니다. 또한, 재밌었던 점은 이 책의 저자가 한국 독자를 위해 인터뷰를 했었다는 것입니다. 사이킷런의 변화와 관련된 내용이 있으니 사이킷런에 관심있으신 분들은 이 부분도 충분히 읽을 가치가 있어 보입니다.

대상독자

머신러닝에 관심이 생겨 입문하시는 학부생들께 추천드리며, 사이킷런이 업데이트 됨에 따라 뭐가 바뀌었는지 궁금하신 분이 읽으셔도 좋을 것 같습니다.

one2***l2022-03-30

파이썬 라이브러리를 활용한 머신러닝(번역개정2판)

ingo***l2022-03-30

파이썬 라이브러리를 활용한 머신러닝

머신러닝은 어려운가?

사실 이 질문은 인공지능 책을 읽다보면 항상 드는 생각이다. 어렵기는 한데 포기할 정도로 어려운가? 라고 생각하면 또 그렇지는 않은것 같다. 어렵게 느껴지는 부분들은 대부분 수학이 나오는 부분들이다. 선형대수, 미적분, 확률등등 기초 수학 지식이 부족하면 앞으로 나아갈 수 없다. 그러니 어렵게 느껴질 수 밖에. 그럼에도 머신러닝을 전문으로 할 것이 아니면 기초 개념과 활용 정도만 잘 알아도 요긴하게 쓸 수 있지 않을까? 그렇게 보면 또 어렵지도 않다.

파이썬 라이브러리를 활용한 머신러닝

한빛미디어에서 번역 개정2판으로 출간된 '파이썬 라이브러리를 활용한 머신러닝'의 난이도는 B+ 정도이다. C 정도면 소설책 읽는 기분으로 쉽게 넘길 수 있는 반면에 B 정도면 정독해서 읽어야 내용의 이해가 바르게 되고 다음 챕터로 넘어갈 수 있다. 나름 조바심을 내지 않고 시간을 갖고 읽으면 꽤나 괜찮은 맛(?)을 느낄 수 있는 책이랄까? 책의 내용대로 파이썬 예제들을 실습해가면서 읽기를 추천한다. 코드를 눈으로 읽고 넘기면 읽기 지루할 수 있다. 열번 보는것보다 한번 코딩하는게 기억에 남는다.

머신러닝의 기초 개념과 그래프 삽화가 많이 들어가 있어서 인공지능의 개념잡기에 좋다. 대신에 파이썬에 대한 어느정도의 지식은 필수이다. 그런것까지 일일이 설명하면 답이없다.

개념서라기 보다는 실무서에 가까운 책

개념이 적용되는 과정을 볼 수 있고 해볼 수 있는 책이다. 학문적인 부분을 원한다면 조금 약한 부분이 있다. 머신러닝을 다루는 법을 배우기에 적합한 책이다. 읽으면서 부족한 부분이 많고 기억이 나빠서 그런지 계속 책을 되돌아 가면서 읽고 있는데, 운동하는 기분이랄까? 열심히 갈고 닦으면 좀 더 인공지능 전문가에 다가갈 수 있지 않을까 기대해본다.

zzo***l2022-03-28

사이킷런 머신러닝 책 단 한권만 추천하라면?!

파이썬 라이브러리를 활용한 머신러닝(번역개정2판) 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서

사이킷런 핵심개발자가 썼다는 것 하나만으로도 이 책을 설명할 수 있다. 1판으로도 사이킷런 공식문서를 보다가 이해되지 않는 부분이 있을 때 이 책을 찾아보면서 놓치고 있던 것들을 찾고 배울 수 있어서 1판이 출판된지 시간이 제법 지났어도 두고두고 봤다. 사이킷런은 버전1.0으로 넘어오면서 API에 여러 변화가 있었고 또 과거의 API로는 동작하지 않는 코드들도 일부 있다. 사이킷런을 사용하면서 점점 문서화나 시각화도 코드 밑바닥부터 구현해야 했던 디시전트리의 plot_tree 와 같은 모델을 설명하는 코드가 사용자 친화적으로 바뀌어 가고 있음을 느낀다.

개정2판을 통해 역자분의 부록도 늘어났다. 1판에서도 한국어 자연어처리 예제가 있었는데 한국어 자연어처리 예제와 함께 앙상블 모델에서는 에이다부스트, 엑스트라 트리, 히스토그램 가발 그레디언트 부스팅도 따로 설명하고 있다. QuantileTransformer 과 PowerTransformer, 반복 교차 검증에 대한 내용도 따로 집필이 되어 있다.

또, 1판 이후에도 여러 머신러닝, 딥러닝 책을 번역하고 집필하신 역자 분의 책이라 믿고 읽을 수 있는 책이다. 이 분의 역서나 집필서를 보면 이 분의 팬이 되지 않을 수 없다. 이 책의 1판을 통해 정말 많은 걸 배웠는데 업데이트 된 내용까지 읽어 볼 수 있게 되어 감사할 따름이다.

1판에서와 마찬가지로 사이킷런 핵심개발자인 안드레아스뮐러의 인터뷰도 있는데 이 부분이 가장 재미있었다.

이 책을 쓴 이유

복잡한 수학을 동원하지 않고 실용적으로 머신러닝을 구축하는데 중점을 두고 있는 책이며, 수식보다는 scikit-learn API 를 통해 설명하기 때문에 추상화된 API에 대한 몇 가지 사용법만 알고 있다면 알고리즘을 깊숙하게 이해하고 있지 않더라도 머신러닝 모델을 활용한 어플리케이션을 개발 할 수 있도록 해준다. 미적분, 선형대수, 확률, 통계에 대한 수식을 모르더라도 사이킷런이 제공해 주는 API 를 통해 모델을 개발하고 성능을 개선해 볼 수 있기 때문에 수학에 대한 부담감은 내려 놓고 읽을 수 있는 책이고 또 사이킷런 라이브러리가 그렇다.

어렵고 복잡한 수식보다는 사이킷런 API를 통해 주로 설명하고 또 핵심개발자에 의해 쓰여졌기 때문에 필수 알고리즘 위주로 설명하고 있다.

딥러닝이 큰 붐을 일으키고 있다.

딥러닝의 발전을 보면 꼭 딥러닝을 해야될 것 같지만 머신러닝으로 풀 수 있는 문제도 많다. 딥러닝은 의미를 찾기 어려운 데이터에서 특징을 추출하는데 뛰어나지만 정형 데이터에서는 여전히 머신러닝이 좋은 성능을 내며 딥러닝이 잘 맞지 않기도 하며 비정형 데이터를 딥러닝으로 훈련하기 위해서는 데이터와 자원이 많이 필요한데 소수의 연구자들만이 모델을 훈련시킬 자원을 갖고 있다는 내용도 공감이 된다.

최근에는 colab, kaggle notebook 등을 통해서 GPU를 직접 구매하지 않고 사용할 수도 있지만 비정형 데이터를 다루다보면 여전히 속도가 오래걸려 원하는 결과를 얻기까지 시간이 오래 걸릴 때가 많다.

가장 간단한 것부터 시작하자.

오픈소스에 기여할 때는 가장 간단한 것부터 시작하라는 조언도 마음에 든다. 무슨 일이든 가장 쉽고 간단한 것을 먼저 해야 성취감을 얻으면서 앞으로 나아갈 수 있다. 1판에서도 사이킷런에 공헌하기 보다는 다른 작은 프로젝트에 먼저 공헌해 보라는 인터뷰 내용이 있었는데 작은 것부터 시작해서 조금씩 성장해 가는 좋은 자세에 대한 조언도 마음에 든다.

1판에서도 인터뷰 내용을 재미있게 읽었었는데 2판에서도 인터뷰 내용이 인상적이었다. 사이킷런 버전1.0에서 변경된 부분이 많아서 워닝 메시지가 나올 때마다 비교해 보면서 개선된 점을 찾을 수 있었는데 개정2판을 통해 사이킷런을 좀 더 잘 익혀볼 수 있길 기대해 본다.

이 책은 가장 자주 보고 많은 걸 배울 수 있던 책이었는데 2판도 앞으로 자주 열어보면서 사이킷런을 사용해 보려고 한다.

이 리뷰는 한빛미디어의 나는 리뷰어다 이벤트를 통해 책을 제공받아 작성했습니다.

didals***l2022-03-28

머신러닝 활용서로 추천합니다

파이썬(Pytnon)에 딥러닝(Deep Learning)을 위한 Tensorflow, Pytorch, Keras 라이브러리가 있다면 머신러닝(Machine Learning)에는 사이킷런(skikit-learn)) 라이브러리가 있습니다. 머신러닝에 필요한 복잡한 작업들을 간단한 코드로 수행할 수 있도록 인터페이스를 제공해주기에 초보자분들도 미적분, 선형대수, 확률 이론을 모른채 코드 사용법을 익히면 머신러닝을 수행하실 수 있습니다.

머신러닝/딥러닝 관련 다수의 번역 경험을 가진 박해선 님의 도서 중 하나로 이번에 나온 번역개정 2판은 최근 업데이트된 skikit-learn 1.x 버전으로 설명이 변경되었으며, 개인 분석 환경이 없더라도 구글 코랩을 통해 실습할 수 있도록 제공합니다.

개인적으로 개정 전 도서를 소장하고 있고, 주변에 머신러닝을 시작하려는 분들에게 추천하는 책이었습니다. 이번에 좋은 기회로 리뷰하게 되면서 책을 받자마자 간단히 훑어 보았을 땐 풀컬러 이미지들이 가장 먼저 눈에 띄었습니다. (모든 이미지가 컬러라니..! ^^)

이후 시간을 잡고 자세히 내용을 살펴보면서 느낀 개선된 장점은 아래와 같습니다.

1. 구글 코랩(Colab)에서 바로 실행할 수 있도록 정리된 코드

2. 사이킷런 업데이트(1.x)로 변경 또는 추가된 기능들의 소개 및 비교

3. 풀컬러 적용으로 확보된 가독성 : 코드 및 주석, 출력 이미지 등

도서의 충실한 내용은 이미 알고 있었으나 이번 개정판에서 느껴진 학습자에 대한 배려는 너무 마음에 들었습니다.

초심자분들도 이해할 수 있도록 내용 설명을 하고 있으나 파이썬(Python)에 대한 프로그래밍 기초를 익히신 분들에게 추천드리는 책입니다.

leadbreak***l2022-03-26

머신러닝과 사이킷런에 입문하는 가장 좋은 방법!

https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=289735220

파이썬 라이브러리를 활용한 머신러닝

사이킷런의 핵심 개발자가 복잡한 수학을 동원하지 않고 실용적으로 머신러닝을 구축하는 모든 단계를 설명한다. 미적분, 선형대수, 확률 이론을 공부하지 않았어도 이 책을 통해 머신러닝을

www.aladin.co.kr

1. 이 책을 고른 이유

이 책의 표지에만 해도 AI에 관심을 갖는 사람이라면 흥미가 생길 문구가 무려 두 개나 있다.

첫 번째는 '사이킷런 핵심 개발자가 쓴', 그리고 두 번째는 '사이킷런 1.x' 반영이라는 부분.

인공지능에 대해 공부를 하는 학생이든, 현업에 종사하고 있는 실무자든 저 두 문구를 보고 매력을 느끼지 않을 수 있을까싶다.

2. 간단한 소개

한 줄로 설명하자면 다음과 같다.

Scikit-Learn과 mglearn을 이용한 머신러닝 전반에 걸친 이해와 실습

조금 더 자세히 설명하자면, 머신러닝에 대해 모르는 사람들조차 첫 장을 넘기기 시작하는 것만으로 머신러닝의 전주기에 대해 이해하고, 왜 그러한 과정이 필요한지, 그리고 어떤 효과를 거둘 수 있는지를 이해할 수 있도록 구성되어 있다.

이 과정에서 사이킷런의 버전 업데이트로 인해 추가된 기능이라거나, 하위 패키지들에 대해 설명하고 있으며 이러한 여러 알고리즘에 대해 수식을 제시하기는 하나, 이를 수학적으로 이해하라기보다는 인과(Input & Output)에 대해 설명함으로써 각각의 라이브러리가 어떤 기능을 가지고 있고, 어떤 의미를 지니고 있는지를 제시한다.

3. 이 책의 장/단점

위에서 보다시피 이 책은 기본적으로 머신러닝과 인공지능에 대한 사전 지식이 필요 없는 입문서다. 그 위에서는 실제 문제에 대한 해법을 찾는 머신러닝 기술자를 위해 썼다고 되어 있지만, 솔직히 말해 현직 실무자로서 그리 동의할 수는 없는 부분이다.

이 책은 명백하게 입문서용이며, 머신러닝 전주기에 대해 각 과정의 당위성, 가치를 중심으로 알고리즘 이해를 위한 mglearn의 사용, sklearn을 통한 실전적인 사용을 위한 책이다. 다만 실무자라고 한들, 하나의 라이브러리에 대해 모든 것을 알고 있을 수는 없다. 설령 알고 있었다하더라도 버전 업데이트로 인한 변경에 자유로울 수도 없다.

특히 버전이 0.x에서 1.x로 바뀌는 것은 생각보다 엄청나게 큰 변화이기에 이러한 부분에 관심을 가질 수 있다. 하지만 아쉽게도 이 서적은 머신러닝의 전주기에 사용할 수 있는 기본적인 패키지를 소개한 구판(개정 전 버전)에 대해 버전 업데이트가 된 내용을 추가로 서술한 것이기에 1.x 버전에 대해 좀 더 자세히 알고자 한다면 공식 문서를 참조하는 편이 좋을 것 같다.

정리하면 이 책은 철저하게 입문자용이며, 입문자용으로서는 무척이나 추천할만하다.

내가 처음 인공지능을 학습할 때에만 하더라도 적어도 세 권 이상의 책을 통해서만이(어쩌면 그 이상으로 많은 책을 통해서) 온전하게 머신러닝/딥러닝의 전주기에 대한 학습이 가능했다. 그 과정조차도 그저 책에서 소개된 내용을 단순히 복사 붙여넣기하는 수준에 불과했고, 각각의 패키지 안에 무슨 기능이 있는지 혹은 그저 따라치며 사용한 코드가 어떤 알고리즘이며 어떤 의미가 있고, 어떻게 변경/개선할 수 있는지 아는 것은 무척이나 어려웠다.

캐글에 올려진 여러 사람들의 코드를 역으로 해석하고, 이를 공부하면서 배워야 했고 그렇게 몇 번쯤 클론 코딩이나 다름없는 머신러닝/딥러닝 프로젝트를 반복한 뒤에야 10%쯤 내 코드를 집어넣을 수 있었다. 심지어 이때에도 머신러닝 전주기에 대한 개념은 없어 간혹 사소하지만 아주 중요한 실수를 저지르곤 했다.

그런 의미에서 파이썬에 대해 어느정도 다룰 줄 알고, 머신러닝에 대해 관심을 가지고 있다면 이 책을 추천한다.

이전에 머신러닝/딥러닝을 처음 배우는 이들에게 가장 추천할만한 도서로 '이토록 쉬운 머신러닝&딥러닝 입문'을 추천한 적이 있는데, 이 책도 그 반열에 끼워넣을만한 책으로 생각된다.

4. 이 책의 특징

위에서 이 책을 입문자에게 추천할 두 권의 책 중 하나로 선정했는데, 엄밀히 말해 두 책은 성격이 다르다. 이전에 추천한 '이토록 쉬운 머신러닝&딥러닝 입문'이라는 책이 아무래도 머신러닝보다는 딥러닝에 초점이 맞춰져 있고, 전주기에 걸친 파이토치 기반의 코드 구현에 대해 자세히 설명함으로써 [딥러닝 & Pytorch]에 집중한다면, 이 '파이썬 라이브러리를 활용한 머신러닝'의 경우 sklearn과 mglearn을 바탕으로 머신러닝에 대해 중점을 두고 있으며, 알고리즘에 대한 수학적 이해없이 이를 제대로 활용하는 법을 가르침으로써 [머신러닝 & Scikit-Learn]에 더 집중하고 있다.

또한 이 책이 개정판이 나오는 과정에서 옮긴이로 참여하신 분의 주석이 아주 유용하다 보여진다. 일반적으로 주석은 특정 주장에 대한 출처나 참고할만한 것들을 간단히 정리하는 것에 그친반면 이 책은 간혹 한 페이지의 20% 정도는 차지할 정도로 옮긴이의 주석이 많다. 그리고 그 많은 주석들이 아주 유용하다.

이 주석들은 각 알고리즘에 대한 실제 분석, 개정 버전의 유무와 그로 인한 변화, 혹은 책에서 설명하지 않은 실무적 내용이나 실용적 관점에서의 평가를 제시한다. 때문에 이 책을 읽는 이들에게 본문만큼이나, 때로는 본문 이상으로 옮긴이의 주석을 꼼꼼하게 살펴보고 넘어갈 것을 추천한다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

enetr***l2022-03-22

사이킷런은 이책으로 마스터 하세요

■ 책 실습환경 / 대상독자

실습환경은 이번에 코랩으로 구성되어서 제공됩니다. (환경구성에 일관성이 제공되어서 실습에 편리함을 제공합니다.)
지금 시점의 코랩에서는 최신 Stable 사이킷런이 설치되어 있습니다.

소스 코드도 별도로 github에서 제공되고, 변경사항은 지속적으로 관리됩니다. (박해선님의 github에서 관리)
대상독자
- 머신러닝, 딥러닝을 시작하시는 분들
- 다른책에서 사이킷런을 조금 경험해보셨는데, 좀 더 구체적으로 학습하시려고 하는 분들
- 사이킷런 1.0 정식버전의 코드를 경험해보고 싶으신 분들
- 머신러닝을 좀 더 깊게 학습을 하고 싶으신 분들
- 박해선 저자/역자님을 좋아하시는 분들

■ 책에 대한 소감

대부분의 머신러닝,딥러닝 책에서 기본적으로 사이킷런이 소개되어지고 설명되어집니다.
ex) 최소한 지도/비지도학습에 대해서 분류(classification - KNeighborsClassifier),회귀 (regression-KNeighborsRegressor)등을 사용해서 언급 되어집니다.
이 책을 통해서 본격적으로 사이킷런을 학습할 수 있고, 최신버전으로 제공되는 예제는 실습 및 학습에 많은 도움이 됩니다.
현업에서 머신러닝으로 해결가능하고, 조금 더 의미있는 결과를 낼 수 있는 다양한 경우가 많습니다.
머신러닝에서 사이킷런은 매우 중요한 위치에서 많은 편리한 기능을 제공합니다.
사이킷런의 핵심개발자가 출간한 책을 믿고 많은 부분을 학습할 수 있습니다.
1.0으로 릴리즈된 버전을 실습해보고, 코드를 경험할 수 있습니다.

조금 더 구체적으로 머신러닝을 다루고 싶고, 사이킷런을 좀더 학습을 하고 싶은 경우에 많은 도움이 될 것 같습니다.
이 책은 사이킷런을 이용해서 머신러닝에 대한 내용을 다루어 지고 있기 때문입니다.

1b***l2022-03-17

머신러닝을 어려운 수학적 수리통계를 이용치 않고 scikit-learn 라이브러리를 이용 쉽게 구현하도록 안내하는 책

이 책은 국내에서 2017년 초판 발행후 2번째로 번역개정한 판본으로 코랩에서 바로 예제를 실행하도록 수정 및 사이킷런 변경사항등을 수정해 발간한 도서로 어려운 수학기호가 난무하는 다른 머신러닝 책과는 달리 사이킷런 라이브러리를 활용해 파이썬 언어로 이를 구현하도록 안내하고 있어 난해함으로 머신러닝에 대한 접근을 포기했던 일반인에게도 진입장벽이 낮아지게 되고 역으로 이러한 실습을 통해 수학적, 수리통계적 접근을 가능하게 가이드 하고 있다.

저자는 안드레아스 뮐러, 세라 가이도 2명이 공저하였으며 안드레아스 뮐러는 독일 본대학에서 머신러닝으로 박사학위를 받은 후 아마존에서 컴퓨터 비전부문에서 연구자 생활을 하다 다시 뉴욕대 데이터 과학센터로 자리를 옮기고 현재는 컬럼비아대에서 'Applied Machine Learning' 과목을 가리치고 있다.

한편, 다른저자 세라 가이도는 스타트업에서 활동하는 데이터 과학자로 미시건대 대학원에서 수학하였다.

저자의 약력에서 살펴볼 수 있듯 기술에 대한 근본 이해를 바탕으로 응용성, 실용적 활용에 촛점을 두고 머신러닝을 바라보고 있어 본책은 현업에 종사하며 이러한 기술을 어떻게 활용할 것인가에 대한 원초적 물음을 가진 분들에게도 등불이 될 수 있어 보이며 책 내용은 기본적으로 파이썬 코드를 통해 실습이 가능하도록 구성되어 있다.

책 내용은 전체적으로 본문 493페이지 가량의 두껍지도 않고 얇지도 않은 적당한 분량으로 총 8장으로 구성되어 있으며

8장중

1장은 머신러닝에 대한 간단한 소개와 사이킷런, 파이썬에 대한 간단한 설치 안내와 통계학에서 대표적으로 다루는 예제인 붓꽃 품종 종류에 대한 머신러닝에 대해 간략히 설명하고 있다.

2장은 지도학습에 대해 지도 학습 알고리즘을 중심으로 다루고 있다

3장은 비지도 학습과 데이터 전처리를 다루고 있으며 통계학에서 많이 활용하는 주성분분석(PCA), 비음수 행렬 분해, 군집등에 대해 학습한다.

4장은 데이터 표현과 특성공학을 다루고 있으며 구간분할, 이산화, 선형모델, 트리모델등을 다룬다.

5장은 모델에 대한 평가와 성능향상을 언급하고 있으며 사이킷런의 교차검증, k-겹 교차 검증, 반복 교차 검증을 다루고 있다.

6장은 알고리즘 체인과 파이프라인을 다루고 있으며 파이프라인 구축, 그리드 서치에 대해 설명하고 있다.

7장은 텍스트 데이터 다루기를 설명하고 있으며 비정형 데이터 분석등을 통한 간략한 맛을 보여준다.

8장은 1장에서 7장까지의 내용을 마무리하는 장으로 앞의 내용을 정리하며 앞에서 설명중 부족했던 부분인 다른 머신러닝 프레임워크, 신경망등에 대해 언급하고 있다.

이 책의 장점으로는 앞에서도 언급하였지만 어려운 수학을 앞세워 머신러닝에 대해 호기심을 가져오도록 사례 중심으로 접근하여 궁극으로 다시 수학으로 역회귀 하도록 하는 좋은 책이라고 볼 수 있다.

전체적인 총평은 난이도가 높은 편은 아니라고 보이나 이미 컴퓨터학 통계학관련 전공 학생, 전공과 무관하게 프로그래밍의 개념이 어느정도 있는 직장인, 파이썬에 대해 알고 있고 많이 공부하고자 하는 초중고생 일반인에게 적합해 보이며 기본적으로 파이썬, 프로그래밍 언어에 대한 이해도를 가지고 있다는 전제로 서술되어 있으므로 이에 대한 이해가 부족한 독자들은 책을 읽기전이나 읽는 도중에 이와 관련한 학습이 필요하다고 생각된다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."