머신러닝 실무 프로젝트

wizm***l2018-07-23

이 책 목차를 보고 한 번 놀라고, 정말 목차 대로 내용이 나왔는지 확인하면 두 번 놀랐다. 모 쇼핑몰 쇼핑 어드바이저 챗봇을 구축하고 운영하면서 익히며 고민했던 경험과 사례가 이 책에 그대로 녹아 있었기 때문이다.

1부. 머신러닝 실무 노하우
- 머신러닝 프로젝트 처음 시작하기
- 머신러닝으로 할 수 있는 일
- 학습 결과 평가하기
- 기존 시스템에 머신러닝 통합하기
- 학습 데이터 수집하기
- 효과 검증하기

2부. 머신러닝 실무 프로젝트
- 프로젝트 1 : 영화 추천 시스템 만들기
- 프로젝트 2 : 킥스타터 분석하기
- 프로젝트 3 : 업리프트 모델링으로 마케팅 효율 높이기

이 책은 228쪽으로 얇다. 이정도 분량에는 일장일단이 있다. 애초에 저자는 머신러닝 입문서가 아님을 밝혔다. 아예 코세라 강의를 듣거나 입문서를 먼저 보라고 추천한다. 코드 한 줄 한 줄을 상세히 설명하지 않는다. 대신 Github에 Jupyter Notebook 코드를 올려 두었다.

그렇다 해도 책을 휘리릭 읽으면 내가 뭘 읽었는지 머리가 뭐가 남았는지 모를 수 있다. 우선 책을 1회차 읽고, 2회차에는 꼭 실습환경을 꾸며서 실제로 소스 코드를 실행해 보면 좋겠다. 윈7 사용자는 VM으로 Linux 환경을 먼저 구성해야 하는 번거로움이 있다.

이 책은 적지 않은 부분을 모델 평가에 할당했다. 실제로 참 어려운 부분이다. 다른 머신러닝 책도 모델 평가에 대해 다뤘지만, 데이터를 학습과 테스트 용도로 나누는 기술에 대해 설명하고 끝나는 때가 많았다. 반면 이 책에서는 업리프트 모델링과 적용방안까지 언급하면서 저자가 했던 고민에 대해 알려주는 게 인상적이다.

PC 한 대만 쓸 수 있는 학생은 이 책의 진가를 다 알기는 힘들 듯싶다. 하지만 회사원인 머신러닝 입문자는 회사의 자원을 쓸 방법을 찾아서 이 책의 범위를 뛰어넘은 실습을 해보자. 실력이 일취월장함을 자각할 것이리라.

덧. 번역서로 생각하지 못할 정도로 자연스러웠던 게 기억에 남는다.

genk***l2018-07-21

그야말로 '실무'를 위한 책.

rjs1***l2018-07-19

이론을 익혔다면 이제 실무에서의 활용법을 익혀보자!

전체적인 구성은 다음과 같다.

1부. 머신러닝 실무 노하우
- 머신러닝 프로젝트 처음 시작하기
- 머신러닝으로 할 수 있는 일
- 학습 결과 평가하기
- 기존 시스템에 머신러닝 통합하기
- 학습 데이터 수집하기
- 효과 검증하기
2부. 머신러닝 실무 프로젝트
- 프로젝트 1 : 영화 추천 시스템 만들기
- 프로젝트 2 : 킥스타터 분석하기
- 프로젝트 3 : 업리프트 모델링으로 마케팅 효율 높이기

이 책의 저자도 서문에서 언급하는 것처럼 이 책의 난이도는 중급 혹은 그 이상이다. 전체적인 책의 맥락은 이론적으로 머신러닝을 활용하는 것보다는 이론을 넘어 지금까지 쌓아둔 이론을 적재적소에 활용하는 방향으로 구성되어 있다.

따라서 이 책은 머신러닝에 입문하는 초보자, 학부생 수준으로는 다소 버거울 수 있다. 그렇기에 이 책을 읽기 전에 한빛미디어의 '밑바닥부터 시작하는 딥러닝'을 읽는 것을 추천한다. 본 도서와 그 방향이 다르지만, 상대적으로 쉽게 쓰였다는 점과 머신러닝의 한 분야인 딥러닝을 이해함으로써 보다 효율적으로 '머신러닝'이라는 학문에 접근할 수 있을 것이다.

위의 구성과 같이 1부에서는 '실무에서는 어떻게?'라는 초점에 맞춰 머신러닝 프로젝트를 진행하는 방법에 대해 설명한다. 2부에서는 이런 프로젝트 방법론을 바탕으로 프로젝트를 진행하게 된다. 따라서 이론을 갖춘 이가 1부의 프로젝트 진행 방법을 살펴보고 본격적으로 2부의 예제를 따라가며 머신러닝을 보다 효율적으로 이해한다.

마지막으로 이 책에 대해 필자 개인적으로 아쉬운 부분은 내용에 비해 편집과 그 구성이 부족하다고 느꼈다는 것이다. 특히 1부에서 전체적인 문맥 구성과 사용된 어휘가 일반적이지 않았다고 느꼈다. 원서를 그대로 옮겼다면 어쩔 수 없는 부분이지만, '린 스타트업' 혹은 '스크럼'에 기반하여 책을 서술하는 부분에서 해당 분야를 알지 못하는 연구원이나 이론보다 체험적으로 익힌 비전공자라면 다소 난해하게 다가올 것이라 생각하게 되었다.

dragm***l2018-07-12

머신러닝 프로젝트는 어떻게 진행되는가 'ㅅ')

이전에 읽은 '신경망 첫걸음' 책으로 신경망과 딥러닝 학습의 기초 개념을 익힌 나는 이제 부자가 될 수 있는 작은 가능성을 손에 넣었다.

마치 이 느낌은 금요일 저녁에 로또 1,000원 어치를 구입하고, 다가올 장밋빛 미래에 대한 기대감에 심장이 두근거리는 느낌이랄까.

그런데, 대체 이걸로 나는 무얼 만들 수 있는 것인가. 'ㅅ') 아내와 강아지가 꿀잠 자고 있는 내게 허락된 이 황금 같은 새벽 시간에,

나는 AI 로 무엇을 만들어야 일리x어 더콰x엇 처럼 너와 나의 연결고리 전혀 없었던 람보르기니를 몰아 볼 수 있는 것인가.

이것은 비단 나만 하는 고민은 아닐 것이다. 지식은 생겼는데, 뭘 만들어야 될지 잘 모르겠는거. 'ㅅ')

이것은 마치 초, 중, 고등학교, 심지어 대학교 때까지 수학을 배우면서 교수님들과 하던 얘기가 떠오르는 그런 상황인 것이다.

'교수님, 근데 수학 배워서 어디에 써먹나요?
응. 네가 졸업하고 취업하는데 써먹지.' // 아하 그렇구나. 'ㅅ') 교수님은 역시 대단해.

개발자에게는 실제 프로젝트를 수행하거나, 샘플 프로젝트에서 참고하며 얻는 경험/지식이 매우 중요하다.

개발 과제들을 찾아 마주하고, 그 수행 과정을 살펴보며 한걸음씩 정진하다 보면 해당 분야의 기술에 익숙해져 있는 자신을 발견하게 되는 것이다.

그러다가 재수 좋으면, 진정 만들고 싶은게 생기기도 한다. // '주객전도' 이지만, 고민만 하는 것보다 백배 낫다. 하지만, 물론 안 생길 수도 있다. 'ㅁ') 캬캬.

문제는 나 같은 머신러닝 문외한이, 머신러닝 실무 프로젝트의 과정을 어디서 참고해야 하는가. 'ㅅ')

// 아부지. 아들은 이 책으로 머신러닝 실무를 깨우치려 합니다.

한빛미디어는 영악하게도 개발자들이 겪는 이러한 프로젝트 과정 엿보기에 대한 갈증을 감지하고,
이 책을 출판한 것임에 틀림없다.

머신러닝 프로젝트의 과정을 전체적으로 설명하고,
이 과정들 하나하나와 관련된 지식들을 한 단계씩 풀어 설명해나간다.

이후, 3가지 다른 종류의 '실무 프로젝트' 과정을 통해, 데이터 설계/수집 방법과 알고리즘 제작 방법/이론, 데이터 분석 과정과 작성된 보고서의 예시, 결론 도출과 서비스에 적용하는 과정을 두루두루 안내하고 있는데 개인적으로는 '추천 서비스 시스템' 이 어떻게 설계되는지 알고리즘을 살펴볼 수 있는 부분이 좋았다. 'ㅅ')!

실무보다 일단 머신러닝의 기초 개념들과 알고리즘 자체가 궁금하신 분들은 '핸즈온 머신러닝' 도서를 참고하는 방향으로 고고싱하시길. // 하지만, 이걸 언제 다 읽...

이 도서는 기존 머신러닝 관련 도서들보다는 얇은 두께로
본인처럼 '머신러닝 실무 프로젝트' 의 전체적인 흐름과 세부를 살펴보고 싶은,
낮은 베개를 선호하시는 분들과 궁합이 좋을 것이다. 'ㅅ') 후후.

love***l2018-07-11

머신러닝 실무 프로젝트

장점; 읽어보면 실무를 해본 사람들이 썼다는 걸 알 수 있다. 이론도 설명하지만, 실제 경험에서 오는 설명이 굉장히 와 닿는다
장점이자 단점; 책이 두껍지 않기 때문에 읽는데 부담이 좀 덜 하지만 자세한 내용을 원하는 경우 약간 부족하다는 생각이 들 수 있다

Part I

1장

특히 ‘1.2.2의 머신러닝을 사용하지 않는 방법 검토하기'가 인상적이다. 실무를 해본 사람들과 이야기해보면 흔히 하는 이야기지만, 출간하는 책에서 이렇게 쓰는 걸 보기는 힘들다. 사용하는 방법의 장점을 더 부각시켜야 독자가 흥미를 갖고 책을 읽지 않겠는가. 하지만 이렇게 솔직하게 현실을 썼다는 점에서 오히려 믿음이 갔다.

2장

머신러닝의 주제에 대한 대-소 분류 및 개념 설명을 하는데, 정말 정신없이 지나간다. 나 같이 어설프게 아는 사람에게는 다른 책에서 봤던 개념에 대한 설명 정도로만 이해하고 지나가게 될 거 같긴 하지만, 정리가 잘 되어 있어 읽기 편하다.

3장

평가를 위한 개념을 설명한다. 정밀도 정확도 재현률이나 TP, TN, FP, FN은 언제나 봐도 헷갈린다. 마이크로-매크로 평균이란 건 처음 봤고, RMSE와 결정 계수는 이름만 아는 정도인데, 일단 읽으면서 아~ 이랬지 하고 넘어갔다. 아마 또 잊어버려서 나중에 다시 봐야겠지.

4장

내용은 간단하지만, 실무에서 여러가지 경험을 통해 문제를 겪었다는 걸 느낄 수 있었다. 꼭 머신러닝이 아니더라도 시스템 구성의 기본적인 부분에 대해 궁금한 사람에게는 도움이 될 수 있다. 특히 로그에 대한 내용은 정말 공감이 간다. 간단한 프로그램이 아닌 이상 시스템에서는 로그를 남기고 쉽게 추적할 수 있어야, 문제가 생기건 개선을 하건 필요한 정보로 활용할 수 있는데, 대규모 로그를 잘 설계해서 사용하기 쉽게 만들면서도 필요한 정보를 즉각 보는 일은 정말 어렵다. 이런 면에서 참고할 만한 이야기가 많아 좋았다.
다만 아무리 봐도 그림 4–1, 2, 3이나, 5, 6, 7은 같은 그림으로 보이는데, 색을 다르게 했는데, 책에서는 흑백이라 구분이 가지 않는 건지 잘 모르겠다. 다시 봐도 똑같은 그림으로 보이는데.