파이썬을 활용한 베이지안 통계(2판)

tee***l2022-12-31

이론/코딩/실습의 놀라운 조화로 읽기 쉬운 책

rhj4***l2022-12-30

통계 실습하고픈 사람들에게 추천하는 도서

gand***l2022-12-30

데이터사이언스를 공부하는 이들을 위한 기본 교재

el***l2022-12-30

재미있는 문제와 함께 차근차근 익힐 수 있는 책

그동안 어렴풋이만 알고 자세히는 모르고 있던 <확률과 통계>를 공부하는 중이다. 사건, 검정, 유의수준, 포아송, t-분포....익숙하면서도 낯선 단어들. 물론 고등학교 때 수II에 있는 확률통계 부분을 엄청 열심히 공부한 적은 있다. 미적분도 마찬가지. 그런데 그게 언제적 얘긴지...

머신러닝을 본격적으로 공부하면서 베이지안에 대해서도 정확히 알아야 할 필요성을 느껴서 이 책을 선택했다. 넘파이와 판다스에 능하면 좋지만 그렇지 않아도 상관 없고, 미적분이나 선형대수학 필요 없고 미리 알아둬야 하는 통계적 지식도 없다고 한다. 아니, 얼마나 친절하길래... 대부분은 실생활 문제를 사용해서 설명한다고 하니 기대가 되었다.

시작은 조건부 확률에서 시작해 베이즈 정리를 도출한다. "나에게 초콜릿을 준 사람이 나를 좋아할 확률은?" 영상을 통해 너무나 익숙한 내용이다. 가볍게 통과. 2장은 문제 해결에 필요한 완벽한 데이터를 가지고 있지 못한 경우에 유용한 베이즈 정리에 대한 이야기다. 중간중간 제시하는 퀴즈들이 궁금증을 일으키면서도 정답을 맞히면 뿌듯함을 주고, 못 맞히면 "왜?"하며 더 생각하게 만들어 준다. 퀴즈가 단순해서 부담이 없다. 한 장을 마무리할 때마다 나오는 연습문제도 재미있다.

3장은 분포. 시각화 도구를 이용해 쉽게 분포표를 그려보기는 했는데 empiricaldist 라이브러리를 사용해보는 것은 처음이다. 데이터에 기반한 경험적(empirical) 분포를 나타내는 데 사용하는 이 라이브러리는 책 전반에 걸쳐서 사용된다. 주피터노트북을 설치하고 실습을 하도록 안내하고 있지만 구글 colab에서도 잘 된다.

4장에서는 비율추정. 이항분포, 베이지안 추정, 삼각사전분포(처음에 무슨 말인가 했다....사전분포가 삼각형 모양을 이룬다는 말이었다), 이항가능도함수(역시 영문표기가 더 이해가 잘 된다), 마지막으로 베이지안 통계. 베이지안 통계에 대한 설명은 아주 간략하다.

5장은 수량 추정에 관한 이야기. 이제부터 집중을 해야 할 시간이다. 사전확률의 분포 변화에 따라 사후확률의 분포가 어떻게 변할지 확인해보고 사전확률 개선하는 방법들을 생각해 본다.

책은 20장 근사베이지안 계산까지 단계적으로 나아간다. 그 내용을 여기에 다 정리할 필요까지는 없을 것 같다. 우선 책이 아주 두꺼운 편은 아닌데(인덱스까지 412페이지) 20개의 장으로 나뉘어 있다. 자잘한 주제로 나누어서 한 가지에 대해서 설명하고 앞으로 나아가는 방식이다. 각 장마다 뒷부분에 내용을 정리해 놓았고 연습문제도 있다. 문제들 하나하나가 재미있다. 통계학 책에서 많이 봤을 법한 문제들도 많이 있다. 이렇게 자잘하게 나누어 설명한 부분이 내가 보기엔 이 책의 최대의 미덕인 것 같다. 2~7줄 정도의 코드를 실행해 가면서 진행을 하기 때문에 지루하지는 않지만 상대적으로 코드에 대한 설명은 많지 않다. 그냥 해당 기능을 수행하는 메소드가 무엇이 있는지 소개하는 정도로 보인다. 확률 통계 문외한 보다는 그래도 어렴풋이라도 어느 정도 감을 잠을 수 있는 사람이 보기에 적당한 책인 것 같다.

ksh***l2022-12-30

이 책이라면 통계를 몰라도 이해할 수 있다!

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

이번 책 리뷰는 실제 책말고 e-book으로 받아서 진행하게 되었습니다. 아이패드를 많이 활용하기도 하고, 실제 책은 무거워서 들고 다니기 어려울 때가 많다보니 확실히 e-book으로 받아보니 편했습니다. e-book을 처음쓰다보니, 구글 Play 북 어플을 깔아서 사용하고 있는데, 실제 책에 필기하거나 표시하기가 어려운 부분이 있었습니다. 혹시 굿노트에서 볼 수 있는 방법이 있다면, 알려주시면 감사하겠습니다.

1. 대상 독자

이 책은 파이썬에 익숙하지만, 베이지안에 대해 잘 알지 못하는 분들에게 적합한 책이라고 생각합니다. 일단, 통계에 대한 선행지식이 없어도 이해할 수 있도록 설명합니다. 베이지안을 이해하기 위해 필수적인 조건부확률의 개념도 사례를 예로 들어 설명하기에 통계 지식없이도 충분히 따라갈 수 있습니다. 또한, 중간 중간 pandas나 numpy를 활용해서 직접 파이썬으로 계산하는 과정을 통해 이해하도록 돕고 있는 책입니다.

2. 이 책의 특징

1) 세부적인 설명과 문제

베이즈 정리는 잘 알고 있지만, 실제 위에서 나오는 통시적 베이즈의 개념으로 활용될 때가 많습니다. 그러다보니, 단순 개념을 나열하기 보다는 조금 더 이해하기 쉽도록 풀어서 설명하고 있다는 점이 좋았습니다. 해당 페이지 전에는 베이즈 정리를 실제 예시로 설명하고 있다는 점에서 이해하기 좋았습니다. 또한 각 챕터가 끝날 때 연습 문제가 있는데, 해당 문제들을 통해 개념을 한번 더 정리할 수 있다는 점에서 괜찮았습니다.

2) 이론과 프로그래밍 병렬 구조

아무래도 책을 공부하다보면, 이론을 이해하고 직접 구현하려고 하면 어렵고 다시 이론으로 돌아가야 하는 경우가 많이 존재하는 데, 앞에서 제시한 예시를 바탕으로 프로그래밍과 설명이 병렬구조로 적혀있어서 이해하기 좋은 것 같습니다. 한 가지 예시로 개념을 이해하기 보단 여러가지 예시를 들어서 설명합니다.

3. 총평

베이지안 이론을 공부하고 싶지만, 어디서부터 해야할 지 모르겠고 생각보다 딥한 내용까지 공부해야 될 것 같다면, 한번 보시는 것을 추천드립니다. 물론, 보시기 전에 pandas나 numpy는 어느정도 다룰 수 있는 상태라면 더 좋을 것 같습니다.

leeseok8***l2022-12-30

[도서 리뷰] 파이썬을 활용한 베이지안 통계

통계를 다루는 분들은 기본적으로 베이지안 통계에 대해서 잘 알고 있을 것이라 생각한다. 하지만 이를 개발하는 건 다른 이야기인데 이 책은 통계를 수학적으로 자세히 알려주는 것보단 pandas 등의 라이브러리를 활용해서 어떻게 코딩해야 할지를 알려주는 책이다.

많은 리뷰에도 나와 있듯이 이 책은 독자를 파이썬은 다룰 줄 알 뿐만 아니라 어느정도 통계 지식이 있는 사람으로 설정한 것 같다. 작성자의 경우 학부생 이후로 통계를 자주 다루지는 않았지만 그냥 관심사라서 꾸준히 읽고 있었다. 또한 직업 자체가 개발자기 때문에 코딩 자체에는 어려움이 없었다. 그래서 그런지 단순히 흥미로 읽어보기에는 딱 적절한 수준이 아니였나 싶다.

책의 목차만 봐서는 통계 기본부터 알려주는 것 같이 되어 있지만 사실상 처음에는 그냥 몸풀기라 보면 된다. 필요한 단순한 지식만을 짧게 이야기하고 넘어간다. 그렇기 때문에 통계적 지식이 없다면 이해하기 어려울 수도 있다. 그 후에 바로 베이지안 정리에 대해 알려준다. 사실 요즘엔 모르겠지만 작성자의 나이 정도라면 고등학교 수학에서 자주 봤던 문제일 것으로 생각한다. 그리고 관련된 여러 지식들을 차근차근 알려준다.

책에서는 그래도 개념에 대해서 거의 두세줄에 하나씩 코드가 적혀져 있다. 그래서 더 책을 읽으면서 이해하기 쉬웠던 것 같다. 책 내용 자체가 어렵지 않고, 대부분의 독자는 아마 파이썬정도는 알고 읽지 않을까 싶어서 기초적인 내용이라고 보는 것이 좋을 것 같다. 개인적으로도 통계와 분석에 관한 책에 파이썬 기초가 적혀 있는 책들을 좋아하지 않기도 하고 말이다.

베이지안 통계를 파이썬 코드로 작성하고 싶은 사람들에게는 적절한 책인 것 같아 추천하고 싶고 요즘 이 분야에 흥미를 가지고 개인적으로 보는 사람들도 많을 텐데 그런 사람들에게도 추천하고 싶은 책이다.

1b***l2022-12-24

[파이썬을 활용한 베이지안 통계] 파이썬으로 베이지안 통계를 실습하고 머신러닝에 대한 이론적인 접근을 원하는 사람들을 위한 책

이 책은 '14년 7월 초판 1쇄 발행한 책으로 2022년 6월 현재 2판 1쇄 발행본으로 전면 개정판이다. 베이즈 추론은 통계학을 전공한 사람들은 잘 알겠지만 예전에는 통계학개론 과목에 한개 챕터 정도로 넘어가던 내용이 었으나 최근 머신러닝이 빅데이터를 활용하고 이를 수정해 나가며 원하는 해를 구하는 방식이 베이즈 추론의 로직과 유사하며 전산 환경이 어마어마하게 발달함에 따라 이제는 이론이 아닌 실제 구현을 해볼 수 있는 수준에 도달하게 되었다.

기억하기로는 대학원에서 특론 등으로 강좌가 개설되던 것이 중요성이 점차 증대함에 따라 이제는 학부에서도 한 학기 3학점 과목으로 개설되는 대학도 늘어나고 있다. 하지만 아직 실제 예제를 활용하는 부분에 포커스를 맞추기 보다는 수리통계적 접근이 더 강한 강단 환경으로 프로그래머, 직장인, 실습을 병행하고 싶어하는 학생들에게는 일말의 아쉬움이 있었는데 본 책을 통해 이러한 갈증을 해소할 수 있을듯 보여 매우 기쁘게 생각된다.

책 저자 앨런 B. 다우니 (Allen B. Downey)는 매사추세츠 보스턴 소재 올린 공과대학교(Olin College of Engineering) 전산학과 교수로 MIT에서 학석사를 수여받았으며, 캘리포니아 버클리대학에서 박사학위를 받았다.

저자의 약력에서 살펴볼 수 있듯 본 책 내용은 기본적으로 대학 교과서 편제로 챕터가 구성되어 있으나 뜬 구름 잡는 내용이 아닌 실제 회사에서 많이 사용하는 예제와 실제 코드를 적용하여 실무자에게 많은 도움이 되어 보인다.

본문은 409페이지 가량의 분량으로 보이며 책상앞에 두어도 큰 부담이 되지는 않고 총 20장으로 구성되어 있다. 그 내용을 간단히 살펴보면,

1장은 가볍게 은행원 린다 사례를 통해 베이즈 이론에 대한 이해를 돕고있으며 베이즈 통계를 위한 확률이론의 설명을 통해 워밍업을 하고 있으며 앞에서도 언급했듯이 답답한 이론서 체제가 아닌 실습서에 가까운 편제로 다양한 예제를 삽입하고 있다.

2장은 베이즈 정리에 대한 더 깊은 이해를 위한 쿠키문제, 통시적 베이즈, 베이즈 테이블, 주사위문제, 몬티 홀 문제 등을 다루고 있다.

3장은 분포, 확률 질량함수등을 언급하고 있으며 101개의 쿠키그릇, 주사위 문제, 주사위 갱신등을 언급하고 있으며 챕터 마지막엔 모든 장과 마찬가지로 연습문제로 마무리 하고 있다.

4장은 유로 동전문제, 이항분포, 베이지안 추정, 삼각사전분포 등을 설명하고 있다.

5장은 기관차 문제, 사전확률에 대한 민감도, 역법칙 사전확률, 독일 탱크 문제, 정보성 사전확률 등을 다루고 있다.

6장은 공산과 가산을 다루고 있으며 글루텐문제 등을 다루고 있다.

7장은 최소값, 최대값, 혼합 분포에 대해 설명하고 있다.

8장은 포아송 과정을 월드컵 문제와 더불어 감마분호, 지수분포등 여러 분포 등을 언급하고 있다.

9장은 의사결정 분석을 우승확률, '그 가격이 적당해요' 문제 등을 이용해 보여주고 있다.

10장은 검정에 대한 주제를 밴딧 사례등을 통해 다루고 있다.

11장은 비교에 대해 다루고 있으며 외적연산, 결합분포, 주변분포, 사후조건부확률 등을 다루고 있다.

12장은 분류에 관하여 펭귄데이타, 정규모델, 갱신, 나이브 베이지안 분류, 다변량 정규분포 등을 보여준다.

13장은 추론을 설명하며 매개변수 추정, 사후 주변분포, 요약통계 사용하기 등에 대해 다루고 있다.

14장은 생명보험등 의학 연구등에 많이 이용되는 생존 분석에 대해 다루고 있으며 와이블 분포, 사후평균, 사후예측분포에 대해 이야기 하고 있다.

15장은 표식과 재포획을 다루고 있으며 그리즐 곰 문제, 두 개의 매개변수를 사용하는 모델, 링컨 지수 문제 등을 언급하고 있다.

16장은 로지스틱 회귀를 학습하며 로그공산, 우주 왕복선 문제, 사전분포, 가능도, 갱신등에 대해 공부하고 있다.

17장은 회귀를 배우며 마라톤 세계 신기록, 사전분포 등을 학습하고 있다.

18장은 켤레사전분포에 관하여 다시 만난 월드컵 문제, 이항가능도, 디리클레 분포 등을 설명하고 있다.

19장은 MCMC에 대해 공부하며 월드컵 문제, 그리드 근사 등을 배우고 있다.

20장은 마지막 장으로 근사 베이지안 계산을 신장 종양 문제, 시뮬레이션, 세포 수 측정 등으로 책 내용을 마무리 하고 있다.

전체적인 총평은 난이도 중급으로 베이지안 통계에 대하여 여러 예제를 삽입하여 추상적인 내용을 구체적으로 이해하도록 잘 구성하였는데 기본적으로 프로그래밍언어(파이썬), 통계학개론(여러 분포, 검정, 추정, 회귀등)에 대한 이해가 선행되어야 할 것으로 보이며 분류등 머신러닝에 대한 기초적인 이해가 있다면 본 책을 더 쉽게 학습하는데 도움이 될 것으로 사료된다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

j767a***l2022-12-17

[나는 리뷰어다] 파이썬을 활용한 베이지안 통계

wizm***l2022-07-25

엄격하게 가르치는 파이썬을 활용한 베이지안 통계(2판)

순전히 이름이 마음에 들어서 베이지안 통계를 좋아한다. 학교에서 제대로 배운 적은 없어서 '세상에서 가장 쉬운 베이즈통계학 입문'과 '만화로 쉽게 배우는 베이즈 통계학' 책을 읽은 정도다. 어쩌다 보니 업무에서 쓴 적도 없다. 그러나 호시탐탐 베이즈 통계학을 익히고 쓸 기회로 찾아오다가 이 책을 만났다.

통계학을 전반적으로 다룬 책을 포함해서 베이즈 통계학을 설명한 책을 통틀어 가장 상세하게 단계적으로 풀어나갔다고 단언한다. 베이즈 통계학을 배우고 싶은 사람은 이 책만 봐도 충분하지 않을까 한다.

파이썬 수준 ＼ 통계학 수준	통계학 좀 안다	통계학 모른다
파이썬 좀 안다	베이즈 통계학 역량을 휘리릭 올릴 수 있다.	차근차근 쫓아가서 완독할 만하다. 그런데 이 책이 하는 얘기를 100% 이해하지는 못할 것이다.
파이썬 모른다	파이썬 입문자 수준으로만 기술했기에 얼마든지 보아도 좋다. 그래도 def를 모르는 정도라면 기초는 훑어보고 다시 오자. 3장에서 소개하는 empiricaldist 라이브러리에 친숙해져야 한다.	전반적으로 수련을 하고 다시 오라.

책에는 연습문제 해답이 없으므로 홈페이지(http://allendowney.github.io/ThinkBayes2/)에서 확인해야 하는데, 개인적으로는 코드가 보기 쉽게 나와 있는 셈이라 유혹이 심했다. 이 책의 연습문제는 녹록하지 않다. 제대로 푼다면 시간을 상당히 할애해야 한다. 포기하지 않고 완주한다면 베이즈 통계를 현장에 적용하여 제대로 쓸 수 있을 것이다. 이런 얘기를 굳이 하는 이유는 평이하게 쓰인 듯하지만 웹소설 읽듯 술술 넘어가지는 않기 때문이다. 그렇기는 해도 앞서 말했다시피 책에서 이야기하는 바를 충실히 쫓아가면 체득하는 게 많아 보람이 따를 것이다.

ryp1***l2022-07-24

베이지안 통계를 좀 더 적용하고 싶으신 분들에게 추천을 드리는 책

minkm***l2022-07-24

파이썬을 활용한 베이지안 통계

개인적으로 불멸의 이론(The Theory That Would Not Die, 2012)이란 책을 통해서 베이즈 이론을 처음 접했고, 동시에 제가 빈도주의자(frequentist)였단 걸 알았습니다. 통계와 확률이란 건 사전 경험된 데이터에 기반한 것이라는, 혹은 그래야 한다는 생각을 갖고 있었는데, 그렇다면 한 번도 경험해 보지 못한, 즉 사전 경험된 데이터가 없는 경우에 대해서는 예측, 혹은 확률을 어떻게 계산할 것인지에 대해 새로운 인사이트를 준 책이었습니다. 물론 인사이트만 얻었고 뭔 소린지 제대로 이해하진 못했습니다(...). 아무리 책이 이론적 내용보다 역사적 내용과 관념적인 설명에 집중했다 한들, 수학적 기반 지식이 부족한 저로서는 수식이 함축하고 있는 의미가 확실하게 와 닿지 않았기 때문입니다.

이 "파이썬을 활용한 베이지안 통계" 서적은 첫 인상부터 남달랐는데, 보통 서론이나 책 도입부에서는 앞으로 나올 책의 내용에 대해 장황하게 설명을 하거나 최소한 저자의 자기자랑(...) 같은 내용이라도 있는데 이 책은 그런 거 하나 없이 그야말로 요즘 표현으로 쿨시크 합니다. 구구절절한 설명과 묘사 대신 짧은 문장과 간결한 표현으로 구성되어 있으며 수식 대신 파이썬 코드로 설명합니다. 파이썬 코드도 그야말로 단순 명료한데, 보통 다른 서적 같으면 파이썬 환경 구축에 최소 한 챕터는 할애하겠지만, 달랑 몇 문단으로 끝내고 코드에 대한 설명도 따로 없습니다. 대신 설명하고자 하는 코드를 사용하는 방법을 다양한 케이스에 대해 반복해서 결과를 보여주며 점진적으로 심화하는 방식으로, 그냥 책을 읽으며 따라가다 보면 어느새 익숙해지도록 절묘하게 구성되어 있습니다.

막상 글로 표현을 하려고 해도 참 쉽지가 않은데, 요 근래 읽어본 책 중에서 가장 인상적인 구성이었습니다. 사용하는 수식의 의미를 파이썬 코드로 풀어놓은 덕분에 수식과 수학적 설명이 나오면 생각하기를 멈추는(...) 저도 어렵지 않게 볼 수 있어서, 읽으면서 감탄을 금치 못했습니다. 최근 컴퓨터를 이용한 통계적 추론 덕분에 베이지안 통계도 같이 주목을 받고 있는데 관련하여 관심은 있지만 수식과 통계가 부담스러웠던 분들께 강력히 추천 드리고 싶습니다.

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

hyoungg***l2022-07-24

실용적인 베이즈 이론과 통계를 만날 수 있는 기회

이 책은 미국 매사추세츠주 보스턴에 위치하는 "올린 공과대학" 앨런B. 다우니 교수가 작성한 책이다. Think Python, Think Stats, Think DSP등 주로 "Think XXX"시리즈 책을 출판하였다. 이번에 처음 접하게 된 이 책은 원제가 Think Bayes로써 가장 최근에 출판된 Trhink 시리즈 책이다. 통계학의 이론들을 Python으로 구현하는 Think Stats의 후속 책이라고 봐도 무방할 듯 하다.

데이터를 다루고 통계를 활용하는데 있어 R, Matlap, Python등 다양한 개발 언어들이 있을텐데 이 책에서는 Python이 활용되고 있다. Python의 Jupyter notebook 인터페이스와 Numpy, Pandas 모듈을 통해 다양한 예시의 통계를 설명하고 있다. 참고로 Numpy는 행렬이나 다차원 배열을 그리고 Pandas는 데이터 조작 및 분석을 위한 오픈소스이다.

저자는 친절하게 이론과 코드를 한줄 한줄 설명한다. 책에서 소개되는 알고리즘을 직접 구현해야할 일 또한 거의 없다. 다만 Python을 하나도 모른다! 그러면 Python에 대한 기초적인 공부와 Jupyer notebook을 조금 사용해보고 시작하는게 좋다. 베이즈안 이론에서만 헤매야지 Python에서도 같이 헤매고 있으면 책을 보다가 중도 포기할 가능성이 높다.

어떤 부분은 술술 읽히는 부분도 있지만 대부분 두 번씩 읽어보고 한번 실행을 직접해봐야 조금이나마 이해가 갔다. 때론 잘 알고 있는 사람이 옆에서 코칭을 해줬으면 하는 생각도 들기도 했다. 반복해서 나오는 쿠키 문제, 그리고 순간 멘붕을 주었던 몬티홀 문제로 시작하여 정말로 다양한 예시들을 제공한다. 특히 챕터 8장 포사오 과정을 읽으면서 (임의의 시간에 발생하는 이벤트를 나타내는 모델), 축구 경기 예시가 나온다. 그 유명한 풋볼 매니저란 게임에 이러한 이론들을 활용해서 구현한게 아닐까 하는 생각이 문득 들었다.

2014년 7월 초판 이후 약 8년만에 전면 재개정되어 2판이 출판되었다. 베이지안 통계에 대해 관심이 있는 개발자나 주로 활용하는 데이터 사이언티스트, AI 엔지니어등 공부할 계획이 있었다면 이번에 새롭게 재개정된 책을 구매해서 보는 것을 추천한다.

				
						"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

pls***l2022-07-24

베이지안 통계 입문을 위한 친절한 안내서

베이즈 정리, 베이지안 최적화, 베이지안 통계 등 베이지안 이론은 평소 아는듯 모르는듯 하면서 애매하게 친숙하지만 잘 설명하지 못하는 것이었다. 다행히 이번달 리뷰에서 선택된 도서가 이 책이어서 한편으로는 기뻤다. 하지만 막상 책을 받고보니 412 pg에 챕터가 20개나 되는 두꺼운 책이었다. 다행히 책은 원론적인 개념들만 설명하는 도서가 아니라 '몬티 홀 문제'나 '주사위 문제', '월드컵 문제' 등 실생활과 매우 밀접한 사례와 관련 문제를 토대로 어려운 개념들을 쉽게 풀어가고 있다. 게다가 모든 예제는 저자의 깃허브를 통해 주피터 노트북 형태로 제공되고 있어서 Numpy와 Pandas, SciPy 라이브러리만 어느정도 친숙하다면 어렵지 않게 학습해볼 수 있게 구성되었다.

* (Think Bayes 2) github : https://github.com/AllenDowney/ThinkBayes2

* 원서 홈페이지(실습 파일 다운 가능) : http://allendowney.github.io/ThinkBayes2/index.html

(정리해보고 싶은 내용을 기록해 보면 아래와 같다)

(pg 19) 베이지안 통계의 기본은 베이즈 이론이고, 베이즈 이론의 기본은 조건부확률이다.

조건부확률만 보면 그리 어렵게 느껴지지 않지만 막상 베이즈 정리를 살펴보면 조금 난해하다.

(pg 33) ... 논리곱은 교환 가능하다는 것을 살펴보았다. 이를 나타내면 아래와 같다.

P(A and B) = P(B and A),

위 식에 정리2를 적용하면 다음 식을 얻을 수 있다.

P(B)P(A|B) = P(A)P(B|A)

위 식은 다음과 같이 해석할 수 있다. 만약 A와 B의 논리곱을 확인하고 싶다면, 다음 중 한 가지 방법을 사용할 수 있다.

1. B를 먼저 확인하고 B의 조건일 때 A를 살펴본다.

2. A를 먼저 확인하고 A의 조건일 때의 B를 살펴본다.

이를 P(B)로 나누면, 정리 3을 얻을 수 있다.

P(A|B) = P(A)P(B|A) / P(B), 이 것이 베이즈 정리다.

각 챕터마다 관련된 예제와 연습문제로 기본기를 탄탄하게 학습할 수 있게 잘 쓰여진 책이었다. 아직 얉게 훑어본것 말고 더 깊이 여러번 살펴보아야 잘 이해가 될 것 같다. 하지만 그럼에도 좋은 책을 만나서 기분은 좋았다. 앞으로 차근차근 꾸준히 공부하면서 정리해봐야겠다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

woo5***l2022-07-24

파이썬을 활용한 베이지안 통계 2판 리뷰

이 책은 기존의 파이썬을 활용한 베이지안 통계를 개정한 개정판이다. 개정판은 무려 8년 만에 나왔으며, 5개의 챕터가 추가된 20개의 챕터로 이루어져 있다. 따라서 책 페이지도 거의 2배가 되었다.

베이즈 정리에 관한 책은 머신러닝 엔지니어가 되기 위해 조금 더 전문적이고 이론적인 공부가 필요할 때 꼭 필요한 책이다. 따라서 이 책을 읽기전에 미적분학이나 선형대수학을 알 필요는 없지만 넘파이나 판다스 등 파이썬에 익숙해야 한다고 권장한다.

베이즈 정리는 조건부 확률에 사전확률을 활용하여 통계적 추론을 하는 방법이다. 따라서 1장은 조건부 확률로 시작하여 베이즈 정리를 도출한다.

베이지안 통계의 기본은 베이즈 이론이고, 베이즈 이론의 기본은 조건부 확률이다.

베이즈 이론은 오늘날 머신러닝에 사용되는 예측 모형의 방법론으로 굉장히 많이 사용되는 개념이며, 다른 기계학습 방법론들에 비해 상대적으로 알고리즘이 간단한데도 불구하고 현실 세계의 많은 문제를 효과적으로 풀 수 있다는 장점이 있다.

2장 부터는 1장에서 도출한 베이즈 정리를 명시적으로 사용해서 다양한 쿠키 문제를 풀어본다. 이후 3장에서는 같은 문제를 '확률질량함수'로 풀어보며, 4장부터 본격적으로 베이지안 통계에 입문한다.

1판과 2판을 보면 같은 내용의 챕터도 그 순서가 달라진 점을 알 수 있는데, 베이지안 통계에 입문하는 독자들이 직접 따라해보면서 쉽게 이해할 수 있게 어느 정도 조정을 한 듯했다.

이 책의 대부분의 문제는 실생활 문제를 사용한다. 따라서 데이터가 있을 경우와 없을 경우에 대해서 모델링을 어떻게 해야할 지, 실생활의 어떤 부분을 반영하고 어떤 부분을 단순화할지, 분석 기법은 어떤 방법을 적용할지 다양한 방법론을 배울 수 있다.

또한 이론과 실습을 진행하면서 각 장의 중간 또는 마지막에 항상 연습문제가 있다. 독자가 직접 풀어보면서 각 장의 내용들을 복습할 수 있다는 장점이 있다.

이 책은 말 그대로 베이지안 통계 전체를 다루고 있다. 확률과 분포, 가설을 수립하고 신뢰 정도를 표현하는 공산, 로그 공산 등 우리에게 어느정도 익숙한 개념도 있고 그렇지 않은 개념도 있다. 어느정도 말하려고 하면 기억은 나지만 설명은 쉽지 않은 그런 이론들을 세세하게 배울 수 있다.

현재 많은 사람들이 머신러닝과 딥러닝에 입문하고 파이썬을 다루고 있지만, 이 책의 독자층은 다른 입문 책에 비해 그리 넓지는 않을 것이라고 생각한다. 사람들이 많은 관심을 가지는 머신러닝이나 딥러닝 책들에 비해 베이지안 통계에 관해 다루는 책이 아직까지는 많지 않은데 다시 한 번 개정판을 내어주신 한빛미디어에 감사드린다.

zzo***l2022-07-24

곁에 두고 보고 또 볼 통계 필수 도서

파이썬을 활용한 베이지안 통계(2판)

초판은 절판이 되어 2판이 나오기 전에는 도서관에서 겨우 구해 볼 수 있었던 책이다. 그것도 근처 도서관에는 없어서 상호대차를 통해 어렵게 구해봤던 기억이 난다. 그래서 어렵게 초판을 구해보던 기억을 떠올려 이 책의 2판의 출간이 엄청 반가웠다.

가장 어려우면서도 꼭 필요한 내용이 확률과 통계 그것도 베이지안 통계다. 관련 책을 보고 있으면 수식으로 압도되는데 이 책은 파이썬 코드를 통해 설명하고 있다.

파이썬의 과학계산 라이브러리는 추상화가 잘 되어 있기 때문에 간단한 코드를 잘 가져다 사용할 수 있게 잘 풀어쓴 설명이 꼭 필요한데 이 책이 그 역할을 하고 있다.

책의 구성은 다음과 같다.

확률, 베이즈 정리, 분포, 비율 추정, 수량 추정, 공산과 가산, 최솟값, 최댓값
혼합 분포, 포아송 과정, 의사결정분석, 검정, 비교, 분류, 추론, 생존 분석, 표식과 재포획
로지스틱 회귀, 회귀
켤레사전분포, MCMC, 근사 베이지안

머신러닝이나 딥러닝을 다뤄보거나 데이터 분석을 하다보면 등장하는 통계적인 내용을 파이썬 코드 + 시각화와 함께 설명하고 있다. 또, 각 챕터마다 요약과 연습 문제가 있어 읽었던 내용을 다시 점검해 볼 수 있는 점도 좋다.

단, 이 책을 볼 때 기본적인 파이썬 문법, NumPy, Scipy, statmodels, Matplotlib 등의 파이썬 데이터 과학 도구의 기본 사용법을 이해하고 있다는 전제하에 설명이 되며, 또 scipy 에 구현되어 있는 통계적인 기능들은 대부분 추상화가 되어 있기 때문에 추상화된 깊은 부분의 내용을 이해하기 위한 노력도 필요하다는 점을 알아두어야 한다.

그렇기 때문에 파이썬 기초 문법을 이해하고 있고 파이썬 데이터 과학 주요 라이브러리에 대한 사용법을 어느정도 알고 있다면 베이지안 통계를 포기했던 사람에게 한 줄기 빛이 되는 책이다.

책 뒷편에 있는 내용처럼

프로그래밍으로 베이지안 통계를 배우고 이해하며
추정, 예측, 의사 결정 분석, 증명, 베이지안 가설 검정 등의 문제
동전, 주사위, 쿠기 그릇, 월드컵 문제, 신장 종양 문제 등의 예제를 통해 설명하고 있으며
실생활에 실생활의 문제를 푸는데 사용하는 계산법을 익히는데 도움이 되는 책이다.

곁에 두고 보고 또 볼 통계 필수 도서다.

이 리뷰는 한빛미디어의 나는 리뷰어다 이벤트를 통해 책을 제공받아 작성했습니다.

kcsgood***l2022-07-24

파이썬을 활용한 베이지안 통계

오라일리에서 출판하는 책 중에 Think 시리즈라는게 있다. Olin college에서 교수를 하고 있는 Allen B. Downey가 쓴 책들의 모음인데, 이 책들의 시리즈를 보다보면 진짜 대단한게, 정말 다양한 분야를 대상으로 책을 쓴다. 파이썬이나 자바, 자료 구조와 관련된 책들도 있고, 통계와 시뮬레이션, DSP와 관련된 책도 쓴다. 물론 저자가 대학에서 쓸 부교재로 활용하기 위해 이렇게 넓은 범위의 주제를 다루는 것도 참 힘들텐데, 책 내용 자체가 복잡한 이론을 수식과 더불어 풀어쓰기 보다는 최대한 실제에서 나올법한 예시를 바탕으로 풀어쓴다. 그래서 아마 먼저 이론보다는 실제 코드를 돌려보고 이해하려는 코더나 개발자한테는 어쩌면 딱맞는 책을 쓰는 저자 중 한명이 아닐까 싶다. (참고로 공저이긴 하지만 Julia language에 대해서 쓴 Think 시리즈 중 한 권인 Think Julia도 번역된 상태이다. 그리고 과거의 잊혀진 기억일수도 있겠지만 통계 관련 서적인 Think Stats도 오래전에 번역이 되어 있긴 하다.)

줄리아를 생각하다

줄리아는 수치해석 및 계산과학용으로 개발되어 파이썬 상위호환 언어라 불릴 정도로 속도가 빠르고 문법도 우아한 언어다.

hanbit.co.kr

이번에 소개할 책은 그 통계 관련 서적인 Think Stats 에서 Bayesian과 관련된 심화 내용을 다룬 책인 Think Bayes이다.

통계에서 다루는 주제 중 제일 처음 다룬 내용 중 하나가 Bayes rule이라는 것이 있다. 간단하게 내가 알고 싶은 사건에 대한 사전 확률과 이와 관련된 사건에 대한 조건부 확률을 안다면, 해당 사건의 사후 확률, 즉 미래에 사건이 발생할 확률을 알 수 있다는 이론인데, 이 내용이 간단하면서도 확률 기반으로 미래를 예측할 수 있는 방법 중 하나로 인공지능 분야에서 중요한 부분을 차지하고 있는 이론 중 하나이다. (물론 이런 이론을 따르는 학자들과 순수 발생한 사건에 대해서만 인지하고 이를 체계화한 학자들간의 계파를 구분한 bayesian vs. frequetist 라는 것도 있다)

이 Think Bayes 책에서는 바로 이 중 Bayeisan statistic에 대한 내용을 다루고 있다. 그래서 다뤄지는 내용들에는 거의 대부분 "확률"이라는 단어가 들어가고, 이 확률이라는 단어를 통해서 모든 내용을 설명한다. 이 확률을 가지고 다루는 내용 중에는

확률 분포에 대한 기본적인 지식
실생활에서 많이 다뤄지는 포아송 과정에 대한 내용
검정(test)
classification과 regression
생존분석(survival analysis)
Markov Chain Monte Carlo (MCMC)
근사 베이지안 계산 (Approximate Bayesian Computation - ABC)

등의 내용을 다루고 있다. 책의 제목이나 이렇게 다뤄지는 주제들만 보더라도 심오한 공식과 현란하게 증명하는 과정으로 표현되어 있을것 같지만, 사실 책을 읽어보면 공식이나 증명은 거의 없고, 대부분이 파이썬 코드로 되어 있고, 결과를 보여주는 그래프들이 포함되어 있다. 그래서 그런 수식에 대한 두려움을 가지고 있는 사람한테는 딱 적당한 책이라 할 수 있다. (나도 통계를 전공하지 않고 틈틈히 봐온 입장에서는 이렇게 예제를 통해서 배울 수 있다는 점이 참 크다.) 대신 책의 소개에도 언급되어 있지만, 책의 내용을 따라가기 위해서는 반드시 파이썬, 특히 NumPy와 Pandas를 쓸 줄 알고 있어야 한다는 전제가 들어가 있다.

그래서 기본적으로 뭔가 실제 예제를 통해서 배우고자 하는 사람들한테는 이 책이 정말 마법과 같은 책일지도 모르겠지만, 어느 정도 통계 관련 지식에 대해서 전문성을 갖춘 사람이 보기에는 책이 이상해 보일 수 있다. 아마 읽으면서 조금 비중있게 다뤄져야 할 주제들도 조금은 간단하게 쓱 훑는 식으로 내용이 서술되어 있다고 느낄 것이다. 나같은 경우는 예전에 현업에서 잠깐 다뤘던 Survival Analysis 부분을 한번 살펴봤는데, 책의 내용이 "생존 분석에서는 Weibull analysis가 많이 쓰이는데 이 방법을 통해서 예제를 다뤄보겠다." 이런식으로 진행된다. 음...

그렇기에 단순히 이 책만을 가지고 bayesian statistics를 배웠다기에는 조금 힘든 책일 수 있다. 개인적으로는 이 책과 더불어 기본 통계책 하나를 껴서 이론을 다룬 후에 예제를 통해서 복습하는 수단으로 활용하면 좋을것 같다는 생각을 좀 해본다. 물론 번역이 잘 못되었거나 저자가 책을 쓰는 스타일에 대해서 잘못되었다는 것을 말하는 것은 아니다. (내가 어떻게 책의 좋고 나쁜 정도를 논하랴..) 그냥 개인적인 생각일 뿐..

이 Think 시리즈의 장점 중 하나는 대부분의 원서 pdf가 무료로 공개되어 있다는 점이다. 아마 저자가 개인 출판사 형태로 공개하는 식일텐데, 원서로라도 책의 느낌을 보고 싶은 사람이라면 한번 링크를 참고하면 좋을듯 하다.

Green Tea Press – Free books by Allen B. Downey

Welcome to Green Tea Press, publisher of Think Python, Think Bayes, and other books by Allen Downey. Read our Textbook Manifesto. Free Books! All of our books are available under free licenses that allow you to copy and distribute the text; you are also fr

greenteapress.com

책의 장점 중 하나는 모든 코드들이 Jupyter notebook 형식으로 잘 정리되어 있다는 점이다. (링크)

Think Bayes 2 — Think Bayes

allendowney.github.io

사실 개인적으로는 이전에 출간된 Think Julia 의 번역 제목이 "줄리아를 생각하다"로 번역된 것처럼 이번 것도 비슷한 제목으로 나왔으면 좋았겠다 하는 생각이 살짝 든다.

byc3***l2022-07-24

R 로된 통계책은 가라. 이제 파이썬 통계책이 대세다.

[나의 한줄 추천사]

R 로된 통계책은 가라. 이제 파이썬 통계책이 대세다.

[책 추천 이유]

파이썬을 활용한 머신러닝 관련 책은 많이 있으나, 통계 부분을 특화된 책은 거의 없는 것 같다. ADP 부분 공부할때 통계 부분을 이 책으로 해결할 수 있을것 같다.

[내가 찾고자 했던 질문들]

1. 왜 베이지안 통계인가?

- P(A|B) = B가 발생했을때 A가 발생할 확률 즉 조건부 확률을 기반으로 한다. B 부분은 조건이 인데, B가 사전에 미리 확률로 계산이 되어야하기 때문에 사전확률이 되는데, 보통 real world 에는 사전확률이 정의하기가 쉽지 않다. 하지만 데이터가 많아지면서 사전확률이 정확도가 점점 높아지면서 사전확률에 대한 신뢰도가 높아질수 있기 때문에 머신러닝에서 베이지안 통계 방식을 사용할 수 있게 되었다.

2. 확률분포 무엇이 중요한가

- 결과값과 각 값에 대한 확률 집합이다. 동전 던지기를 했을때 나올 확률분포는 앞 : 1/2, 뒤 : 1/2 으로 이산 확률 분포 를 가지게 된다. 보통 이런 상식선의 사전 확률을 가지고 있는 분포를 "사전확률 분포" 라고 한다. 결국 사전확률를 어떻게 정의하냐에 따라서 베이지안 통계값이 달라지기 때문에, 아주 중요하며, "사전확률 분포" 를 제대로 정의하는 부분은 점점 데이터가 많을 수록 제대로된 값으로 정의할 수 있을 것이다.

3. 좀더 공부하기 위해 소스코드 다운로드 받고 싶다면?

- https://oreil.ly/downeyBayesNotebooks

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

one2***l2022-07-24

파이썬을 활용한 베이지안 통계

jay0***l2022-07-24

정말 유용한 책

머신 러닝이 정말 마법처럼 보일 수 있지만 실제 논문을 보게 되면 꽤나 수학적인 것을 알 수 있다. 꽤 가끔 베이즈, 베이지안이라는 단어를 볼 수 있다. 머신 러닝에는 미적분도 많이 사용되지만, 확률과 통계 지식이 정말 많이 사용된다. 그중 우리가 주로 볼 수 있는 것은 베이즈 정리이다. 아마 이때 베이즈라는 이름을 알게 될 수 있을 것이다. 좀 더 자세히는, Variational AutoEncoder (VAE)를 공부할 때 베이즈 정리, posterior, prior 등등의 용어들을 볼 수 있다. 그리고 베이즈 정리는 아니지만, 노이즈를 다루게 되면 확률과 통계 지식이 많이 필요하게 된다. 디노이징 논문을 보다 보면 알 수 있다.

본 책에서는 베이지안 통계를 다루는데, 파이썬을 이용한다. 베이지안 통계는 베이즈 정리에 기반한 이론인데, 베이즈 정리는 두 확률 변수의 posterior와 prior 사이의 관계를 나타내는 정리이다. 좀 더 쉽게, 다른 방향으로 말하면, 어떤 새로운 관측들이 있을 때 내가 가지고 있던 가설이 얼마나 더 맞게 되었는지, 아니면 더 신뢰할 수 없게 되었는지를 알 수 있는 정리이다. 사실 처음 배우면 꽤 이해하기 어려운 내용들이다. 나같은 경우도 수업에서도 들었고 논문을 읽으며 찾아보기도 했는데 그렇게 해서야 얼추 이해가 되었다. 아직도 정말 백 퍼센트 완벽한 수준은 아니다. 이 책은 그래도 읽어볼 만한 것 같은데, 정말 내용이 알차다. 이 책은 내가 연구할 때 꽤 도움이 될 것 같아서 시간을 좀 내 제대로 한 번 읽어보려고 한다.

책은 다음과 같이 생겼다. 오레일리 책들의 디자인은 꽤 수집욕을 불러일으킨다.

책에 대한 설명인데, 수학 기호 대신 코드를 사용하여 설명한다는 점이 인상깊었다. 사실 논문들을 읽다 보면, 결국에는 그렇게 어려운 내용이 아닌데 복잡한 수식들로 도저히 읽지 못하게 만드는 경우가 있다. 이 책에서는 코드와 이산적 개념으로 설명한다고 하며, 프로그래밍을 할 줄 아는 사람들에게 더 이해하기 쉬울 것이라고 말하는데 약간의 감동이 있었다.

다만 맨 밑 줄에 "하지만 우리는 사이파이를 사용하므로, 각 분포의 특성을 알 필요는 없다"고 하는데 조금 별로였다. 뭐 연구를 할 사람들이 아니라면 Scipy와 같은 패키지만 적극 활용하여 실험을 돌려보면 좋겠지만, Scipy 내부가 정확히 어떻게 돌아가는지 이해를 못 하면서 책에 써져 있는 코드만 따라 하는 것은 좀 부정적이다.

목차는 다음과 같다.

확률
베이즈 정리
분포
비율 추정
수량 추정
공산과 가산
최솟값, 최댓값 그리고 혼합 분포
포아송 과정
의사결정분석
검정
비교
분류
추론
생존 분석
표식과 재포획
로지스틱 회귀
회귀
켤레사전분포
MCMC
근사 베이지안 계산

각 챕터마다 다음과 같이 한 페이지로 간략하게 설명을 해주는데 이론으로 들어가기 전 갈피를 잡을 수 있어서 좋았다.

몇 가지 느낀 점은 대부분 영어를 안 쓰고 한국어로 되어 있는데 또 그렇게 어색하지는 않은 것 같다. 그리고 MCMC나 Approximate Bayesian까지 다루는 것을 보면 나름 전문적인 내용도 담고 있기에 정말 좋았다.

그리고 거의 대부분의 챕터에서 이론을 설명할 때 어떤 예시 문제와 함께 설명을 한다. 그 문제는 물론 설명하고자 하는 이론이 사용되는 것인데, 이 덕분에 막연히 이론적이라고 보일 수 있는 내용이 실생활과 좀 연관 지어지는 것 같다. 그리고 페이스북 면접 문제들도 종종 있어서 직업을 구할 때에도 도움이 될 것 같다. 이 베이즈 정리가 별 거 아닌 것 같으면서도 정말 중요하고 기본적인 이론이라서 개발자를 뽑을 때 많이 물어보는 것 같다.

정말 나에게 딱 필요한 책이었다. 베이즈 정리가 스스로 공부한다고 하면 은근 막연한데, 이 책으로 공부할 만한 것 같다.

머신 러닝과 데이터 사이언스에서 필수적으로 요구되는 지식인 베이즈 정리를 이 분야 사람들, 그리고 아직 자세히 모르는 사람들이 쉽게 이해할 수 있도록 만들어 놓았다. 논문들로 공부를 하기보다 이 책을 읽고 난 후 논문을 읽어보면 훨씬 깊게 이해할 수 있을 것이다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

hawkm***l2022-07-24

베이지안 with 파이썬

한빛미디어 “나는 리뷰어다” 활동을 위해서 책을 제공받아 작성된 서평입니다.

TL;DR

베이지안 이론(bayesian theory)과 실습을 병행해서 진행할 수 있음
- 개별 장마다 제시된 문제를 베이지안 이론을 활용해서 해결하는 과정을 소개
- 책에서 소개하는 거의 모든 내용을 파이썬(python)을 활용하여 구현
베이지안을 처음 접한다면, 전체 지도를 그리는데 도움이 됨
- 개별 장마다 소개된 내용이 다른 장과 적당히 분리되어 있어서 하나의 주제로 다룰 수 있음
- 문제에 대한 해결책을 제시하기 때문에 학습에 큰 어려움이 없음
- 개별 장에 대한 해결방식을 프로그래밍을 활용하기 때문에 이론에 대한 부담감이 적음
선행 지식이 필요
- 고등학교 수준의 통계(평규, 분산, 확률)에 대한 이해가 필요
- 파이썬과 Numpy를 사용할 수 있어야 함

MCMC를 공부하기로 했던 그 때

알파고 출시 이후에 MCMC(Markov Chain Monte Carlo Method)에 관심을 가지고, 스터디를 진행할 때 이책의 1판을 가지고 진행했다. 당시에는 MCMC를 배우고 싶었는데, 통계 지식이 전혀 없었고 통계 이론을 코드를 기반으로 다루고 싶다는 요청이 많아서 교재를 선정했다. 사실 당시에 이 책을 제외하고 파이썬으로 코드를 구현하면서 진행할 수 있는 책도 없었던 것 같다.

당시도 그렇고 지금도 그렇지만 통계를 체계적으로 교육받지 않아서 완벽하게 이론을 흡수하는게 어렵다고 판단했다. 그래서 베이지안 이론이 가지는 큰 개념과 문제해결 방식을 흡수하기 위해서 노력했다. 무엇보다 베이지안을 학습하다 보면 베이지안이 가지고 있는 몇가지 전제가 쉽게 받아들여지지 않아서 고생이었는데, 교재가 파이썬으로 다 구현되어 있어서 이론과 별개로 문제 해결 방법에 대해선 어느정도 ‘감’을 잡았다 생각하고 베이지안에 대한 학습을 끝냈다. 당시에는 MCMC에 대한 호기심이 너무 컸기 때문이다.

베이지안 통계를 처음 진행하신다면!

시간이 제법 흘러서 한빛미디어에서 제공받은 2판을 받았다. 이 책을 받고 내가 학습했던 방식은 기존에 가지고 있던 코드를 업데이트 하는 것이었다. 나는 1판의 경험이 있고, 당시에 만들어둔 코드가 있어서 2판을 읽으면서 코드를 업데이트 하는 방향으로 학습을 진행했다.

책표지

2판의 경우 1판에 비해서 초급자를 배려해서 훨씬 많은 것을 설명하고 있다. 이전에는 다른 교재, 영문 서적 어떤 것은 논문을 참고해야 했던 것이 비해서 2판은 기본적으로 요구되는 이론에 대해서 적당한 분량을 추가적으로 다루고 있다.

MCMC 등과 같은 실제 많이 활용되는 분야에 대한 설명도 곁들이고 있고, PyMC3를 사용하고 있는 등 코드 자체가 오래되지 않아서 큰 무리없이 진행할 수 있다. 책의 분량이 늘었다고 생각했는데, 기본적인 이론 및 응용에 대한 설명이 많이 늘어났기 때문이라 생각된다.

MCMC?!

나만의 팁!

프로그래밍으로 베이지안 통계를 배우고 이해한다.

이 책으로 베이지안 이론을 학습하는 분들에게 약간의 팁을 드려보자면 통계와 코드를 머리속에서 밀어내고 빠르게(이게 핵심이라 생각한다!) 읽으면서 개별 장에서 제시하는 문제를 해결하는 과정을 자신만의 방식으로 도식화 시켜보길 권한다. 동일한 문제를 다루는 장을 묶어서 하나의 스토리로 엮에서 이해하면 훨씬 많은 도움이 된다. 이론은 다른 교재를 통해서 충분히 보충할 수 있지만, 프로그래밍으로 베이지안 통계를 접하는 경험은 쉽지 않다. 그렇게 만들어진 자신만의 스토리를 책에 소개된 코드를 활용해서 해결 과정을 채워나가다 보면 베이지안 이론을 기반으로 한 다른 모델을 학습하는데 훨씬 수월할 것이라 생각한다.

이 책을 통계지식이 전무 상태로 학습했던 시절에 우리가 이 책을 통해서 배운 것은 ‘베이지안 이론’에 대한 접근 방법이었다. 당시나 지금이나 베이지안을 기반으로 한 통계 모델의 경우 이론과 코드가 별개로 돌아가는 경향성이 있다고 생각한다. 이론에서 말하는 분포 등에 대한 논의를 뒤로 하고 PyMC3와 같은 라이브러이에선 데이터를 읽고 해당 적당한 함수를 입력하면 대체로 답이 나온다. 정확한 답인지 아닌지에 대해선 논의가 필요하지만 여튼 결과가 나온다.

그런데 이게 이론과 정확하게 일치하는 것일까? 하는 의문이 들고한다. 대부분이 이 참을 수 없는 모호함을 해결하기 위해서 통계 기초를 배울 수 있는 교재를 찾게 되는데, 이 경우 학습분량이 엄청나게 늘어난다. 겉잡을 수 없이 폭증하는 학습의 시대에서 기초 통계를 학습한다는 것은 쉽지 않은 선택이다. 하지만 이 책은 코드가 잘 작동하기 때문에 책에서 가이드하는 방식으로 문제를 해결하는 방법을 먼저 익혀두고 그것을 기반으로 필요한 부분을 채워나가면 학습량을 조금 줄일 수 있을 것이다.

연습문제

do***l2022-07-23

파이썬을 활용한 베이지안 통계

파이썬을 활용한 베이지안 통계.png

이 책은 파이썬 프로그래밍을 학습하기 위한 책이 아닌, 파이썬을 가지고 숙학적으로 어떻게 활요을 할수 있는지에 대해서 다양한 확률모형들에 활용할수 있는 방법을 제시하고 있는 책으로 책 제목인 '파이썬을 활용한 베이자인 통계'라는 글을 보면 바로 알수 있듯이 파이썬을 수하적으로 잘 활용한 책이라고 생각된다.

'파이썬을 홀용한 베이지안 통계' 책을 학습하는게 기본적으로 파이썬 프로그래밍에 대한 이해와 수학관련 패키지중에 가장 많이 홀용하는 numpy, pandas 정도는 사용해본 경험이 있는게 학습을 시작하는데 도움이 될것이며, scipy, pymc3등 학습하는데 추가적으로 필요한 패키지등은 필요한 부분만 학습을 하면서 익힐수 있다.

'베이지안'은 조건부 확률로 파이썬 프로그래밍에 익숙한것보다 확률, 분포, 통계, 회귀등 수학적은 기본지식이 필수이며, 이러한 수학적은 예측을 파이썬 프로그래밍을 활용해서 보다 편리하게 활용하는데 중점인 책으로 수학적인 이해가 부족하면 학습하는데 어려울수 있다.

이미 만들어진 패키지들을 활용하여 활용을 하기 때문에 예제들은 상당히 간결한 편이기 때문에 모든 예제들을 모두 코딩하면서 실습할 필요는 없으며, 파이썬 프로그래밍 책이 아니기 때문에 처음부터 끝까지 순서대로 보실필요는 없고, 챕터 1, 2에 기본적은 베이지안에 대한 이해를 위한 부분만 학습한후에, 각 챕터별로 이어지기는 부분 보다는각각의 다른 주제들을 설명하고 있는 부분이 많으니 필요한 부분이나 관심있는 부분부터 찾아서 읽어나가도 좋을거 같다.

이 책을 학습하면서 관심있는 챕터들부터 보고 있는데, 역시 파이썬이 수학적으로 활용하게에 정말 좋은 프로그래밍 언어라는 것을 다시한번 알수 있었던 시간이였다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."