그로킹 심층 강화학습

yong***l2022-08-30

이제 막 한걸음 내딛어본 것이다 보니 아직 깊이있는 통찰이나 내공이 있는 것은 아니지만 강화학습(Reinforcement Learning) 라는게 다소 오묘하다, 적어도 내겐... 우리가 흔히들 알고 있는 머신러닝, 딥러닝과는 또 다른 색다름도 있지만 조금은 더 접근하기 어려운 부분이 아닌가 싶다. 하긴 러닝 붙은 것 치고 뭔들 쉬울까... ^^

확률적인 요소가 중요한 역할을 하는 분야다 보니 수학적인 요소가 다른 것들에 비해 더 많이 나오기도 하지만 현실 세계를 강화학습에 필요한 환경, 상태, 액션 등으로 정의하고 학습을 시켜 목표하는 문제를 해결하는데 활용하는 과정 자체가 막연하기도 하고 막막하기도 한게 하닌가 싶다.

이제 막 강화학습을 통해 해보고자 하는 목표가 생긴 나로서 책 한권, 대학원 수업 한번 그리고 논문 몇 편 읽어본 나로서는 좀더 좋은 지침이 될 수 있는 무언가가 필요한데 "그로킹 심층 강화학습"이 딱 그런 책이 아닐까 싶다.

책의 모토가 마음에 든다, "이론과 실제 사이의 틈을 메우다"

강화학습도 초기에 비해 활발한 연구가 진행되다 보니 여러단계를 거쳐 딥(Deep)이라 단어가 붙기 시작했다. 최근 인공지능 붐업에 힘입어 강화학습도 많은 연구 성과와 기술의 진보가 이루어지고 있지만 다른 인공지능 분야에 비해 현실세계 문제를 의미있는 수준으로 해결하는 획기적인 맛은 아직 없지 않나 싶다, 뭔가 잠재력은 풍부해보이고 많은 시도가 되고 있긴 하지만... 아직은...

이 책은 이론과 현실 세계의 갭을 매꾸는데 조금이라도 일조하려는 의도로 쓰여진 책이다, 그렇다 보니 강화학습 입문서로 보기에는 난이도가 좀 있다. 기본적인 강화학습에 대한 이해가 어느정도 있는 사람이 볼만한 책...

그럼에도 불구하고 이 책은 내걸은 캐치프레이즈를 달성하기 위해 다양한 장점을 가지고 있다.

먼저 안그래도 어려운데 충분하고 자세한 그림들을 통해 독자의 이해를 높이려 상당히 애를 쓰는 책이다.

그리고 수식들에 대한 이해를 돕기위한 설명을 필요한 시점에 충분히 해주고 있는 책이다.

강화학습에서 필연적으로 알아야하는 상태나 정책 그리고 가치 등에 대해서도 필요하면 상세한 그림을 통해 충분한 이해를 할 수 있도록 많이 신경을 쓴 책이다.

강화학습을 통해 현실세계의 실질적인 문제에 접근하기 위해서는 이론과 현실 사이의 간극을 해소할 수 있는 지식과 통찰이 필요한데 이 책은 그러한 역량을 향상시키는데 충분히 의미있는 역할을 해줄만한 책이라 생각한다.

이제 나도 이 책을 통해서 스케쥴링과 관련한 분야의 연구를 수행할 수 있는 힌트도 얻고 힘도 받은것 같다.

※ 본 리뷰는 IT 현업개발자가, 한빛미디어 책을 제공받아 작성한 서평입니다.

sua***l2022-08-29

그리킹 심층 강화학습을 읽어 보다...

wltk***l2022-08-28

[서평] 그로킹 심층 강화학습

silent6***l2022-08-28

<그로킹 심층 강화학습> 은 강화학습을 연구적으로 이해할 수 있게 도와준다. 연구적이라 함은, 강화학습의 이론과 본질에 포커스를 맞추어 설명하기 때문에 강화학습을 실무에 빠르게 적용하고자 하는 현업자보다는 이론적으로 접근하고자 하는 학생을 위한 책에 가깝다는 뜻이다. 가령, 많은 "빠른 실무를 위한" 서적에서 high-level 위주의 직관적인 그림과 현업에 바로 적용 가능한 코드를 보여줄 때, 이 책에서는 수식적인 설명과 연구적 논의가 많이 등장하며 코드 예제는 최소화 되어있다.

이 책의 저자가 강화학습을 대하는 태도는 각 챕터의 시작만 봐도 어느정도 엿볼 수 있다. 예를 들어 3장은 "전투를 준비하면서 항상 느낀 것은 계획은 쓸모 없는 것이지만, 계획하는 것 자체는 없어서는 안될 중요한 것이었습니다. - 드와이트 D. 아이젠하워" 라는 문구로 시작하는데, 강화학습에서 중요한 문제이면서도 철학적인 고민거리를 던져주는 것이 상당히 흥미로웠다. 또한, 각 챕터의 마지막은 언제나 "트위터에서 만나요!" 라는 소제목의 텍스트 블록으로 마무리한다. 공부한 것에 대해 트위터를 작성하고 저자 본인을 태그하면 리트윗할것이라는 약속을 하며, 각 챕터와 관련된 해시태그를 사용하길 부탁한다. 예를 들어, 제 2장의 관련 해시태그로는 "#gdrl_ch02_tf01" 등을 제안한다. 이 부분에서 저자의 강화학습 필드에 대한 적극성과 열정 또한 느낄 수 있었다.

저자의 설명 스킬 또한 돋보인다. 어떤 개념도 이해시키고야 말겠다 라는 집념이 있는 것처럼 다양한 그래프, 예시를 사용하며 수식도 대충 설명하고 넘어가지 않는다. 사실 개인적으로 "수식은 몰라도 됩니다" / "실전에선 수식이 별로 쓰이지 않습니다" 와 같은 이야기를 하는 책을 선호하지 않는데, 수식 없이 high-level에서만 이해하고 코드를 사용하는 것은 지식 확장에 별로 도움이 되지 않기 때문이다. "잘" 써먹으려면 바닥부터 이해해야 하고, 그러려면 수식을 짚고 넘어가야 한다. 예를 들어 딥러닝 네트워크의 back-propagation을 수식 없이 그림으로만 알고 있다면 back-propagation이 무엇인지 동료에게 설명해야할 때 상당히 곤란할 것 같다. 딥러닝 관련 논문을 이해하기는 물론이고, 간단한 코드 수정도 힘들것이다. 저자는 연구자로서 그것의 중요성을 알기에, 수식을 넘기지 않고 잘 설명하고자 공을 많이 들인 것 같다. 수식 뿐만 아니라 강화학습 개념들이 잘 설명되어있다. 개인적으로 많은 부분의 설명을 빠져들면서 읽었다.

끝으로, 마지막 챕터에서 인상깊었던 저자의 일과 연구에 대한 마음가짐을 이야기하는 부분을 아카이빙하며 이 포스팅을 마치도록 하겠다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

aul020***l2022-08-28

심층강화학습을 심층적으로 다뤄 자세하지만 어려울 수 있습니다.

sou***l2022-08-26

[서평] 그로킹 심층 강화학습

이 책의 저자이신 마겔 모랄레스는 록히드 마틴의 미사일 화기 통제 및 자율 시스템 부서에서 강화학습을 활용하며 일하고 있다. 조지아 공과대학교에서 강화학습 및 의사 결정과 관련된 강의를 했으며, 유다시티에서 머신러닝 프로젝트 리뷰어 및 자율 주행 강의에서 멘토로 활동했으며, 심층 강화학습 강의를 개발했다. 조지아 공과대학교에서 컴퓨터과학 석사 과정을 수료했고, 유기적 지능에 대해 연구했다. 역자이신 강찬석은 LG전자 인공지능연구소에 근무중이고 강화학습을 공부하기 위해 번역에 도전했다고 한다.

강화학습 관련 책은 [단단한 강화학습]과 [파이썬과 케라스로 배우는 강화학습] 및 [프로그래머를 위한 강화학습] 등을 보았는 데 이 책에서는 비슷한 알고리즘을 소개하면서 좀 더 수식을 많이 소개하려고 했다. 책에 오탈자가 종종 보이는 것이 눈에 거슬리는 것 이외에는 많은 이론을 다루려고 했다는 점에서 읽어볼 만 한 책이라고 생각한다.

그리고 개인적으로 좋았던 부분은 유명한 사람들의 명대사(?)를 많이 언급해서 책을 읽는 재미가 있었다. 사실 강화학습에 나오는 수식을 전부 이해하기란 쉽지 않은 일이고 범용으로 쓸수 있는 인공지능이 아니고 게임 하나 이기려고 이렇게까지 수학을 해야 하나 싶지만 그럼에도 불구하고 많은 책들이 동일한 내용을 언급하고 있는 것을 보면 현재 인공지능의 한계가 느껴진다. 하지만, 이런 내용들이 초석이 되어서 강한 인공지능을 만들 수 있게 될거라는 희망을 가져본다. 이미 다른 책들을 본 적이 없는 분들에게는 많은 도움이 될 수도 있기 때문에 강화학습 인공지능의 역사적인 배경 및 강화학습과 관련되어 있는 기본수학을 알고싶은 분들에게 추천한다.

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

minkm***l2021-11-21

심층 강화학습 이해하기

kelvi***l2021-11-21

그로킹 심층 강화학습 - 강화학습의 이론부터 실전까지

이 책의 내용

강화학습의 역사와 배경적 설명은 물론 실제 구현하는 내용까지 총망라한 구성으로 이루어져 있습니다. 이전에 강화학습을 공부하기 위해 몇몇 책들과 자료들을 살펴보았는데, 번역서이지만 한글 자료보다 더 와닿고 이해가 쉬웠습니다. 저자가 서론에서 알고리즘을 위주로 공부하는 것이 가장 효과적이라고 말했는데, 그 말에 걸맞게 3장부터 12장까지 알고리즘으로 가득찬 구성을 가지고 있습니다. 깔끔한 내용과 다양한 구성, 그리고 독자에게 생각해볼 거리는 던져주는 저자의 말들이 어우러져 좋은 책이라는 인상을 받았습니다. 거기에 체감상 1페이지당 1개의 그림이 있어 글로 와닿지 않는 개념들을 머리속에서 그려보는데 많은 도움이 되었습니다.

그중에서도 가장 인상깊었던 것은 트렌디하고 가독성 좋은 코드였습니다. 파이썬에 입문하신지 얼마 되지 않으신 분들에게는 어렵게 다가올 수 있지만, 간결하고 충분히 효율적인 코드, 이해하기 쉬운 네이밍을 통해 강화학습 알고리즘을 코드로 구현할 때 참고할만한 모범답안이라고 생각됩니다.

대상 독자

저자가 앞서 밝혔듯 딥러닝과 머신러닝, 그리고 파이썬에 대해서 익숙하셔야 이 책을 온전히 이해하고 따라갈 수 있을 것 같습니다. 내용 자체가 쉬운편이 아니고, 수많은 이론들과 알고리즘이 곳곳에서 나타나고 활용되기 때문에 코드나 알고리즘에 익숙하지 않다면 장황하다고 느낄 수도 있겠습니다. 하지만 강화학습이 무엇인지 대략적으로 알고 있는 상태에서 더 자세히 공부하고 싶으신 분들에게는 더할나위 없이 좋은 책일 것 같습니다.

TL;DR

이 책은 ‘파이토치’를 기반으로 강화학습을 소개하는 교재이며, 교재에 소개한 이론은 수학과 파이썬 코드를 활용해서 설명하고 있다.
실습 환경을 구성할 때 약간의 에러가 발생할 수 있는데, 윈도우 사용자의 경우 SWIG을 먼저 설치해서 진행하면 좋다.

Gym이 업데이트 되면서 약간의 오류가 발생할 수 있는데, 그러한 문제는 발생한 에러를 확인하면 쉽게 수정할 수 있다. 예를 들어, 2장 “강화학습의 수학적 기초”를 실습할 때 발생한 오류를 수정한 예제에서 확인할 수 있듯이 큰 문제가 아니니 오류를 자세히 확인해보자.

머신러닝/강화학습 연구자들에겐 ‘초급’ 수준의 기초 교재라 할 수 있으며, 강화학습을 처음 접하는 분들에겐 ‘중급’ 수준의 교재라 할 수 이다. 만약 강화학습을 처음 시작하는 분들이라면 개론적인 교재를 함께 읽어보길 권한다.

1

이 책은 강화학습 중 ‘가치 기반’과 ‘정책 기반’을 ‘파이토치’를 활용해서 차근차근 설명하는 교재다. 이 교재는 여타 교재에 비해서 수학 표기법 및 수학 이론에 대한 지식을 자세히 소개하고 있으며, 이러한 수학적 지식의 공허함을 파이썬 코드를 활용해서 차근차근 ‘메워주고’있다.

강화학습을 다루는 대부분의 교재가 가지는 큰 딜레마 중 하나는 ‘수학’과 ‘프레임워크’라 생각한다. ‘수학’의 경우 머신러닝이나 딥러닝에 비해서 표기법이 복잡하기 때문에 많은 교재들이 수학 표기법 및 수학적 지식을 전달하기 위해서 많은 노력을 하지만 수학은 언제나 어렵다. 그리고 수학이라는 작은 동산을 넘어가기 시작하면, OpenAI의 Gym과 같은 프레임워크 설치 및 활용법이라 할 수 있다. 특히, Gym과 같은 프레임워크에 대한 소개 및 적절한 가이드를 쉽게 찾을 수 없다는 점이 강화학습을 학습할 때 겪게되는 일상이다.

수식의 설명은 멋지다

2

강화학습 자체가 가지는 난이도도 있지만, 실습이 쉽지 않다는 점도 한 몫 한다. 만약 자신이 ‘우분투’와 같은 리눅스 배포판을 주력으로 사용하고 있다면 2장의 예제를 손쉽게 실행할 수 있다. 필자도 연구에 사용하는 우분투 서버에선 무리 없이 진행할 수 있었지만, 현재 집에서 가끔 사용하는 윈도우 PC의 경우 SWIG 패키지가 설치되지 않아서 Box2D 설치시 오류가 발생했다. 이러한 오류의 경우 파이썬을 잘 활용하시는 분들은 손쉽게 처리할 수 있지만, 강화학습을 처음 접하거나 해당 패키지 사용법을 처음 접하는 분들에게 조금 어려울 수 있다.

그리고 필자와 같이 연구를 중심으로 머신러닝을 접하는 분들에게 파이토치(PyTorch)는 매우 반갑고 즐거운 일이지만, 텐서플로 사용자의 경우 새로운 형태의 프레임워크를 배워야 한다는 부담감이 있다는 점에서 교재를 선택할 때 주의를 요한다.

3

이 교재를 공부하면서 느꼈던 점은 ‘실습환경’을 잘 갖춘다면 강화학습을 학습하시는 분들에게 굉장히 좋은 교재라는 점이다. 이 책은 크게 2부분으로 나눌 수 있다(1장과 13장을 제외). 강화학습을 시작하는 분들에게 좋은 참고가 될 1부(2장~7장)와 딥러닝 프레임워크인 파이토치를 사용해서 기초적인 내용을 연습하는 2부(8장~12장)로 나눌 수 있다.

1부의 경우 OpenAI의 Gym을 사용해서 실습을 진행하고 있고, 교재에서 소개하는 모든 이론에 대한 수학적인 부분은 코드를 활용해서 직접확인 할 수 있다. 만약 1부(2장~7장)에서 소개하는 내용이 쉽게 이해되지 않는다면 강화학습 첫걸음(아서 줄리아니), 알파고를 분석하며 배우는 인공지능(오츠키 토모시)를 참고하면 좋을 듯 하다. 2부의 경우 머신러닝 연구자의 대부분이 파이토치를 활용할 수 있을 것으로 예상되지만, 파이토치가 어색하다면 파이토치 관련 교재를 함께 진행하길 권한다.

강화학습을 주제로 나온 교재 중에서 핵심적인 이론적을 체계적으로 소개한다는 점에서 추천하며, 처음 접하는 분들의 경우 강화학습의 개론서를 참고하면서 진행하면 더 좋을 듯 싶다. 무엇보다 강화학습을 필요로 하는 연구자라면 한번 꼭 읽어보길 강권한다.

Written on November 20, 2021

hony7***l2021-11-19

강화학습에 대한 상세한 설명서