메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

데이터 과학을 위한 파이썬과 R

오픈소스를 활용한 데이터 분석, 시각화, 머신러닝 | 파이썬-R 사전 부록 제공

한빛미디어

번역서

판매중

  • 저자 : 릭 슈카페타 , 보이안 앙겔로프
  • 번역 : 임혜연
  • 출간 : 2022-10-28
  • 페이지 : 216 쪽
  • ISBN : 9791169210430
  • 물류코드 :11043
  • 초급 초중급 중급 중고급 고급
4.4점 (14명)
좋아요 : 1

이중 언어 사용 스킬 대방출! 상황별 언어 선택법과 두 언어로 작성된 스크립트 통합법

 

데이터 과학 프로젝트를 성공적으로 끝내려면 상황에 맞게 적절한 도구를 선택할 수 있어야 합니다. 어떤 작업에서는 R이 더 적절할 수 있지만 또 다른 작업에서는 범용 언어인 파이썬이 더 나을 수도 있기 때문입니다. 이 책은 데이터 과학에서 필수 도구인 파이썬과 R의 기술적 상호 작용에 대해 설명하고, 사례 연구를 통해 각 언어의 강점과 시너지 효과를 보여줍니다. 그리고 한 걸음 더 나아가 오픈소스 생태계를 활용한 데이터 분석, 시각화, 머신러닝 실습을 제공합니다. 파이썬과 R의 장점을 모두 활용하면 더 크고 복잡한 데이터 과학 프로젝트에서도 만족스러운 결과를 얻을 수 있을 것입니다.

 

 

상세이미지_데이터 과학을 위한 파이썬과 R_700px.jpg

 

릭 슈카페타 저자

릭 슈카페타

2012년부터 독립 워크숍 트레이너, 프리랜서 데이터 과학자, 공동 창업자로 일하고 있습니다. 슈카페타 아카데미를 운영하며 독일 전역에 있는 주요 연구 기관과 협력하고 있습니다. 2016년부터 맡은 데이터 캠프 강의는 20만 명이 넘는 사람이 수강했으며 오라일리(O’Reilly)와 매닝(Manning)의 고급 데이터 과학 강의에도 기여했습니다. 현재는 사우디아라비아에 있는 미스크(Misk) 아카데미의 기술 교육과정 고문으로 데이터 과학 프로그램 개발을 이끌고 있습니다.

보이안 앙겔로프 저자

보이안 앙겔로프

보이안 앙겔로프는 10년 이상의 학계와 산업계 경험이 있는 데이터 전략가이자 컨설턴트입니다. 생물정보학, 임상 실험, 인적 자원 기술, 관리 컨설팅 등의 분야에서 활동합니다. XAI 분야의 오픈소스 과학 프로젝트에 기여했으며 정기적으로 콘퍼런스와 모임에서 발표합니다.

임혜연 역자

임혜연

인터넷 세상의 언어에 관심이 많은 개발자입니다. 지금은 어떻게 하면 검색을 통해 좋은 연결을 만들 수 있을지 고민하는 일을 주로 하고 있습니다.

PART 1 새로운 언어의 발견


CHAPTER 1 첫걸음

1.1 R의 기원

1.2 파이썬의 기원

1.3 언어 전쟁의 시작

1.4 데이터 과학에서의 승자는?

1.5 협력과 커뮤니티 구축

정리하기

 

 

PART 2 새로운 언어 시작하기


CHAPTER 2 파이썬 사용자를 위한 R

2.1 R 제대로 사용하기

2.2 프로젝트와 패키지

2.3 티블의 성공

2.4 데이터 타입과 탐색

2.5 내부 요소 명명 규칙

2.6 리스트

2.7 팩터의 실체

2.8 필요한 내용을 찾는 방법

2.9 반복 다시 실행하기

정리하기

 

CHAPTER 3 R 사용자를 위한 파이썬

3.1 버전과 빌드

3.2 표준 도구

3.3 가상 환경

3.4 패키지 설치

3.5 노트북

3.6 파이썬과 R 비교

    _데이터셋 가져오기

    _데이터 조사하기

3.7 데이터 구조와 기술 통계

    _데이터 구조: 기본으로 돌아가기

    _인덱싱과 논리 표현식

    _플로팅

3.8 추론 통계

정리하기

 

 

PART 3 현대적 컨텍스트


CHAPTER 4 데이터 포맷 컨텍스트

4.1 외부 패키지와 기본 패키지

4.2 이미지 데이터

4.3 텍스트 데이터

4.4 시계열 데이터

    _베이스 R

    _프로펫

4.5 공간 정보 데이터

정리하기

 

CHAPTER 5 워크플로 컨텍스트

5.1 워크플로란?

5.2 탐색적 데이터 분석

    _정적 시각화

    _인터랙티브 시각화

5.3 머신러닝

5.4 데이터 엔지니어링

5.5 보고서 작성

    _정적 보고서 작성

    _인터랙티브 보고서 작성

정리하기

 

 

PART 4 파이썬과 R 함께 사용하기


CHAPTER 6 파이썬과 R의 시너지 효과

6.1 가짜 운용성

6.2 상호 운용성

6.3 한 걸음 더

    _R 마크다운 문서에서 파이썬으로 객체 전달하기

    _R 마크다운 문서에서 파이썬 호출하기

    _파이썬 스크립트를 소싱해서 파이썬 호출하기

    _REPL을 사용하여 파이썬 호출하기

    _인터랙티브 문서에서 동적 입력으로 파이썬 호출하기

정리하기

 

CHAPTER 7 데이터 과학 사례 연구

7.1 24년 그리고 188만 건의 산불

7.2 설정과 데이터 불러오기

7.3 탐색적 데이터 분석과 데이터 시각화

7.4 머신러닝

    _파이썬 환경 설정

    _피처 엔지니어링

    _모델 학습

7.5 예측과 UI

정리하기

 

[부록] 파이썬-R 사전

- 패키지 관리

- 할당 연산자

- 타입

- 산술 연산자

- 속성

- 키워드

- 함수와 메서드

- 스타일과 명명 규칙

- 유사한 데이터 스토리지 객체

- 데이터 프레임

- 논리 표현식

- 인덱싱

파이썬과 R, 무엇이 더 강력한 데이터 과학 도구일까요?

 

데이터 과학 분야에서는 파이썬과 R이 주축을 이루고 있습니다. 그렇다면 둘 중 더 강력한 도구는 무엇일까요? 이 책은 특정 상황에서 어떤 언어가 더 큰 장점을 갖는지 알아보고, 각 언어의 장점을 최대한으로 활용하는 방법을 다룹니다.

 

그런데 데이터 과학에서 파이썬과 R은 “함께 사용할 때” 정말로 강력한 도구가 된다는 사실을 알고 있나요? 이 책은 어디서도 다루지 않는 파이썬과 R의 시너지 효과를 설명하고, 각 언어로 작성된 스크립트를 단일 워크플로에서 단일 스크립트로 만드는 방법도 살펴봅니다!

 

평소 데이터 과학 프로젝트에서 한 가지 언어만 사용했다면 이 책을 통해 원래 사용하던 언어를 기반으로 다른 언어를 배울 수 있습니다. 그렇게 파이썬과 R을 모두 다룰 수 있는 이중 언어 사용자가 되면 예제를 통해 특정 상황에서 어떤 언어를 선택해야 하는지 학습합니다. 최종적으로는 두 언어를 모두 사용하여 성공적인 데이터 과학 프로젝트를 완성할 수 있습니다.

 

 

대상 독자

  • 데이터 과학 이론이 아닌 ‘데이터 과학을 위한 언어(도구)’에 관심 있는 사람
  • 데이터 과학 분야의 실무자

 

주요 내용

 

1. 맞춤형 학습

  • 파이썬 사용자를 위한 맞춤형 R 학습
  • R 사용자를 위한 맞춤형 파이썬 학습

2. 이중 언어 사용자를 위한 스킬

  • 파이썬과 R의 장단점 비교
  • 상황에 맞는 언어를 선택하는 방법

3. 파이썬과 R의 시너지 효과

  • 파이썬과 R을 단일 워크플로로 통합하는 방법
  • 파이썬과 R을 함께 사용하는 사례 연구

 

추천사

 

이 책에는 다양한 도메인의 예제, 여러 패키지 안내와 참고 자료가 꽉 들어차 있습니다. 이 책의 가르침에 따라 두 세계의 장점을 취사선택할 수 있다면 더 쉽고 멋지게 문제를 해결할 수 있을 것입니다.

_정지용(구글 ML인프라 엔지니어)

 

두 언어의 시너지와 관련된 부분이 인상적입니다. 데이터 과학 분야에 관심이 있는 사람에게 추천하기에 충분히 매력적인 책입니다.

_김선겸(SKTelecom 검색/추천팀)

 

데이터 과학 분야의 큰 흐름을 파악하는 데 도움이 되며, 특히 하나의 언어에 익숙한 현업 데이터 분석가에게 또 다른 언어를 선물하는 책이 되어줄 것입니다.

_임중선(당근마켓 NLP 엔지니어)

 

파이썬과 R의 기원을 알 수 있고, 파이썬과 R이 서로를 보완하는 방법에 대해 배울 수 있습니다.

_조지 마운트(Stringfest Analytics CEO)

 

데이터 과학을 시작하는 데 도움을 주며, 파이썬과 R 중 무엇으로든 작업할 수 있는 방법을 알려줍니다.

_노아 기프트(Pragmatic AI Labs 창립자)

책 내용은 현 시점에서 굉장히 좋은 내용입니다. 데이터 과학에서 주로 사용하는 언어인 파이썬과 R을 다루는 법과 데이터 과학에서 이것으로 어떻게 작업하는지를 설명합니다. 본 책의 독자는 데이터 과학 분야에서 실무를 수행하는 사람으로 정하고 있습니다. 그래서 데이터 과학에 대해서는 자세하게 설명하지 않지만 제 생각에는 데이터 과학이 뭔지 몰라도 이 책과 데이터 과학 책을 병행하여 보면서 학습하면 되지 않을까 생각합니다. 본 책은 각 언어별 역사부터 시작하여 언어를 사용하는 방법, 현대 데이터 과학에서 사용하는 유형을 설명합니다. 데이터 과학을 위한 프로그래밍 언어 학습용 책으로 딱이라고 생각합니다. 최근에 데이터 과학과 딥러닝에 대해서 학습을 하려고 준비 중이었는데 마침 이 책을 받게되어서 크게 도움이 되었습니다. 데이터 과학 학습을 위해 고민 중인 분이 있다면 이 책을 강력히 추천할 예정입니다.

 


첫 장부터 남다른 책!

 

 


첫 장을 넘기면 표지 설명이 있다.

 

 


이 책의 표지는 '오징어'이다.

 

 


오라일리 표지에 등장하는 동물은 대부분 멸종 위기종이라고 한다.

 

 


멸종되어 가는 동물에 대한 경각심을 가지게 하는 메시지를 전하고 있다.

 

 

 


이 책의 머리글에서 읽었던 글 중에 가장 맘에 와닿았던 부분이다.

 

 


시간이 변해도 불변하는 것은 '강력한 기초'

 

 


 

 


이 책은 첫 머리에도 있지만 파이썬과 R에 대한 기초 지식이 있거나, 파이썬 또는 R에 대한 기초를 알고 있을 때 내용을 이해하기 쉽다.

 

 


 

 


언제부턴가 R도 공부를 해둬야 겠다 생각했지만 뜻대로 되지 않았다.

 

 


이 기회에 파이썬과 R을 비교해가며 공부해보고 싶었지만

 

 


시간을 내기 어려웠다.

 

 


 

 


이 책에서 좋은 점은 아래와 같은 설명이다.

 

 


요소에 대한 설명을 이해하기 쉬운 비유를 통해 하고 있다.

 

 

 

함수.png

 

 

 

 


함수나 객체를 설명할 때 유용할 것 같다.또한, 기본 데이터에 대한 설명을 파이프라인으로 정리되고 설명되어 기초를 다듬게 된다.

 

 

파이프라인.png

 

 

 

 

 


파이썬과 R의 패키지 비교는 두 언어를 이해하기 충분하다.

 

 

파이썬과R비교.png


과정마다 실습을 할 수 있는 예제가 있어 내용을 이해할 수 있다.

상호 운용을 위한 파이썬과 R의 사례에서 두 언어가 조합된 워크플로우의 결과를 보며 적절히 두 언어를 결합해서 사용하면 큰 시너지를 얻을 수 있음을 알 수 있다.

 

책의 마무리는 데이터 과학의 사례로 데이터 기초부터 시각화 , 머신러닝까지 해 볼 수 있는 예제가 실려있다.

 데이터 불러오기 부터 머신러닝까지 프로세스를 익히기는 좋은 것 같다.

 

 


이 책은 파이썬과 R 두 언어에 대해

 

 


이해하고 결합해서 사용하는 내용이지만

 

 


파이썬이나 R에 대한 기초가 없다면

 

 


이 책에서 전하고자 하는 메시지는

 

 


달성하기는 어려울 듯 하다.

 

 


두 언어 중 한 가지만이라도 사용해 보았다면

 

 


두 언어가 어떻게 워크플로우를 작동하는지와

 

각 언어를 공부하면서 이걸 왜 이렇게 하지? 라는 의문에 대한 저자의 설명이 돋보이는 책이다.

 

 

 

 

 


"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

데이터 과학, 통계 등을 시작하고자 할 때 어떤 언어를 선택할지에 대한 기로에 놓이게 된다. 파이썬과 R은 데이터과학 분야에서 주로 사용되는 언어이기도 하다.

보통 다양한 생태계를 이야기할 때는 파이썬을 통계 패키지를 좀 더 사용하고자 한다면 R을 추천하는 편이다. 서로 어떤 언어가 좋고 나쁘고를 떠나서 각 장점을 이해하고 사용하면 좋겠다는 생각을 해왔다. 주로 파이썬을 사용하는 입장에서 R관련 패키지에도 관심을 갖고 있으며 판다스의 주요 기능들이 R에서 영향을 받은 것이 많다는 것도 익히 들어왔다.

이 책은 데이터 과학을 위한 파이썬과 R을 비교해서 설명하고 있다. 이런 책 꼭 필요하다고 생각하고 있었는데 한빛미디어의 나는 리뷰어다를 통해 읽어보게 되었다. 해들리위컴의 tidy data 등의 여러 저널 자료와 ggplot의 철학을 통해 시각화를 이해하는데도 많은 도움이 되었다.

그럼 파이썬 사용자를 위한 R이라면 어떤 내용을 비교하면서 봐야 할까? 이미 파이썬을 통한 데이터과학 패키지 사용경험이 있는 사람이라면 다른 도구를 접했을 때 오히려 혼란스러울 수 있는데 이런 부분을 정리해 주고 있는 점이 좋았다.

또, 반대로 R사용자를 위해 파이썬을 사용할 때 어떤 점을 고려해야하는지에 대한 내용을 읽으면서 반대로 R을 이해하는데도 도움이 되었다.

파이썬과 R은 데이터과학에 사용되는 대표적인 언어로 이 두 언어가 서로 어떤게 더 좋다 나쁘다를 이야기하기 보다 서로의 장점을 이해하고 시너지를 낼 수 있는 방법에 대한 내용도 좋았다. 각 언어로 만들어진 도구마다 장점을 고려해서 사용할 수 있게 알려주고 있다.

시대별 마일스톤을 정리해 준 표가 인상적이었는데 중요한 출판자료, 중심언어, 핵심패키지, 재단과 기업 등을 한 눈에 살펴볼 수 있게 정리한 부분으로 시대적 흐름을 볼 수 있다.

각 데이터의 특성에 따라 어떤 처리를 해주어야 하는지에 대한 내용도 한눈에 볼 수 있다.

테이블 형식, 이미지, 텍스트, 시계열, 공간 정보에 따라 각 언어별 주요 패키지를 비교하고 있다.

데이터 멍잉, EDA, 머신러닝, 딥러닝, 데이터 엔지니어링, 보고서 작성에 대해서 비교한 표이다. 각 패키지별 유사한 기능을 하는 도구에 대한 이해를 돕는다.

두 언어를 한 번에 같이 사용하기보다는 절차를 통해 데이터 파일을 공유하는 형태로 각 언어의 장점을 활용하는 것을 추천하고 있다. 이 부분을 어떻게 설명할지 책을 읽기 전에 궁금한 부분이었는데 데이터 파일 형태로 파이프라인을 만드는 것이 프로세스상 혼란을 줄일 수 있는 방법일 것이라는 것에 동의한다.

요즘은 ChatGPT를 통해 파이썬 코드를 R로 변경해 달라 혹은 반대로 해달라 해도 척척 알아서 언어를 잘 바꿔준다. 하지만 여전히 오류가 많고 해당 지식을 이해하고 있다면 좀 더 시너지를 낼 것 같다는 생각이 드는데 이 책에 이러한 부분이 잘 정리되어 있다.

두껍지 않은 분량에 두 언어의 핵심을 비교하는 내용을 잘 담고있다. 두 언어를 모두 깊게 사용해 보지 않으면 쉽게 정리하기 어려운 내용인데 저자의 내공이 느껴지는 책이었다. 주로 파이썬을 사용하지만 나 또한 R과 관련된 저널이나 관련 패키지의 철학에 대해서는 공감하는 부분이 많은데 이 책을 통해 그러한 부분을 좀 더 잘 정리해볼 수 있는 계기가 되었다.

이 리뷰는 한빛미디어의 나는 리뷰어다 이벤트를 통해 책을 제공받아 작성했습니다.

최근 1:1 데이터 분석 레슨과 멘토링을 사이드잡으로 진행중인데, 3월 서평단 도서 목록 중 <데이터 과학을 위한 파이썬과 R> 이라는 제목을 보자마자 고를 수 밖에 없었습니다. 인공지능을 공부하는 사람들에게 파이썬은 기본이 되는 도구이지만, 데이터 분석 분야에서는 R 또한 주류로서 많이 사용되는데요, R을 사용해본 경험이 거의 없다보니 이번 기회에 R이 파이썬보다 더 잘하는 것이 무엇일까 배워보기로 했습니다. 데이터 분석 멘토링 요청을 해오시는 분들 중 파이썬은 모르는데 R 사용 경험은 있는 분들도 계시다는 점이 흥미롭기도 해서, 이번 기회에 데이터 분석 멘토링 실력을 보완해보기로 했습니다.

<데이터 과학을 위한 파이썬과 R> 표지 -한빛미디어

이 책의 특징

이 책의 특징은 파이썬과 R 언어 중 한개만 알고 있는 사람들을 위주로 타겟팅하여, 원래 익숙한 언어에서 쉽게 다른 한개의 언어로 지식을 확장시킬 수 있는 데 포커스를 맞추었습니다. 따라서 파이썬과 R을 아예 처음 접하는 사람이라면 어느정도 프로그래밍 경험, 또는 데이터 분석 경험이 있으면 조금 더 직관적으로 이해하는데 도움이 될 것 같습니다. 그럼에도 불구하고 어쨌든 기초 지식을 위주로 작성된 서적이어서 큰 어려움은 없을 듯 합니다.

데이터 분석에서 R과 Python이 활약하는 방법

R: 태초부터 통계 분석을 위해 태어난 프로그래밍 언어.

파이썬 (Python): 사용하기 편리한 문법을 바탕으로 광범위하게 사용되겠다는 분명한 목적을 두고 만들어진 프로그래밍 언어.

탄생한 목적에 맞게 파이썬은 웹 개발, 게임, 시스템 관리, 데이터 과학, 딥러닝 엔지니어링 등 현재 수많은 분야에서 활약하고 있습니다. 필자는 파이썬으로 데이터 분석으로 많은 인기를 끄는 것은 온전히 데이터 과학에 사용되는 기능 때문만이 아니라, 범용 언어로써 기존 역할에 부분적으로 ‘편승’하여 데이터 과학 분야로 진입했다고 봅니다. 그러니까, 이미 파이썬을 사용하고 있던 엔지니어들에게 접근성이 좋기 때문에 원활한 커뮤니케이션을 위해서 파이썬을 선택하는 사람들이 많았다는 뜻입니다. 배열 데이터를 처리하기 위한 파이썬 패키지는 2005년 numpy가 등장한 이후부터서야 천천히 데이터 과학에서의 자리를 확고히 잡아가기 시작했다고 합니다.

R과 파이썬 모두 high-level 프로그래밍 언어로써 배우기가 쉽고 사용이 편리하다는 공통점이 있습니다. 각각의 장단점이 있어서 둘 중에 무엇을 사용해야한다는 절대적인 룰은 없으나, 전문적으로 데이터 분석을 하는 분석가라면 두 언어 다 익혀서 양단의 장점을 극대화시키면 분석 스킬을 끌어올리는 데 큰 도움을 받을 수 있을 것 같다는 생각이 들었습니다.

분야별 승리자 알아보기

데이터 EDA는 R이 승자: EDA는 데이터 분석의 필수 기본 단계인데, 데이터 시각화를 훌륭하게 수행하는 R이 EDA에서는 파이썬을 제칩니다. 파이썬을 이용자라면 알지만, 꽤 발전해왔다 하더라도 matplotlib을 사용해 데이터를 플로팅 하는 것은 꽤나 번거롭고 덜 직관적이죠. 반면 R의 ggplot2, leaflet, plotly 등 데이터 시각화 패키지는 단 몇줄의 코드만으로 시각화 작업을 쉽고 간단히 수행한다고 합니다.

머신러닝에서는 파이썬이 승자: 최근 데이터 과학은 거의 머신러닝과 동일한 언어로 쓰일 정도인데, 딥러닝이 유명해지면서 scikit-learn 패키지와 함께 파이썬의 ML 생태계는 급성장을 이루었습니다. 몇줄의 코드만으로 데이터를 불러오고, 파라미터 초기화에 더불어 모델 피팅까지 효과적으로 수행할 수 있고, 직관적인 문법을 따르기 때문에 다큐먼트를 찾을 시간을 줄이고 코드 작성에 더 집중할 수 있게 도와줍니다.

이 외에 Task 단위로 보면, 이미지 데이터와 텍스트 데이터의 처리는 파이썬이 더 뛰어나고 시계열 데이터와 공간 정보의 처리는 R이 뛰어나다고 합니다. 상호 보완되는 부분이 명확하다보니, 여기까지 알게된 전문 데이터 분석가라면 어떤 것 하나 놓치기가 너무 아쉬울 것 같습니다.

마치며

<데이터 과학을 위한 파이썬과 R> 서적을 통해 파이썬과 R이 데이터 과학 분야에서 서로 상호 보완되는 장점들을 알아볼 수 있었습니다. 전문 데이터 분석가가 아닌 저도 딥러닝 연구자로써 욕심이 나는데요, 특히 EDA에 꼭 써먹어봐야겠다는 생각이 듭니다. 내용이 직관적으로 잘 정리되어 있고 설명도 쉽게 쓰인 책으로, 파이썬과 R의 차이가 궁금하고, 데이터 분석 역량을 기르고 싶은 분석가들에게 추천하고 싶은 책입니다.

 

“한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.”


1. 예시, 실습 관련 구성이 잘 되어있다. 

저는 코딩 관련 서적을 구매할 때, 책의 구성에서 예시나 실습, 코드 등이 얼마나 담겨있는지를 중요하게 고려하는데요.

이 책의 경우에는 읽어보았을 때 절반 이상이 담겨 있어서 충분히 만족스러웠습니다.

또한,

코드를 전부 던져주고 내용을 쭉 써놓는 유형보다는

코드를 부분씩 나누어 해설과 함께 구성되어 있어서 따라가면서 이해하기에도 어려움이 없어서 좋았습니다.

 

2. R과 파이썬이 적절히 섞어서 구성되어있다.

일반적으로 두 가지 이상의 언어로 되어있는 서적은 어느 하나의 언어로 치중되어 구성되어 있는 편입니다.

처음 제목만으로 봤을 때, 이 책도 저는 R에 초점이 맞춰져 있지 않을까라는 생각으로 읽기 시작했었습니다.

(R이라는 내용이 들어가면서 분석이 메인 주제가 될 것이라고 생각했고, 그래서 R이 위주가 되지 않을까 생각했습니다.)

내용을 다 읽어보니, 제가 생각했던 내용이 아니라 파이썬과 R, 두 언어로 잘 조화롭게 작성되어 있었습니다.

 

3. 시각적인 자료가 정말 큰 도움이 되었다.

책을 읽으면서 실습을 하다 보면, 이 코드의 결과에 대해서는 생략된 책이 꽤 많습니다.

예를 들어, 그래프가 결과로 출력되야 하는 코드인데 책에는 코드만 있는 경우입니다.

이런 경우에는, 내 결과가 맞는지 의심하면서 공부하거나 틀린걸 바로잡지 못하고 내용을 이어가게 됩니다.

데이터 분석, 시각화 등의 책 에서는 중요한 요소라고 생각하는 부분이고, 그래서 이 부분도 고려사항이었습니다.

이 책에서는 환경 설정부터 시각화 결과까지 이미지가 잘 삽입되어 있어서 책과 비교하며 공부하기에 좋았습니다.

 

 

 

대부분 데이터 사이언스를 하면 파이썬만 공부하게 되는 경우가 많다고 생각됩니다.

이 책을 통해서 파이썬과 R의 시너지를 내서 하나의 도구처럼 사용할 수 있는 방법과 스킬을 배울 수 있었습니다.

또한, 글로만 되어있는 책이 아니다 보니 의심되는 결과에 대해서 찾아보고 할 필요 없이 직관적으로 책과 비교가 가능하여

시간의 낭비 없이 알차게 공부하는 시간을 가질 수 있었다고 생각합니다.

만약에 어느정도 파이썬 또는 R을 공부하신 분이라면

이 책으로 파이썬과 R을 이용한 하나의 테크닉을 만들 수 있는 기회가 될 것 같습니다.

시간이 너무나 빨리 지나갑니다. 어느덧 나는 한빛 리뷰어다!의 두 번째 책이 도착하였거든요. 이번 책 역시 제목을 보고 많은 기대를 했기에 도착하기만을 손꼽아 기다렸습니다. 하지만, 밑의 서평에 자세히 쓰겠지만서도 이번 책은  저의 기대를 완벽하게 충족시켜주진 못했습니다. 책의 잘못은 아니고요, 확실히 이런 얇은 가이드 라인에 가까운 책들은 주인을 잘 만나야 하는 것 같습니다. 얇다는 것은 축약했다는 것이고, 축약했다는 것은 독자가 이미 책이 다루는 내용에 어느정도 통달한 사람이라는 가정을 깔고 있습니다. 저는 그런 사람이 아니었기에 이 책이 제공하는 정보를 다 받아들이지 못한 것 같습니다. 저와 같은 불상사가 생기지 않게 하기 위해 책의 내용을 최대한 잘 정리하고, 정말로 필요한 독자들이 누군지 나름대로 정의해보고자 합니다.

 

<데이터 과학을 위한 Python과 R>은 R과 Python을 동시에 사용하며 두 언어의 장점을 활용하는 방법을 설명하는 책입니다. 이 책은 두 언어를 활용하는 방법에 대한 간단한 예제와 함께 실습을 제공하여 독자가 각 언어의 핵심 패키지의 장단점을 더 잘 이해할 수 있도록 합니다.

 

이 책의 시작은 파이썬이나 R을 아는 사람이라면 재미있게 읽을 수 있는 부분으로, 모든 작업을 선호하는 언어(R or 파이썬)로만 해야 한다는 편견을 깨고 두 언어를 함께 사용하는 방법을 알려줍니다. 또한 두 언어 모두에 대한 이론적, 실용적 접근 방식을 다루고 있어 각자의 상황에 맞춰 어떤 언어를 선택하고, 혹은 특정 언어를 연습하기 위해 어느정도의 시간과 노력을 투자해야 하는지를 알려주는 장이라고 보면 좋을 듯 해요.

 

2장 에서는 Python 사용자를 위한 R, R 사용자를 위한 Python의 환경 구분하여 설명하여 독자가 새로운 언어를 시작하는 데 도움을 줍니다. 이 섹션에서는 각 언어의 기본 기능 및 사용법에 대해 제한적이지만 그 중 유용한 가이드를 제공하는 부분도 있습니다.

 

3장 에서는 데이터 형식과 워크플로 컨텍스트로 나누어 각 언어가 강점을 가진 영역을 설명합니다. 파이썬은 이미지와 텍스트 처리 및 분석에 강하고, R은 시계열과 공간 정보에 능하다고 하네요. 워크플로우 맥락에서는 EDA와 보고서 작성은 R의 강점이고, 머신러닝, 딥러닝, 데이터 엔지니어링은 Python의 강점이라고 설명하고요.

 

마지막 4장은 R 진영의 레티큘레이트와 파이썬 진영의 rpy2 모듈 등 파이썬과 R 간의 상호 운용성을 구현하는 데 필요한 패키지를 소개합니다. 그런 다음 미국 농무부에서 제공하는 산불 데이터 세트를 사용하여 RStudio IDE에서 R과 Python을 올바르게 활용하는 방법을 보여줍니다. 얇은 책임에도 마지막에는 직접 연습할 수 있는 사례를 넣었으니 있을건 다 있다고 봐야겠죠....?

 

그러나 서두에 밝혔다시피 일부 독자분들은 이 책이 특정 측면에서 부족하다고 평가할 수 있을 것입니다. 나만의 느낌일 수도 있기에 다른 서평들도 살펴보았습니다. 역시 설명이 매우 요약적이고 친절하지 않기에, 이 책은 이미 R 또는 Python에 익숙한 데이터 과학 분야의 실무자에게 더 적합하다고 말씀하신 분들이 꽤 있었습니다. 또 책의 전체적인 방향이 R 사용자를 위한 Python과 Python 사용자를 위한 R에 맞춰져 있어 각 도구를 깊게 파고드는 목적이 있는 분들은 적합하지 않다는 의견도 있었네요.

 

물론 이러한 의견에도 불구하고 이 책은 R과 Python을 상호 운용하는 방법을 배우고자 하는 독자에게 꽤 유용할 겁니다. Python과 R을 함께 사용하는 방법에 대한 힌트를 제공하는 몇 안되는 책이기도 하고요. 두 언어의 강점을 활용하여 생산성을 더 높은 수준으로 끌어올릴 수 있는 방법이 궁금하신 분들이라면 충분히 도움이 될 것입니다.

 

나름의 결론을 내리자면, '데이터 과학을 위한 Python과 R'은 R과 Python을 함께 사용하는 방법을 배우고자 하는 모든 사람에게 나쁘지 않은 책입니다. 이 책에 단점이 없는 것은 아니지만, 두 언어를 함께 사용할 수 있는 실용적이고 이론적인 접근 방식을 제공하므로 읽어 볼 만한 가치가 있습니다. (물론 제가 지금까지 언급한 독자의 실력에 많이 좌우된다는 점을 꼭 잊지 마시길!)



데이터 분석 언어의 양대 산맥을 정복하자!

 

- 데이터 과학을 위한 파이썬과 R -

 

 

데이터 과학을 위한 파이썬과 R_표지.jpg

 

 

1. 파이썬? R? 데이터 분석 언어 뭐로 시작해야 하죠?

 

 

데이터 분석을 배우기 시작할 때 누구나 한 번 쯤 하게 되는 고민이 있습니다.

바로 분석 툴/언어에 관한 것인데요.

데이터 분석을 공부하고 싶은데 어떤 언어가 더 좋은지 혹은 배우기 쉬운지를 고민하게 됩니다.

사실 두 언어는 만들어진 배경이 달라 특성이 좀 다른데요.

 

R은 통계학자들이 개발한 언어입니다.

통계 분석에 특화되어 있는 언어이기 때문에 상대적으로 배우기 쉽고 아주 자세한 통계 분석이 가능합니다.

 

파이썬은 범용 프로그래밍 언어로 개발되었기 때문에 확장성이 아주 좋고 데이터 분석 뿐만 아니라 게임제작, 웹 개발, 응용프로그램 개발까지도 가능하죠. 학습 난이도는 R보다 파이썬이 조금 더 어렵습니다.

 

R과 파이썬의 특성이 조금 다르다보니 데이터 분석을 배울 때

통계를 주로 다루는 학과에서 데이터 분석을 배우면 보통 R을 먼저 접하게 되고,

컴퓨터 공학을 배우는 학과의 경우 파이썬을 먼저 배우게 됩니다.

그리고 막상 실전에서 데이터 분석을 하다보면 파이썬은 파이썬대로 R은 R대로 부족함을 많이 느끼게 되는데요.

 

파이썬은 데이터 수집, 전처리, 머신러닝, 딥러닝에는 좋지만 통계적 분석이 필요한 탐색적데이터분석(EDA), 시각화, t검정, 분산검정, 회귀분석, 시계열 분석과 같은 분양에서는 부족함이 많습니다.

R은 R대로 데이터 전처리, 머신러닝, 딥러닝 라이브러리가 파이썬에 비해 부족해서 다양한 알고리즘으로 분석하는데 한계가 있죠.

 

그래서 어느 언어로 시작하더라도 항상 부족함을 느끼게 되는데 그 부분을 해결해줄 수 있는 책이 나왔습니다.

바로 오늘 소개할 "데이터 과학을 위한 파이썬과 R" 입니다.

 

 

2. 이 책을 꼭 읽어야 하는 사람은?

 

이 책은 파이썬이나 R로 데이터 분석을 어느정도 할 줄 알면서 각 언어의 한계나 불편함을 느끼는 사람들에게 추천 합니다. 특히 파이썬과 R의 장점만을 뽑아 함께 사용하고자 하는 데이터 분석가들에게 적극 추천합니다.

 

파이썬은 할 줄 아는데 R은 잘 모르고, R은 아는데 파이썬은 잘 모르는 사람들에게는 상대 언어의 장점이 무엇이고 사용법에서 어떻게 차이가 있는지를 한 눈에 파악할 수 있습니다. 그리고 어떻게 두 언어를 조합해서 데이터 분석에 활용할 수 있는지를 보여줍니다.

 

3. 이 책 한 권으로 파이썬과 R을 모두 배울 수 있나요?

 

그렇지는 않습니다. "데이터 과학을 위한 파이썬과 R"에서는 각 언어의 설치, 설정 방법, 개발 도구 등을 설치하고 각 언어의 데이터 타입 등에 대한 소개는 하고 있지만 언어별 문법을 상세하게 설명하지는 않습니다. 같은 작업을 할 때 파이썬과 R의 문법이 어떻게 다른지 비교할 수는 있지만 개별 언어의 문법은 따로 공부해야 합니다.

 

4. "데이터 과학을 위한 파이썬과 R"로 공부했을 때 얻을 수 있는 부분은?

 

 

파이썬과 R을 강점이 있는 영역에서 교차로 사용하면서 효율적이면서 최적화된 분석 결과를 도출할 수 있는 방법을 배울 수 있습니다.

 

 

데이터 과학을 위한 파이썬과 R_10.jpg

 

위의 내용처럼 데이터 로딩, EDA는 R을 사용하고 특성추출, 머신러닝 모델 생성은 파이썬으로, 그리고 대화형 웹 인터페이스를 사용한 서비스는 R을 이용하는 형식입니다.

 

기본적으로 파이썬은 데이터 전처리, 이미지처리, 자연어처리, 머신러닝, 딥러닝, 데이터 엔지니어링에 강하고, R은 시계열 데이터, 공간정보 데이터, EDA 및 시각화, 인터렉티브 보고서 작성에 강합니다. "데이터 과학을 위한 파이썬과 R"은 각각의 데이터 분석 프로세스에서 두 언어의 강점을 소개하고 융합하는 방법을 보여줌으로써 보다 효율적인 데이터 분석을 할 수 있도록 도와줍니다.

 

 

마무리하며..

 

지금까지 "데이터 과학을 위한 파이썬과 R"에 대해서 소개한 내용을 종합해 보겠습니다.

1. 이 책은 파이썬이나 R중 한가지 언어를 잘 다룰 수 있는 사람들이 보는 책입니다.

2. 파이썬, R에 대한 역사, 사용법의 차이점 등을 비교할 수 있습니다.

3. 데이터 분석 과정에서 각 언어가 어떤 부분에서 강점을 가지고 있는지 비교할 수 있습니다.

4. 파이썬과 R의 강점을 조합하여 데이터 분석을 어떻게 할 수 있는지 알려줍니다.

 

파이썬이나 R중 한 쪽만 사용할 수 있는 독자중 다른 언어에 대해서도 공부하고 싶고 두 언어의 강점을 모아서 데이터 분석에 활용하고 싶다면 이 책을 통해서 시작하는 것을 추천합니다.

 

단, 파이썬이나 R의 사용법에 대해서 자세히 다루고 있지 않기 때문에 기본 문법은 따로 공부해야 하고, 추가 패키지 사용법도 찾아서 공부해야 합니다. 그리고, 두 언어를 조합해서 활용하는 부분의 예제가 R을 중심으로 되어 있어 파이썬을 중점적으로 사용하면서 R을 활용하고 싶은 독자에게는 약간 아쉬울 수 있습니다.

 

 

본 리뷰는   "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

# 한빛미디어 #데이터과학을위한파이썬과R #파이썬 #R #python #데이터분석

 

 



 

[들어가며]

 

현재 데이터 분석에서 가장 많이 사용되는 언어는 Python과 R이다. 

 

오랜 역사와 높은 신뢰도를 가진 R과, 머신러닝 분석이 쉬운 파이썬의 빠른 성장은 두 언어 중 어느 하나를 선택하기 어렵게 한다.

 

하지만 데이터 분석 실무를 수행하다보면, 데이터의 성격과 분석기법 등 여러가지 여건에 따라서 두 언어를 병행하거나 하나의 언어의 강점을 교차해서 이용하고 싶을 때가 많다. 

 

이 책은 바로 그럴 때 집어들기 좋다.

 

파이썬과 R의 기술적 유사점과 차이점에 대해서 모두 설명하며, 두 언어 중에 하나를 사용하는 학습자가 다른 언어를 살펴보기에 최적의 구성이기 때문이다. 

 

 

[PART 1 새로운 언어의 발견]

- CHAPTER 1 첫걸음

 

R와 Python의 기원과 발전 역사, 그리고 두 언어간의 경쟁에 대해서 정리한다. 

 

 

[PART 2 새로운 언어 시작하기]

- CHAPTER 2 파이썬 사용자를 위한 R

- CHAPTER 3 R 사용자를 위한 파이썬

 

R언어 입문과 파이썬 언어 입문이다. 단순히 프로그래밍 문법 설명에서 그치는 것이 아니라, 실제로 효율적으로 구성할 수 있는 다양한 환경과 작업 도구 및 설정을 알려준다. 

 

 

[PART 3 현대적 컨텍스트]

 

- CHAPTER 4 데이터 포맷 컨텍스트

- CHAPTER 5 워크플로 컨텍스트

 

이미지/텍스트/시계열 데이터와 공간정보 데이터를 다뤄보고, 머신러닝 프로젝트의 전체적인 워크플로를 체험해본다. 

 

 

[PART 4 파이썬과 R 함께 사용하기]

 

- CHAPTER 6 파이썬과 R의 시너지 효과

- CHAPTER 7 데이터 과학 사례 연구

 

파이썬과 R을 함께 사용했을 때의 시너지 효과에 대해서 알아보고, 간단한 예제에 대한 데이터 분석/시각화/머신러닝 실습을 해볼 수 있다. 

 

 

[부록] 파이썬-R 사전

 

이 책의 백미이다. 패키지관리부터 타입, 속성, 함수, 인덱싱까지 파이썬과 R을 상호 대칭으로  제시하여, 문법을 비교해보고 궁금한 내용을 찾아볼 수 있게 배치했다. 

 

 

[결론]

 

파이썬과 R을 모두 다루는데도 아주 간결한 책이다.

 

부담없이 가볍게 훑으면서 개념 잡기에 좋다. 

 

아무래도 현실의 데이터는 머신러닝 입문서의 예제만큼 잘 정리되고 정형화되어있지 않다. 

 

데이터의 성격과 연계도구와 분석용량 및 주어진 시간 등의 상황에 따라서 적절한 도구를 선택해야 한다.

 

이 책은 파이썬 사용자를 위한 R 입문과, R 사용자를 위한 파이썬 입문이 모두 가능하다는 뛰어난 장점을 갖고 있다.

 

둘 중 어느 언어로도 작업할 수 있도록 서로의 기초를 가볍게 흝어보기가 좋아서 만족스러웠다. 

 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

이책의 대상 독자는 "데이터 과학 분야의 실무자"이다.

"파이썬 vs. R"이라는 도구 사고 방식에서 벗어나 생산적인 통합 커뮤니티를 만들고자 한다.

이 책을 보려면 "파이썬 or R" 한 언어는 익숙하게 다루어야 한다. 

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

 

너무 큰 기대를 하고 받아 드려서 그런지 생각보다 실망도 있었다. 기초적인 내용을 다룬다.

책의 전체적인 방향이 정말 R 사용자를 위한 파이썬, 파이썬 사용자를 위한 R이라는 데에 맞추어져 있다.

그러다보니 각 도구에 대한 깊이 잇는 접근이 어려운 구조적인 한계가 있었다.

일종의 하이브리드 접근인데.. 하이브리드 인 만큼 한계가 뚜렷한 상황이랄까.

 

지극히 개인적인 생각이지만 R과 파이썬 모두를 알아야 하나 싶기도 하고 

둘중 하나를 배우고 나면 나머지 하나는 그이전보다는 더 수월하게 학습되는 부분이 있어 책의 난이도가 상대적으로 낮게 느껴진다.

 

워크플로에 대해서는 업무에 대한 프로세스를 전체적으로 간단하게나마 살펴볼수 있어 좋았다.

 

캡처.PNG

 

캡처2.PNG

 

한빛미디어 “나는 리뷰어다” 활동을 위해서 책을 제공받아 작성된 서평입니다.

TL;DR

책표지

R과 Python을 다시 되돌아보는 기회

이 책을 통해서 R과 Python의 활용에 대해서 다시금 되돌아보는 기회를 가질 수 있었다. 내가 즐겨사용하는 언어인 Python으로 모든 것을 해야한다는 단순하지만, 강력한 편견을 이 책을 통해서 깰 수 있었다. 파이썬과 R 중 하나의 언어를 알고 있다면 이 책을 꼭 읽어보길 권한다. 서점이나 도서관에 들러서 1장은 꼭 읽어보길 권한다.

이제 두 언어를 모두 사용하는 데이터 과학자로 구성된 새로운 커뮤니티를 맞이할 준비가 되었 습니다. 하나의 언어만 사용하는 사람의 대부분이 두 언어가 얼마나 상호 보완적인지와 언제 어 떤 언어를 사용해야 하는지 모른다는 점은 여전히 풀기 힘든 문제입니다. 수년에 걸쳐 몇 가지 해결책이 나왔는데, 이에 대해서는 4장에서 설명하겠습니다.

이 책을 읽고나서 R을 언제 배웠던가 생각해보았다. 어렴풋하게 통계학 응용 시간에 배웠던 것 같다. 그때는 나에게 선택지가 두 개 있었는데, MATLAB을 하던가, R을 했어야 했다. 대부분의 공대생이라면 MATLAB은 간단하게 다룰 수 있었기 때문에, 난 당연히 R을 선택했다. 나에게 있어서 모르는 언어를 배운다는 것은 항상 즐거운 일이기 떄문이다.

이후에 회사를 다니면서 문자열 처리를 못해서(정규식은 여전히 어렵다…) 영혼을 모아서 사용했던 Python이 갑자기 부상하면서 데이터 랭글링(Data Wrangling) 혹은 데이터 먼징(Data Munging)을 활용하는데 Python을 적극적으로 활용했다. 내가 사용했던 OS에서 별다른 설정없이 곧바로 사용할 수 있다는 장점도 크게 한 몫했다.

R과 Matlab은 석사논문과 함께 잊혀져갔다가 요즘에 수리통계학을 공부하면서 다시금 R을 배우면서 고민도 많아졌다. 뭐랄까… Python에서 다 되는 것 같은데, 통계학 관련 서적은 대부분 R이나 엑셀을 고집하는 이유에 대해서 적당한 불만이 있었다.

이 불만의 원천은 “왜 내가 자주 사용하는 언어를 통계 연구자는 사용하지 않는가?”였다. 질문이 잘못 되었으니 답변이 올바르게 나올리 없었다. R과 Python은 각자의 이유가 있었다. 단지 내가 그 간단한 이유를 올바르게 이해하지 못했던 것이다.

오늘날 파이썬과 R 커뮤니티에 속한 대부분의 데이터 과학자는 두 언어가 모두 탁월하고 유용 하며 상호 보완적이라는 점을 인정합니다. 요점으로 돌아가서, 데이터 과학 커뮤니티는 연관된 사람 모두가 이익을 얻을 수 있도록 ‘협력과 커뮤니티 구축’이라는 지점으로 수렴했습니다.

생각만 했지만, 정말로 가능한지 몰랐던 것들

개발 환경이 Python에 맞춰져 있었다. 거의 대부분의 절차가 Python을 활용하고 있었기 때문에, R을 함께 활용하는 방법에 대한 명확한 기준이 없었다. 그렇다고 두 언어를 교차해서 사용하는 것은 아무리 생각해도 어색한 방법이다.

하지만 이 책의 4장 이후 부분을 참고하면서 Python과 R을 함께 활용하는 방법에 대한 힌트를 얻을 수 있었다. 이 책에서 소개하는 방법을 활용하는 것도 좋은 방법이지만, 개인적인 선호를 위해서 몇가지 것을 수정해서 적용해보았고 나름의 성과를 얻었다. Rmd 환경과 r-shiny에 대한 접근은 신선하고 새로웠다. Mercury 등과 같은 것도 공부하면서 알게 되었다.

어색하다는 감정을 내려놓는다면, R과 Python을 활용해서 더 수준높은 생산성을 추구할 수 있을 것이다. 더 나아가서 언어가 가진 특징을 잘 활용한다면 내가 만들어낸 결과를 깔끔하고 아름답게 배포할 수 있다. 두 언어를 함꼐 사용한다는 것이 쉽지 않은 결정이지만, 한번쯤 도전해보는 것도 좋은 선택이라 할 수 있다.

이 책은 최소한 두 언어를 활용하는 방법을 이론적인 부분에서 실습적인 것까지 모두 고려하고 있기 때문에 시간을 들여서 학습하는 것이 유익하고 즐거운 시간이 될 것이다.

부록. 전자책 예찬

전자책예찬

이번엔 책을 구글 도서로 받았다. 덕분에 아이패드와 컴퓨터에서 실시간으로 동기화를 하면서 읽을 수 있었다. 특히나 이론적인 부분은 출퇴근 시간을 활용해서 읽을 수 있었고, 실습은 듀얼 모니터를 활용해서 손쉽게 진행할 수 있었다.

만약, 태블릿과 듀얼모니터를 사용할 수 있는 환경이라면 전자책을 권한다. 학습 효율이 급상승 할 것이다. 그리고 IT 서적은 리디북스 보다는 구글에서 제공하는 Play book이 좋았다. 브라우저에서 손쉽게 책을 볼 수 있다는 것이 실습에 엄청난 도움이 된다고 생각한다.

덕분에 책을… 많이 사게 되었다.

과소비?!

Written on November 20, 2022

20221126_152720.jpg

 

 "한빛미디어 <나는 리뷰어다>활동을 위해서 책을 제공받아 작성된 서평입니다."

 

책을 다 읽고 난 후의 가장 큰 소득은 R과 파이썬이라는 두 언어를상호운용할 수 있는 방법을 알았다는 것이다. 가장 아쉬운 점은 설명이 그다지 상세하고 친절하지는 않다고느껴지는 것이다. 그래서, 머리말 부분을 다시 살펴보니 대상독자를 데이터과학 분야의 실무자로 하고 있고, 책을 최대한 활용하려면 배경지식으로 R이나 파이썬 중 한 언어에는 익숙해야 한다고 미리 밝히고 있음을 다시 확인했다. 개인차가 있는 부분으로 어느 정도 이해해야 할 것같다. 파이썬은데이터분석에 대한 기본 패턴인 데이터 읽기, EDA, 전처리, 훈련/테스트 데이터 분리, 모델 피팅, 분류/예측, 성능평가의 익숙한 문장들만 알고 있고, R은 실무로 사용하고 있지는 않지만 학습자 수준에서 조금 사용해 본 정도의 수준이라 책이 그다지 상세하지 않다고느껴진 것같다. 아울러 한빛미디어나 길벗 등에서 출판되는 IT 책들이경쟁적으로 내용이나 편집면에서 다양하게 독자들을 배려하고 있어 상대적으로 세심하지 않은 것같다고 느껴진 것같다.

 

책은 Part 01 새로운 언어의 발견에서 각 언어의 역사를 중심으로한 내용이 나온다. Part02 새로운 언어 시작하기에서는 파이썬 사용자를 위한 R, R 사용자를 위한 파이썬에서 각 언어의 사용환경에 대한 설명을 포함해서 기본적인 각 언어의 특징과 사용법을제한적이긴 하지만 따라해 볼 수 있도록 하고 있다.

Part03 현대적 컨텍스트에서는 데이터포맷 컨텍스트와 워크플로 컨텍스트부분으로 나누어 각 언어가 강점을 가지는 영역을 알려주고 있다. 데이터포맷 컨텍스트에서 이미지와 텍스트의처리 및 분석은 파이썬이 강점이 있고, 시계열과 공간정보는 R의손을 들어주고 있다. 워크플로 컨텍스트에서는 EDA, 보고서작성은 R이 강점이 있고 머신러닝, 딥러닝, 데이터 엔지니어링은 파이썬이 여러 도구들과 잘 어울리는 접착제 같은 특성을 들어 강점이 있다고 안내하고 있다.

Part04 파이썬과 R 함께사용하기에서는 파이썬과 R의 상호운용성을 구현하기 위해 필요한 R 진영의reticulate라는 패키지와 파이썬 진영의 rpy2 모듈을소개하고, 이어서 미국 농무부가 제공하는 Wildfires 산불데이터셋을 재료로 RStudio IDE에서 R과 파이썬을적절하게 활용하는 방법을 제시하고 있다.

 

특히 흥미로왔던 부분은 Part01이었다. ANOVA 분석후 사후검정의 한 방법으로 사용하는 Tukey’ HSD의그 튜키라는 사람이 EDA에 자주 사용하는 박스플랏(상자수염그림)을 개발했다는 사실이나 R Core라는 것이 있고 자발적 기여자 그룹에의해 문서화, 빌드, 테스트, 배포 등의 작업에 필요한 인프라를 포함하는 베이스R을 구현하고 있는데초기 멤버인 존 체임버스, 로스 이하카, 로버트 젠틀맨을포함한 몇 명의 멤버가 여전히 참여하고 있다는 점 등의 흥미로운 사실을 알게 되어 좋았다.

파이썬 진영에서는 창시자인 귀도 반 로섬이라는 네덜란드 프로그래머가 2018년까지파이썬 운영 위원회에 머물면서 자비로운 종신 독재자(BDFL, Benevolent Dictator For Life)라불리며 영향력을 행사했다는 점 등이 흥미로왔다.

 

Part02 Chapter3 R 사용자를 위한 파이썬은 많이 관심이갔었는데 사용환경 설정에서 원활하게 따라가지 못 해 아쉬웠다. 파이썬 환경이 다양하고 책에서는 그 중VS Code를 사용하는 방법을 비교적 상세하게 안내하고는 있어 VSCode 설치하고, 가상환경 구성하고 일부 패키지 설치하는 것까지는 따라 했다. 이후 Part03 Chapter4 데이터 포맷 컨텍스트에서 이미지데이터를 불러오기 위해 cv2(OpenCV) 패키지 설치하는데 에러가 나서 구글링하니 OpenCV라는 패키지명으로 설치해야 한다고 하고, skimage(scikit-image)패키지 설치하는데 에러가 나서 일단 실습은 포기했더랬다. 저자가 서두에 언급했던 것처럼어느 정도 파이썬이나 R 한 가지 언어에 익숙한 데이터 과학 분야의 실무자를 대상독자로 했기 때문에개인의 역량이 부족한 부분을 자책해야 할 것같다.

 

 

Part04 Chapter6 파이썬과 R의 시너지 효과에서는 R 코드를 작성하는 경우 reticulate가 보장하는 상호운영성과 파이썬 코드를 작성하는 경우 rpy2가보장하는 상호운영성에 대해 함수, 객체, 패키지 레벨에서사용할 수 있는 방법을 제시하고 있다.

 

20221126_152859.jpg

 

Part04 Chapter7 데이터 과학 사례 연구에서는 데이터를불러오고, EDA와 데이터 시각화는 R을 이용하고, 피처 엔지니어링과 머신러닝은 파이썬을 이용하고, 동적보고서로 대화형웹 인터페이스는 R을 이용하는 것으로 R과 파이썬이라는 두언어를 상호운용할 수 있는 방법을 제시하고 있다

20221126_152931.jpg

 

 

파이썬과 R을 상호운영하는데에 관심이 있는 데이터 과학 분야 실무자에게유익할 것같고, 초보자에게는 온전히 내 것으로 하기에는 좀 무리가 있지 않을까 하는 생각이 든다. 마찬가지로 번역도 약간 의역보다 직역에 가까운 것같다고 개인적으로 생각했는데,저자의 느낌과 의도 표현의 장점은 있으나 초보자에게는 내용 전달에 약점으로 작용하지 않았을까하는 생각이 든다.

 

데이터 과학을 위한 파이썬과 R

Rick J. Scavetta

2012년부터 독립 워크숍 트레이너, 프리랜서 데이터 과학자, 공동 창업자로 일하고 있다. 슈카페타 아카데미를 운영하며 독일 전역에 있는 주요 연구 기관과 협력하고 있다. 2016년부터 맡은 데이터 캠프 강의는 20만 명이 넘는 사람이 수강했으며 오라일리(O’Reilly)와 매닝(Manning)의 고급 데이터 과학 강의에도 기여했다. 현재는 사우디아라비아에 있는 미스크(Misk) 아카데미의 기술 교육과정 고문으로 데이터 과학 프로그램 개발을 이끌고 있다.

본 도서는

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

이 책은 파이썬과 R 커뮤니티 사이의 간극을 메우기에 적합한 도서이다.

#구성

데이터 과학 분야 실무자에게 적합하다. 데이터 과학이 무엇인지에 대해 설명하기보다 파이썬과 R의 장점을 활용하여 자유자재로 사용하는 방법을 알려주는것을 목표로 하고 있다. Exploratoy Data Analysis, Statistics, Visualization, Markdown에 강력한 R과 Machine Learning, Development에 강력한 파이썬을 둘 다 사용할 수 있다면 무기를 하나 더 가진 것이나 다름없다.

데이터 과학에서 주로 사용하고 있는 언어인 파이썬과 R 둘 중 하나는 익숙하게 다룰 줄 아는 데이터 과학자가 읽는 것을 추천한다. 책의 난이도는 전반적으로 어렵지 않으나, 다양한 기능을 제공하는 몇 개의Packages, Library를 소개한다. 그러니 언어를 사용하고 있는 데이터 과학자가 읽어야 할 것이다.

출처 : https://www.forbes.com/sites/bernardmarr/2021/10/04/the-5-biggest-data-science-trends-in-2022/?sh=ea7b3c40d3f8

#워크플로

데이터 과학자는 근접 분야에서 일하는 동료와 프로젝트에 대해 논의할 때 스스로를 의심하게 되는 경우가 있을 것이다. 서로의 작업 Domain이 다를 뿐인데 스스로가 부족하다고 느끼게 되는 그런 경우가 있다.

예를 들어, A는 ML 모형 개발이고 B는 시각화,보고서 작성을 주로 할 때, 함께 작업하게 되는 경우 서로의 작업에 대해 이야기 나눈다고 생각해보자. A는 B의 그래픽 문법을 잘 모를 것이고 B는 A의 API 구축 방법을 모를 것이다. 이렇게 되면 스스로의 능력에 의심을 하게 되고 서로가 불편해진다. 우리는 이런 WorkFlow를 유연하게 다룰 줄 알아야 한다. 그러한 간극을 줄이는 방법 중 하나는 이전에 말했듯 Python과 R을 장점만 부각시키며 사용할 필요가 있다.


200페이지 책이라 다소 가볍게 읽을 수 있었던 책이다. 그리고 120페이지까지 대부분 알고 있는 내용이라 복습하는 느낌으로 읽을 수 있었다. 이후 챕터 5에서 워크플로 컨텍스트를 읽으면서 중요한 내용들을 파악할 수 있었다. 여기서 말하는 워크플로는 특정 기능에 필요한 모든 작업을 수행할 수 있는 도구 및 프레임워크 컬렉션이다. 좋은 워크플로는 무엇인지 알 수 있었다..

  • 커뮤니티에서 널리 받아들여진 것이어야 한다.

  • 잘 관리된 오픈 소스 생태계와 커뮤니티 자원을 받아야 한다. 비공개 소스와 상용 애플리케이션에 주로 의존하는 워크플로는 고려하지 않는다.

  • 중복되는 작업 기능에 적합해야 한다. 모듈화된 설계와 확장성은 다양한 기술 스택을 지원할 수 있다.

EDA에 좋은 GUI

  • AWS QuickSight

  • Google Data Studio

  • Orange(orange.biolab.si) <- Open Source

해당 도서는 Python과 R이란 언어를 처음 접하거나, 두 언어를 모두 사용할 줄 알거나, 둘 중 하나를 사용하면서 새롭게 다른 언어를 배우려는 분들에게 모두 도움이 되는 책입니다. 각 언어의 특징을 비교 형식으로 자세히 설명하고, 상황에 따라 어떤 언어를 사용하는 것이 적합한지 설명합니다.
 
또한, 데이터 분석 파이프라인을 소개하며, 주어진 데이터에 따라 어떤 처리가 필요한지, 해당 태스크(task)에서는 어떤 언어가 효율적인 프로그래밍이 가능한지 설명하고 있습니다.
 
개인적으로 두 언어 선택의 기로에 있는 분들에게 큰 도움이 되는 책이라고 생각하며, 주변의 고민하고 계신분들에게 추천드리고 싶은 책이었습니다. 내용, 가격 모두 마음에 드는 도서 입니다. 

1.png

 

 

결제하기
• 문화비 소득공제 가능
• 배송료 : 2,000원배송료란?

배송료 안내

  • 20,000원 이상 구매시 도서 배송 무료
  • 브론즈, 실버, 골드회원이 주문하신 경우 무료배송

무료배송 상품을 포함하여 주문하신 경우에는 구매금액에 관계없이 무료로 배송해 드립니다.

닫기

리뷰쓰기

닫기
* 도서명 :
데이터 과학을 위한 파이썬과 R
* 제목 :
* 별점평가
* 내용 :

* 리뷰 작성시 유의사항

글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

오탈자 등록

닫기
* 도서명 :
데이터 과학을 위한 파이썬과 R
* 구분 :
* 상품 버전
종이책 PDF ePub
* 페이지 :
* 위치정보 :
* 내용 :

도서 인증

닫기
도서명*
데이터 과학을 위한 파이썬과 R
구입처*
구입일*
부가기호*
부가기호 안내

* 온라인 또는 오프라인 서점에서 구입한 도서를 인증하면 마일리지 500점을 드립니다.

* 도서인증은 일 3권, 월 10권, 년 50권으로 제한되며 절판도서, eBook 등 일부 도서는 인증이 제한됩니다.

* 구입하지 않고, 허위로 도서 인증을 한 것으로 판단되면 웹사이트 이용이 제한될 수 있습니다.

닫기

해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
장바구니로 이동하시겠습니까?

자료실