Web Scraping with Python - 파이썬으로 웹 크롤러 만들기 2판 (2019년 3월 출간)

파이썬을 처음 시작하는 사람들 중 정말 많은 수가 크롤링(Crawling)을 위한 것으로 안다. 학부생 때 주변을 봐도 데이터 분석, 머신러닝, 웹 크롤링 중 하나가 파이썬을 배우는 이유였던 경우를 꽤 자주 봤었다. 4~5년 전이었던가, 내가 만들어서 혼자 쓰려던 툴이 있어서 참고 서적으로 1판을 대충 훑어봤던 기억이 있다. 그 뒤로는 딱히 크롤링 도서를 참고하지는 않고 인터넷을 보며 엉망으로 짜왔는데, 2019년에 이미 2판이 나와있었다.

사실 파이썬으로 웹 크롤링하는 정보는 인터넷에 워낙 많이 널려있기 때문에 책의 내용을 정리하는 것이 딱히 의미는 없어보이지만, 개인적으로 책 한권을 가지고 훑어본 다음 인터넷을 찾는 것을 추천한다. 오래되었고 꽤 고착화된 라이브러리를 사용할 때는 검색하는 시간을 줄여서 힘을 많이 시간을 아끼자.

책 내용

"파이썬 크롤링" 이라고 검색하면 제일 처음 나오는 것은 역시 BeautifulSoup 다. 이 책 역시 BeautifulSoup로 1장을 시작한다. 특정 웹페이지를 크롤링하고 HTML을 처리하거나 데이터베이스 MySQL 에 저장하는 등 아주 기본적인 Scraper 를 구현하는 내용을 1장에서 배울 수 있다. 이정도만 해도 사실 혼자 단순하게 정보를 모으기 위한 크롤러 정도는 만들 수 있어서 간단한 토이프로젝트 정도에 활용할 수는 있다.

파트 2 에서는 고급 스크레이핑이라고해서 다양한 문서 형식들 (CSV, PDF, DOCX 등) 을 읽거나 자연어 처리 등을 배울 수 있다. 사실 정말 많이 쓰이는 부분은 챕터 10부터인데, 단순이 데이터를 긁어오는 것에서 벗어나 특정 웹 사이트를 휘젓고 다닐 수 있는 기술들을 배울 수 있다. 어떤 페이지에 로그인을 한다던가 (로그인을 해야만 보이는 데이터들을 긁어 올 수 있게), 쿠키를 처리하는 등 실제 웹사이트를 접근하는 흉내를 내는 법을 배운다. 자연스럽게 Selenium 을 익히게 될 거다. 이렇게 자동화되서 인터넷을 마구 긁고 다니면 당연히 서버 쪽에서는 싫어한다. 그치만 항상 피하는 법은 있는 법. 14장에서는 마치 웹사이트를 크롤링하고 있는 프로그램이 사람처럼 보이게 하기 위해 "스크레이핑 함정 피하기" 를 배우는데, 만능은 아니지만 이까지 배우면 왠만한 원하는 사이트의 크롤링은 할 수 있을 것이라 생각된다.

파이썬 막 배우고 이제 뭐해야 돼? 싶은 사람은 그냥 이 책 보세요.

책이 300페이지가 넘는 분량이지만 파이썬을 이미 아는 사람이라면 생각보다 빨리 읽을 수 있을 것이라 생각된다. 그리고 혹시나 책의 내용이 이해가 안된다라고 생각하면 조금만 검색하면 보다 많은 내용을 쉽게 얻을 수 있다. 다만 친절하게 정리가 잘 안되어 있을 뿐... 기본서로써 하나쯤 구비해놓고 살펴보기에 정말 좋은 책이다. 차라리 파이썬을 막 배운 초심자들이 다음 이런 책을 보고 프로젝트를 한번 해보면, 정말 재밌게 프로그램을 만드는 법을 배울 수 있을 것 같다. 콘솔로 찍는 이상한 건 그만하고...

yorun***l2021-08-23

도서 \'파이썬으로 웹 크롤러 만들기\' 리뷰

크롤링 이란 무엇일까? 이 책을 보기 전, 크롤링이랑 인터넷에서 간단하게 이미지나 원하는 글 정도를 자동으로 긁어 주는 정도라고 생각했다. 하지만 이 책을 보고 크롤링으로 생각했던 것보다 더 많은 것들을 할 수 있다는 것을 알았다. 책의 표지를 보면 초간단 나만의 웹 크롤러로 원하는 데이터를 가져오는 방법이라고 작게 적혀있다. 작게 적어 놓은 것을 보면 책을 번역하신 분도 자신이 없으셨던 걸까ㅎㅎ...

책에는 파이썬 소스 코드와 링크 등이 있어서 굳이 한 땀 한 땀 키보드로 코드를 입력하지 않고도 사용할 수 있다. 책 내용은 파이썬과 파이썬 모듈 패키지 등을 사용하여 크롤링을 하는 내용으로, 처음에는 단순한 텍스트부터 책 뒷부분으로 갈수록 CAPTCHA를 자동으로 입력하는 것을 넘어 이미지로 되어 있는 내용에서 텍스트를 읽어 오고 이미지가 저 해상도일 경우 별도의 처리를 한 다음 최대한 정확한 내용을 읽어오는 방법까지도 나와있다. 기대 이상으로 활용도가 많다. 무엇보다 특정 상품의 인터넷 최저가를 찾기 위해 인터넷의 바다를 헤매는 요즘의 나에게 정말 큰 도움이 됐다. 거기다 Mysql에 대한 설명도 있고 설치부터 파이썬과의 연동 방법까지 자세하게 적혀 있다.

책 내용의 난이도는 파이썬을 잘 사용할지 몰라서 그런지 중상 정도로 어려운 편이다. 당연하지만 크롤링이 단순하게 뭔가 한다기 보다 인터넷상에서 웹에 있는 여러 가지 데이터를 가져오는 작업이라 각각 분야에 대한 지식도 필요한 부분이다. 그래서 쉽지는 않지만 기본적으로 제공되는 샘플 코드를 조금씩 수정하다 보면 내가 원하는 결과를 얻는 것은 크게 어렵지 않았다. 크롤링을 배우고 싶어서 인터넷 여기저기를 검색하는 것도 좋은 방법 이긴 하지만, 시간을 단축하고 확실히 익히고 싶다면 이 책으로 공부해 보는 것이 좋을 것 같다.

rsh1***l2021-08-22

파이썬으로 웹 크롤링하기

본 도서는 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

이 책은 웹에 있는 다양한 데이터를 가져오는 여러가지 방법에 대해 다루고 있습니다. 크게 두 장으로 나뉘어져 있는데, 크롤링에 대한 기초개념이나 구성방식, HTML내에서 필요한 정보를 가져오는 방법등을 소개하며 단순한 크롤링을 다루는 첫번째 파트와, 로그인이 필요한 사이트, API, 이미지, 병렬처리 등 비교적 복잡한 크롤링에 대한 내용들이 들어있는 것이 두번째 파트입니다.

책 표지에 초간단이라고 쓰여있지만, 한번 정도는 크롤링을 직접 해봤거나 코드를 보면서 따라해본적이 있는 경험을 가지고 책을 보면 좋을 것 같습니다. 위에서 언급했듯 첫번째 파트에서 기초적인 부분에 대해 소개하고는 있습니다. 하지만 그 내용들만을 가지고 두번째 챕터에 소개되는 내용들을 부드럽게 이해하거나, 원하는 사이트에 직접 적용하여 데이터를 가져오는 것은 쉽지 않을 것 같습니다. 크롤링에 대해 약간은 이해하고 있어야 책을 이해해나가는데 더 수월할 것 같다고 느꼈습니다.

사실 개인적으로 크롤링은 책을 보면서 공부하는 것 보다는, 원하는 사이트에서 데이터를 직접 크롤링하면서 가장 많이 배울 수 있다고 생각합니다. 저도 크롤링을 익힐 때 책이 아니라 여러 사이트를 크롤링해보고, 막히는 부분을 헤쳐나가는 과정에서 가장 많이 배웠습니다. 하지만 본 책도 많은 크롤링 경험을 가지고 작성되었기 때문에, 크롤링하다가 막히는 부분을 해결하는 힌트를 찾거나, 폭넓은 크롤링 방식을 접할 수 있다는 점에서 긍정적이라고 생각합니다.

snunc***l2021-08-22

도서 리뷰 : 파이썬으로 웹 크롤러 만들기(2판)

현대 대부분의 사람들은 웹을 통해 데이터를 수집하고 분석하며 그 결과를 통해 의사결정의 지표로 삼고 있다. 웹은 데이터의 보고이자 거대한 데이터 저상소이기 때문이다. 하지만 웹을 통해 적재적소에서 적시에 원하는 데이터를 수집하는 것 자체가 시간과 비용이 수반 되는 노동집약적 활동이기 때문에 웹은 축복이자 저주의 공간이 될 수도 있는 양면성을 내포하고 있다. 원하는 곳에서 원하는 시간에 훌륭한 데이터를 수집하면 축복이겠지만 반대의 경우에는 웹이라는 공간이 포용하고 있는 수 많은 데이터 덩어리들은 저주이자 재앙이 될 수 있음을 간과할 수 없는 노릇이다. 어떻게 하면 웹에서 시간과 비용을 적게 들의 최소의 노력을 통해 효율적으로 데이터를 수집할 수 있을까? 이런 고민에서 비롯된 산물이 바로 '웹 크롤링' 또는 '웹 스크래핑' 기술이다. 지금 부터 소개할 책은 파이썬을 활용한 웹 크롤링 기술에 대한 다양한 트레이닝 툴킷으로 사용할 수 있는 도서이다.

이 책은 크게 두 개의 파트로 구성 되어 있는 바, 첫번째 파트는 스크래핑 도구를 제작하는 과정에 대한 내용을 그리고 두번째 파트는 좀더 심화된 고급 스크래핑 기술을 다루고 있다.

첫째 챕터에서 파이썬 생태계의 대표적인 스크래핑 지원 도구인 BeautifulSoup 패키지에 대해 학습하게 된다. BeautifulSoup을 통해 크롤링의 기본 원리를 익히게 되고 도구 활용에 대한 다양한 사례를 통해 스크래핑에 대한 기술을 확장해 나가게 된다. Scrapy를 통한 크롤링 활용 방법과 크롤링을 통해 수집 된 데이터를 DB에 저장하는 내용을 학습하며 첫번째 파트는 마무리 되고 두번째 파트에서는 본격적으로 고급 활용 기술을 익히게 된다.

이후 다양한 포맷의 문서 읽기, Dirty Data 정리하기 등의 내용을 심화적으로 다루며 자연어 처리에 대한 주제를 바탕으로 NLTK를 활용하는 방법에 대해서도 학습하게 된다. 폼과 로그인 뚥기, 자바스크립트를 통한 스크레이핑, API를 통한 크롤링, 이미지 처리와 텍스트 인식에 대한 내용으로 주제가 확장 되면서 크롤링에 대한 합법성과 윤리를 끝으로 책은 마무리 된다.

이 책은 기본적으로 파이썬 기본 문법을 뗀 사람들이 적어도 웹에 대한 기초 지식이 있는 상태에서 학습해야 어느 정도 소기의 성과를 다룰 수 있으리라 생각한다. 그만큼 크롤링 기술에 대한 학습이 결코 만만치 않으며 기초적인 수준에서 벗어나 고급 기술로 확장하기 위해선 다양한 지식이 요구 되기 때문이다. 본 도서는 파이썬 그리고 웹 초보자에겐 크롤링 입문자용으로 적합하지 않겠으나 어느 정도 기반을 갖춘 이들에겐 적어도 크롤링의 첫발을 떼기 딱 좋은 서적이라 생각한다.

P.S
한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

책의 구성

Part 1. 스크레이퍼 제작

웹 스크레이핑의 기본에 대해 다룬다. 파이썬으로 웹 서버에 정보를 요청하는 법, 서버 응답을 처리하는 법, 웹사이트와 자동적으로 통신하는 법이 주요 내용이다.

Chapter 1. 첫 번째 웹 스크레이퍼

웹 브라우저의 도움 없이 데이터 구조를 파악하고 해석하는 방법을 배울 수 있다.
웹 브라우저가 프로세서에 명령을 내려 데이터를 애플리케이션에 보내고 처리하는 것을 파이썬에서는 단 세줄의 코드로 똑같이 동작하게 할 수 있다.
- 파이썬 표준 라이브러리인 urllib를 사용하면 웹을 통해 데이터를 요청하거나 쿠키를 처리하거나 심지어 헤더나 유저 에이전트 같은 메타데이터를 바꿀 수도 있다.
- urlopen은 네트워크를 통해 원격의 객체를 읽는다.
- BeautifulSoup 라이브러리는 잘못된 HTML을 수정하여 쉽게 탐색할 수 있는 XML 형식의 파이썬 객체로 변환한다.
스크레이퍼를 만들 땐 코드의 전반적인 패턴에 대해 생각해야 예외도 처리하고 읽기도 쉽게 만들 수 있다.

Chapter 2. 고급 HTML 분석

복잡한 웹 페이지에서 원하지 않는 콘텐츠를 깎아내서 필요한 정보를 얻는 방법을 학습할 수 있다.
BeautifulSoup로 속성을 통해 태그를 검색하는 법, 태그 목록을 다루는 법, 트리 내비게이션을 분석하는 법을 배운다.
BeautifulSoup와 함께 쓸 수 있는 정규 표현식을 학습할 수 있다. 복잡해보이기만 했던 정규 표현식을 하나씩 쪼개 보면서 조금 더 명확하게 이해할 수 있다.

Chapter 3. 크롤링 시작하기

웹 크롤러의 핵심은 재귀이다. 즉, URL에서 페이지를 가져오고, 그 페이지를 검사해 다른 URL을 찾고, 다시 그 페이지를 가져오는 작업을 하는 것이다.
단일 도메인 내에서의 이동부터 인터넷 크롤링까지 할 수 있는 기법들을 소개한다.

Chapter 4. 웹 크롤링 모델

확장성이 뛰어난 크롤러를 만들기 위한 패턴을 익힐 수 있다.
여러 도메인, 또는 여러 소스에서 유사한 데이터를 수집할 때는 항상 일반화를 시도해야 한다는 점을 유념하자.
또한 스크레이퍼를 만들 때는 추후 더 많은 데이터 소스가 추가될 것이라고 가정하고, 새 소스를 추가하는 데 필요한 프로그래밍 노력을 최소화하는 방향으로 설계해야 한다.

Chapter 5. 스크레이피

초판 출판 당시에는 파이썬3를 지원하지 않아 책에 싣지 못한 프레임워크인 스크레이피가 2판에 추가되었다.
스크레이피를 설치하고 간단한 스크레이퍼를 작성하여 동작 원리를 익힐 수 있다.

Chapter 6. 데이터 저장

웹 스크레이퍼를 유용하게 활용하기 위한 데이터 저장 및 관리 방법에 대해 알아본다.
모든 애플리케이션에서의 데이터 관리 방법은 총 세가지면 충분하다. 데이터베이스, 파일 스트림, 알림 이메일 보내기.

Part 2. 고급 스크레이핑

원형 그대로의 데이터를 분석해서 그 뒤에 숨은 이야기, 웹사이트에서 종종 자바스크립트 계층이나 로그인 폼, 기타 스크랩을 방해하는 것들 뒤에 숨겨진 내용들을 엿볼 수 있다.

Chapter 7. 문서 읽기

문서를 다루는 법과 텍스트 인코딩에 대해 학습할 수 있다.
특히 자주 마주치는 파일 타입인 텍스트, CSV, PDF, 워드 문서에 대해 다룬다.

Chapter 8. 지저분한 데이터 정리하기

지금까지 익힌 도구와 테크닉 코드 작성 방법을 바꿔서 비정형 데이터 소스에서 문제가 발생하지 않게 막거나, 일단 데이터베이스에 들어온 데이터를 정리하는 방법을 배울 수 있다.

Chapter 9. 자연어 읽고 쓰기

텍스트 분석의 배경에 있는 개념을 이해하면 머신러닝 전반에 걸쳐 큰 도움이 되며, 현실 세계의 문제를 개연성과 알고리즘의 관점에서 모델링하는 더 범용적인 능력을 갖게 된다.
텍스트 본문에 있는 단어를 통계적으로 분석해보기도 하고, NLTK라는 라이브러리 모음을 사용하여 간단한 실습도 진행할 수 있다.

Chapter 10. 폼과 로그인 뚫기

POST 메서드에 집중하여 로그인을 해야 얻을 수 있는 정보에 접근하는 방법을 배울 수 있다.

Chapter 11. 자바스크립트 스크레이핑

현재 웹에서 가장 널리 쓰이고 지원이 잘되는 클라이언트 스크립트 언어인 자바스크립트에 대해 얕게나마 이해할 수 있다.
대개 웹사이트의 통계나 추적, 사이트의 작은 부분을 제어, 드롭다운 메뉴를 만드는 용도로 쓰이므로 스크레이프 방법에 영향을 끼치는 경우는 많지 않다. 영향을 끼친다하더라도 셀레니움을 이용하면 이를 거의 무력화할 수 있다.

Chapter 12. API를 통한 크롤링

셀레니움을 쓰지 않고 자바스크립트를 완전히 돌파해서 데이터 소스에 직접 접근하는 방법을 배울 수 있다.
널리 쓰이는 최신 API로 웹의 데이터에 접근하는 방법, 그런 API를 통해 더 빠르고 강력한 웹 스크레이퍼를 만드는 방법을 배운다.

Chapter 13. 이미지 처리와 텍스트 인식

OCR(광학 문자 인식)기능이 있는 라이브러리를 이해하고 설치하고, 예제를 통해 간단한 실습까지 진행할 수 있다.

Chapter 14. 스크레이핑 함정 피하기

폼을 전송하고, 지저분한 데이터를 추출해서 정리하고, 자바스크립트를 실행하는 등 웹사이트에서 봇으로 하기 어려운 일들을 해결하는 방법을 알아본다.
내가 만든 봇이 스크레이퍼처럼 보이지 않고(?) 사람처럼 인식되도록 하는데 필요한 정보가 담겨있다.

Chapter 15. 스크레이퍼로 웹사이트 테스트하기

파이썬 기반 웹 스크레이퍼로 웹사이트를 테스트하는 기본적인 방법을 익힌다.

Chapter 16. 병렬 웹 크롤링

컴퓨터 과학의 다른 분야와는 달리, 웹 크롤링은 단순히 사이클을 더 할당한다고 개선되지는 않는다. 하지만 병렬 웹 크롤링이나 병렬 스레드/프로세스 실행이 더 나은 경우도 있는데 이러한 상황에서 사용할 수 있는 기법들을 알아본다.

Chapter 17. 원격 스크레이핑

로컬 컴퓨터라는 제한된 환경을 벗어나 원격으로 스크레이핑을 작동시킬 수 있는 방법을 배울 수 있다.

Chapter 18. 웹 스크레이핑의 합법성과 윤리성

웹 스크레이핑과 관련된 미국 법률에 대해 알아보고, 웹 스크레이핑 상황의 합법성과 윤리에 대해 이해할 수 있다.

느낀점

웹 크롤러를 만들기 위한 정보들은 인터넷에 넘쳐나지만, 나 같은 초보자에게 가장 적절한 것은 순도 높은 정보가 정갈히 정리된 책이라고 생각한다. 그런 점에서 우선 높은 점수를 주고 싶고, 실제로 단순하게만 생각했던 크롤링에 대한 나의 시야가 조금 더 확장된 느낌을 받았다.

아직 실습의 모든 내용을 따라 해보진 못했지만, 업무적으로도 개인적으로도 크롤러를 제작하고 싶단 충동을 느낄 때가 많으니(!!) 필요할 때 꺼내 보며 참고하면 많은 도움이 될 것 같다.

추천 독자

파이썬 문법을 이해하고 있는 초중급자. (문법만 갓 뗀 초보자에게는 솔직히 어렵다.)
파이썬을 이용한 웹 크롤러 제작에 관심이 있고, 시행착오를 줄이고 싶은 사람.

liebew***l2021-08-20

도서 리뷰: 파이썬으로 웹 크롤러 만들기(2판)/한빛미디어

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

많은 것들이 가능하다는 파이썬이지만 아쉽게도 난 아직 문법을 익히는 중이라, 배열에서 몇 번째에 들어있는 값 찾기 같은 것들만 가능한 수준이다. 예전에 T아카데미에서 크롤러 만드는 수업이 있어 한 번 들어본 적은 있는데, 코드 타이핑만 따라 치니 어찌어찌해 결과물이 나오긴 했는데 거기까지였다. 그 때는 파이썬이 뭔지도 모르고 화면에 뜨는대로 따라 설치하고 따라 코드를 쳤으니 당연한 결과였겠다.

현재는 파이썬을 활용해 어떤 업무를 추가로 할 수 있을지를 살펴보는 중이라 그 때와는 다르게 접근했다.

책에 있는 코드를 따라 치는 대신 어떤 순서로 코드를 확장해가는지를 살펴봤다. 당장 크롤러를 만드는 것 보다 내가 하고있는 업무에 어떤 부분을 연관지으면 좋을지를 찾아보기 위함이었다.

콘텐츠를 실제로 눈으로 볼 수 없고, 나중에 로그나 텍스트로 확인해야 한다는 것은 지금 내가 하는 업무와 많이 닮아있었다. 동일한 템플릿이 존재해야만 데이터가 깔끔하게 수집이 가능하고, 중간에 변주가 일어나는 부분은 수집이 원활하지 못한 부분까지 닮아있었다.

4장에서 웹 크롤링 모델을 만드는 과정 중 체크리스트 작성과 관련한 것들이 있는데, 이 체크리스트는 내 업무와도 많이 닮아있어 여기에도 옮겨 적어본다.

이 정보가 프로젝트 목표에 도움이 되는가? 이 정보가 없다면 프로젝트 진행이 어려운가? 아니면 단지 있으면 좋은 정도이고 없어도 별 영향은 없는가?
나중에 도움이 될 것 같지만 확신할 수 없다면, 나중에 다시 이 정보를 수집하는 건 얼마나 어려울까?
이미 수집한 데이터와 중복은 아닌가?
이 데이터를 이 객체에 저장하는 것은 논리적으로 앞뒤가 맞는가?
계속 나타나는 데이터인가? 아니면 간혹 나타나는 데이터인가? 모든 사이트에 관련성이 있고 계속 등장할 것인가?
데이터가 얼마나 큰가?
데이터가 크다면 분석할 때마다 주기적으로 가져와야 할까? 아니면 가끔씩만 가져와도 될까?
이 데이터는 얼마나 가변적인가? 옷감 패턴처럼 주기적으로 새 속성을 추가하거나, 유형을 수정해야 할까? 아니면 신발 크기처럼 고정적일까?

몇 년 전 어떤 프로젝트를 진행할 때 몇만개의 페이지를 일일이 들어가 구성 요소를 확인하고 분리해야 하는 작업을 한 적 있는데, 그때 파이썬을 알았더라도 결과물이 좀 더 나을 수 있었을까? 라는 질문을 계속 하게 됐다.

유사한 템플릿을 가진 페이지들과 그렇지 않은 페이지들을 파이썬 코드로 1차 분류를 하고, 유사하지 않은 템플릿을 가진 페이지들만 추가로 확인하는 등의 작업을 할 수 있었다면 좀 더 효율화를 할 수 있었을 것 같다. 그때 조금만 더 용기(?)를 내서 프로젝트에 파이썬을 적용해볼걸 그럤다. 지금이라도 늦지 않았다,

우선 이 책을 끝까지 읽고(부끄럽지만 아직 절반정도밖에 읽지 못했다) 현재 운영중인 서비스의 특성을 고려해 크롤러를 만들어볼 생각이다.

icon***l2021-08-17

실무에서 사용하기 좋은 웹크롤러 방법을 설명한 책

cona***l2020-10-26

파이썬으로 웹 크롤러하려면 꼭 볼 책

파이썬은 최근 프로그래밍 입문 언어로 각광받고 있다. 그래서 쉬운 언어, 초보자용 언어라는 이미지가 있을 수도 있다. 하지만 파이썬도 하나의 언어! 수많은 일들을 할 수 있다는 것이다.

특히 AI 분야에서 데이터 처리를 위해서 주로 사용된다. 그 어렵다는 AI에 말이다!

그리고 웹 크롤링도 당연히 가능하다. 이 책은 바로 제목 그대로 파이썬으로 웹 크롤러를 만드는 내용을 다루고 있다. 사실 웹 크롤링 자체는 다른 많은 언어들로도 모두 가능하다. 그런데 이 책은 파이썬은 강력한 장점을 사용해서 한층 더 훌륭한 크롤러를 만들었다고 생각한다.

그 장점이란 바로 파이썬의 데이터 가공 능력이다.

그렇다고 또 너무 어려운게 아닐까 걱정할 필요는 없다. 처음에는 이렇게 아주 간단한 내용부터 다룬다. 단순히 url에 접속해서 받는 내용을 그대로 보여주는 것부터 시작한다.

데이터를 파일로 저장하는 방법도 다룬다. 사실 이것도 특별할 것이 없다면 없는 내용이긴 하다. 하지만 쉽게 CSV 파일을 다룰 수 있어서 편리하다.

그리고 대망의 데이터를 가공하는 부분! 중의 일부이다.

마지막에는 테스트하는 부분까지 다루고 있다. 단순히 웹 크롤링만 하는 것이 아니라 데이터를 수집하고 저장하고 또 불필요한 것을 제거해서 가공한 데이터를 뽑아내는 전반적인 내용을 다루고 있다. 심지어 유닛 테스트까지.

파이썬으로 크로링을 하는 법을 배우고 싶다면 이 책하나만 봐도 끝장을 볼 수 있을 것이다.

wizm***l2020-10-25

RPA까지 안내하는 '파이썬으로 웹 크롤러 만들기'

최근에 웹 페이지를 자동으로 읽고 실행할 일이 생겼는데, 마침 <파이썬으로 웹 크롤러 만들기(2판)>을 읽게 되어 다행이었습니다. 이 책은 1판을 산 적이 있던 터라 좀 신기했습니다. 1판은 파이썬 기본을 익힌 수준이면 쉽게 시작할 수 있었는데 그새 무슨 내용을 보강했나 궁금해졌습니다.

한국은 '웹 크롤링(crawling)'이라는 어휘가 대세라, 저자가 쓰는 '웹 스크레이핑(scraping)'이라는 용어가 볼 때마다 어색합니다. 번역가로서 고민스러웠겠습니다.

2판 역시, 파이썬 문법 기초만 알면 웹 크롤링을 따라 개발하도록 친절하게 안내합니다. 기술 배경부터 코딩 예시까지 책을 주욱 쫓아가면 됩니다. 코딩 예시는 CSV 파일이나 DB에 저장하는 기능 구현까지 다루므로 1부 내용만 소화해도 어지간한 웹 사이트 크롤링은 충분히 구현하겠습니다. 파이프라인 같은 용어가 어색하더라도 개의치 말고 책 끝까지 읽어나가길 바랍니다.

2부 고급 스크레이핑은 CSV 뿐만 아니라 MS 오피스, PDF 문서를 읽어서 cleansing 같은 전처리를 하고 단순한 문자열 처리만이 아니라 자연어 처리를 통해 비정형 데이터에서 유용한 정형(≒ 수치) 데이터를 추출하는 기능 구현까지 소개합니다. 여기에 쿠키 처리를 포함한 로그온 처리, 자바스크립트 기반 동적 웹 페이지 크롤링에 캡차 통과까지 익히면 RPA(로보틱 프로세스 자동화) 수준 개발도 가능합니다. 저는 이 목적으로 이 책을 펴들었습니다.

이 외에 병렬처리로 크롤링 속도 향상, 사람처럼 웹 브라우징하고 원격 서버를 쓰기처럼 차단 당하지 않는 노하우, 웹 크롤링 관련 법적 이슈를 다룹니다. 이 정도면 <파이썬으로 웹 크롤러 만들기(2판)>을 웹 크롤링 백서라고 해도 좋을 정도입니다.

인터넷에 웹 크롤링을 다룬 글은 정말 많지만, 필요한 기능을 일일이 찾기는 귀찮습니다. 데이터 분석가, 데이터 과학자를 비롯하여 엔지니어가 아니더라도 자동화를 염두에 둔 지식노동자는 이 책 한 권을 두고 있으면 금방 원하는 기능을 구현할 수 있겠습니다. 파이썬 세상이나 이런 저런 머신러닝 기능이 더 발전하면 3판이 또 나오겠지요? 기대가 됩니다.

u66***l2020-10-25

차근차근 보면서 따라하기 좋은 파이썬 웹크롤러 도서.

작가: 라이언 미첼
출판: 한빛미디어
발매: 2019.03.29.

리뷰보기

크롤링은 아마 10년도 더 전에 첫 직장에서 일할 무렵 개인적인 필요에 의해 접하게 되었다. 당시 구내식당 식단 표를 매번 사이트에 들어가서 확인하기가 귀찮아서 웹페이지에 접근하여 소스를 다 받아오고 특정 문자열로 위치를 찾아 저장해서 보여주는 스크립트를 작성했었다. 시간은 많이 지났지만 지금도 비슷한 수준으로 크롤링을 사용하고 있다. 회사에서 협업 툴 중 하나로 슬랙을 사용하는데, 날마다 IT 뉴스 목록을 채널에 뿌려주는 기능과 특정 종목의 주가 정보를 보여주는 봇도 달아두었다. 자동화를 한다는 것, 그리고 대부분의 정보는 웹에서 캐올 수 있다는 것부터 크롤러의 필요성은 충분히 크다고 생각한다. 크롤링이나 스크레이핑의 범위를 정확하게 알고 있지 않아서 과연 책에서 어떤 기술을 보여주는지 궁금했다.

이 책에서는 웹 소스를 퍼 오는 간단한 크롤링 기능부터 설명을 시작하지만, 끝까지 보면 예상했던 것보다 훨씬 다양한 내용에 대해 깊이 있게 다룬다. 인코딩부터 해서 자연어 처리, 이미지 처리, 이메일에 관한 내용까지 나온다. 여러 라이브러리에 대한 설명도 잘 해주어서 스크랩을 하기 위한 기반 기술을 잘 알게 되었다. 예를 들어 스크레이피라는 도구로 정보를 획득하여 알맞은 형식으로 저장하는 방법이 있다는 걸 배웠다. 사실 본인이 사용했던 크롤러는 데이터를 따로 저장을 하진 않는다. 실시간으로 그때그때 지정한 채널에 정보를 출력해 주기만 하면 되는 것이었다. 하지만 말 그대로 스크레이핑이라고 하면 정보를 추출하고 분석하는 단계까지 고려를 해야 한다. 데이터를 저장까지 했으면 필요 없는 정보를 걸러내는 작업도 필요한데 그런 방법도 설명해준다. 특히 마음에 들었던 부분은 스크레이핑의 윤리라는 주제에 대해서 설명한 부분이다. 필요한 작업을 이해 어떤 행위를 자동화했을 뿐이고, 사람도 마음만 먹으면 많은 부하를 유발할 수 있는데 봇을 쓴다고 해서 문제 되겠어?라고 쉽게 생각하는 경우도 있을 것이다. 하지만 이 책에서는 대상 서버에서 사람처럼 보일 수 있게 하는 방법을 설명해주는 한편, 피해를 입힐 수 있다는 사실에 대해 주의를 주고, 또 자신의 서버가 그러한 공격을 방어할 수 있는 기술도 알려주는 등 다양한 각도에서 접근하고 있다. 제대로 된 크롤러, 스크레이핑을 공부하고 싶다면 적극 추천하고 싶다.

내용의 이해에 있어서 파이썬 초보자는 좀 어렵겠다 싶은 생각이 들었다. 언어에 대한 설명은 따로 하지 않는다. 또 크롤링을 처음 접하는 사람에게는 브라우저에서 보이는 페이지 화면과 실제 내가 원하는 추출하고 싶은 정보 등을 그림으로 설명해줬으면 하는 아쉬움이 있다. 대부분 텍스트와 코드로 설명을 하고 있어서 기술에 대한 부분은 이해하기 좋았지만 활용이나 응용을 하기 위한 기획을 위한 그림을 그리기에 조금 어렵지 않나 하는 생각이 들었다.

comeco***l2020-09-27

[도서 리뷰] 파이썬으로 웹 크롤러 만들기를 읽고

minamil***l2020-09-26

파이썬으로 웹 크롤러 만들기

완독 한 상태가 아니기 때문에 후기라 명하기에는 부족한 감이 있습니다만..

이전에 읽어보았던 크롤링 관련 책들은 아무래도 접근하기 쉽도록 만들기 위해 쓰인 느낌이 많이 있었습니다. 이번에 접하게 된 한빛미디어의 파이썬으로 웹 크롤러 만들기는 분위기가 좀 다른 느낌이었습니다. 번역본이라 그럴지도 모르겠지만 일단 O'REILLY의 원서이기 때문에 책에서 재미를 느끼기엔 약간 어려움이 있었던 것 같습니다.

다른 책들이 현행의 서비스를 크롤링하는 방식으로 접근하기 쉽게 가이드를 해준다는 이점이 있었지만, 서비스가 업데이트될 경우 크롤링이 되지 않는 경우도 있습니다만 파이썬으로 웹 크롤러 만들기는 연식이 좀 되긴 했지만 책에서 따라하는데 문제가 없도록 기존 사이트를 유지하고 있는 것을 알 수 있었습니다.

어떤 과정은 가상머신을 설치해야 하는 등 번거로움도 있었고 따라 하지 못한 부분도 있었고 전체적으로 재미보다는 기본적으로 필요한 부분들에 대해 천천히 공부하는 방식으로 진행되고 있어 따분한 경향이 없잖아 있습니다. 하지만 다른 책들에서는 잘 다루지 않는 부분들(?), 예를 들면 폼과 로그인 뚫기 라던가 API를 통한 크롤링, 사이트 테스트 등 고급 사용법들도 다루고 있습니다.

무분별한 스크랩핑이 법적 문제점도 가지고 있는 만큼 책의 후반부에서는 합법성과 윤리에 대해서도 다루고 있습니다. 파이썬으로 웹 크롤러 만들기는 재미보다는 기초부터 차근차근 접근해 보고 싶으신 분이라면 도움이 되지 않을까 생각이 들었습니다. 그리고, 당연한 이야기일지 모르겠지만 입문 수준의 파이썬 문법만으로 용감하게 접근하기에는 조금 무리가 있다 여겨집니다.

출처: https://minamiland.tistory.com/568 [think of]

blueg***l2019-06-10

개발자가 알아야 할 내용으로 가득한

파이썬으로 웹 크롤러 만들기.jpg

웹 크롤링에 더불어 파이썬도 익힐 수 있습니다.

이론보다 실무에 가깝습니다.

그렇기에 각 장들을 체계적으로 분류하기보다 웹처럼 서로 연결하고 있습니다.
각 장마다 실무에 적용하기 위해서라도 주제에 필요한 라이브러리나 프로그램을 알려주고 있습니다. 더군다나 역자가 번역할 시점에서 예제의 바뀐 내용과 특징을, 사용할 데이타와 함께, 주석으로 제공하고 있습니다

웹 크롤링과 함께 개발자가 알아야 할 내용들이 곳곳에 있습니다.

예를 들어, 9장 '자연어 읽고 쓰기'에 있는 내용은 머신러닝에까지 닿아 있습니다. 자연어를 인식하는 기초적인 방식을 알려주고, 이러한 내용이 머신러닝으로 어떻게 이어지는지 알려줍니다.

1부는 웹 크롤링을 소개하면서 프로그래밍에서 같이 알아야 할 내용도 같이 얘기하고 있습니다.

모듈 설치와 사용, 정규 표현식, 재귀, 객체, 파일 처리 및 DB 사용.

웹 크롤링이 아니더라도 알아야 할 내용들입니다.

2부는 웹 크롤링을 하며 만날 수 있는 대표적인 상황을 얘기합니다.

먼저 상황을 이해하도록 유도하고 무엇을 어떻게 하는지 알려줍니다.

직접 실행하며 접근할 수 있도록 하면서도 모든 것을 알려주려고 무리하지 않습니다.

그러면서 조금 더 생각하보길 권하기도 하고, 깊이 있게 알기 위한 자료를 소개하기도 합니다

7장, 8장, 9장은 텍스트를 어떻게 다루어야 할 지 얘기합니다.
'문서 읽기'에서 텍스트 인코딩과 유니코드를 설명하고 파일에서 텍스트를 어떻게 가져오는지 보여줍니다.
'지저분한 데이터 정리하기'에서 'n-그램'이란 언어학 용어를 사용하여 문자열을 정리하는 방식을 보여줍니다.
'자연어 읽고 쓰기'는 'n-그램'을 적용한 데이터 요약과 '마르코프 모델'을 소개합니다.
마르코프 모델로 웹사이트 링크를 모델링합니다. 그리고 마르코프 체인을 주어진 범위에서 적용하며 만나게 되는 '방향성 그래프'와 '너비 우선 탐색'을 간략하게 언급합니다.
'자연어 툴킷'을 소개하며 텍스트 분석에 어떻게 사용하는지 얘기합니다. 머신러닝의 편린을 살짝 들여다 보는 느낌입니다.

10장, 11장, 12장은 웹 클라이언트 환경에 대응하는 내용으로 제목이 모두 말해 주고 있습니다.
'폼과 로그인 뚫기', '자바스크립트 스크레이핑', 'API를 통한 크롤링'

13장 '이미지 처리와 텍스트 인식'은 텍스트 기반 이미지를 파이썬 라이브러리로 인식하고 사용하는 방법을 얘기합니다.

이론 구현이 아닌 라이브러리 활용 방식을 안내하고 있습니다.
'팔로', '테서랙트', '파이테서랙트'를 조합하여 이미지에서 텍스트를 스크레이핑하는 걸 보여줍니다. 여기서도 라이브러리를 훈련시킨다는 개념이 살짝 나옵니다.

14장, 15장은 스크레이핑의 또다른 활용 방법을 알려줍니다.
'스크레이핑 함정 피하기'는 크롤링 봇이 사이트를 브라우저로 사람이 열어보는 것처럼 보이도록 하는 내용입니다.
'스크레이퍼로 웹사이트 테스트하기'는 단위테스트로 스크레이퍼를 응용하는 걸 보여줍니다.

16장, 17장, 18장은 당장 적용해보기 어렵더라도 알고는 있어야 하는 내용입니다.
'병렬 웹 크롤링', '원격 스크레이이', '웹 스크레이핑의 합법성과 윤리'

웹 크롤링의 모습을 한 개발자 계발서입니다.

sm34***l2019-06-09

파이썬으로 웹 크롤러 만들기 - 이미 다 만들어져 있다.

junghun***l2019-06-09

파이썬으로 웹 크롤러 만들기 리뷰

구글 같은 기업은 어떻게 만들어지나요?

첫째, 수십억 달러를 모아 세계에서 가장 훌륭한 데이터센터를 만들고 세계 곳곳에 배치합니다.

둘째, 웹 크롤러를 만듭니다.

이 책은 이 의문에서 시작한다. 데이터센터는 돈이 많이 들어가니까 제껴두고, (구글 정도는 아니지만) 간단한 웹 크롤러는 노력을 하면 만들 수 있다. 그렇다면 웹 크롤러(웹 스크레이퍼)는 어떻게 만들어야 할까? 그 의문을 해결해주는 책이 바로 이 'Web Scraping with Python 파이썬으로 웹 크롤러'이다.

인터넷에 돌아다니는 데이터를 잘 정리해서 쉽게 보여주는 사이트가 바로 구글, 네이버다. 구글이 가장 먼저는 아니지만 가장 그럴싸하게 검색 기능을 제공해서 세계 최고의 기업이 되었다. 구글이 되려는건 쉽지 않겠지만 인터넷 상에 돌아다니는 데이터를 잘 활용하면 뭔가 엄청난 일을 할 것만 같다. 이런 생각이 든다면 이 책에서 뭔가 해결책을 찾을 수 있을 것이다.

오렐리(O'REILLY) 책이 보통 그러하듯 '파이썬으로 웹 크롤러' 책도 밀도가 있는 책이다. 페이지는 총 350이지만 그 속에 든 내용은 많다. 웹 크롤러에 도전하는 초보자가 앞으로 겪게 될 고생을 덜게해주는 목적으로 쓴 책같다. 바로 웹 스크레이핑을 시도하기 때문에 파이썬 프로그래밍 기초는 따로 설명하지 않는다. 웹 크롤러 직접 제작하고 싶다면 인터넷에 돌아다니는 다양한 정보를 보기에 앞서 이 책을 먼저 읽었으면 좋겠다. 아마 시행착오를 많이 줄일 수 있을 것이다.

'파이썬으로 웹 크롤러'는 크게 2개의 파트로 나눌 수 있다. 파트1이 웹 스크레이퍼(웹 크롤러)를 만들기 위해 반드기 알아야할 내용이라면 파트2는 조금 더 깊은 세부 주제를 다룬다. 웹 크롤러가 처음이라면 파트1부터 차분히 읽을 것이 좋다. 파트2도 순서대로 읽으면 좋겠지만 지금 당장 필요가 없는 내용이라면 이런게 있구나 정도만 알고 넘어가도 좋을 것이다.

거의 모든 프로그래밍이 그렇듯 파이썬으로 웹 크롤러를 만드는 작업도 다른 사람들이 미리 만들어놓은 라이브러리를 활용하는 것이 좋다. 아니 필수다. 모든 걸 직접 제작하려는 생각은 (천재가 아니라면) 어리석은 짓이다. 이 책은 기본적으로 BeautifulSoup 라이브러리(bs4)를 사용한다. BeautifulSoup으로 시작해서 스크레이피, 오픈리파인, 자연어 처리 NLTK, 셀레니움, 필로, 테서랙트, CAPTCHA 등 많은 라이브러리의 사용법을 이 책에서 배울 수 있다.

파트1의 내용은 웹 크롤러 만들기의 기본을 설명하는데, 웹 크롤러를 만들어서 웹 사이트를 돌아다니며 모은 데이터를 MySQL과 같은 데이터베이스에 저장하는 방법까지 배운다. 책에 있는 내용을 따라하다보면 웹 크롤러가 어떻게 웹을 돌아다니는지 조금 감을 잡을 수 있을 것이다.

파트2의 내용은 매우 실용적이다. 무슨 내용을 다루는지는 목차를 보면 된다. 문서 읽기, 지저분한 데이터 정리하기, 자연어 읽고 쓰기, 폼과 로그인 뚫기, 자바스크립트 스크레이핑, API를 통한 크롤링, 이미지 처리와 텍스트 인식, 스크레이핑 함정 피하기, 스크레이퍼로 웹사이트 테스트하기, 병렬 웹 크롤링, 원격 스크레이핑, 웹 스크레이핑의 합법성과 윤리.

크롤링에 관심이 있어 '파이썬으로 웹 크롤러 만들기'를 봤는데 파이썬 실력이 늘어난 것 같다. 다양한 라이브러리를 경험을 해서 그런가?! 웹 크롤러에 대한 궁금증도 어느정도 풀렸지만 파이썬의 막강함을 다시 한번 느끼게 되는 계기가 된 것 같아 개인적으로 아주 만족스럽다.

nww***l2019-06-09

책 하나면 파이썬으로 웹 크롤러 만들기를 끝낼 수 있다!

awake***l2019-06-09

웹 크롤러 관련 필독서

파이썬을 이용한 웹 크롤러 제작의 필독서

파이썬은 문법에 대한 학습만 하고 djnago를 이용한 간단한 웹 페이지만 작성해본 사람으로서 처음 접해본 웹 크롤러 관련 서적이다. 책은 두껍지 않으나 웹 크롤러과 관련하여 다루는 내용이 많고 설명이 간결하다.

파트1 스크레이퍼 제작

파이썬을 통한 웹 크롤링이 무엇인지 소개하고 파이썬을 설치하고 간단한 코딩으로 부터 시작해서 여러가지 라이브러리를 사용하여 데이터를 얻고 mysql을 설치해서 데이터베이스에 저장 하는 것까지 안내 하고 있다. 파이썬 기초에 대해서는 다루지 않기 때문에 파이썬에 대한 기본적인 이해와 학습은 미리 준비가 필요하다. 하지만 웹 크롤링이 뭔지, 파이썬이 뭔지 몰라도, 소스코드가 무었을 의미 하는지 제대로 이해 하지 못해도 웹 크롤러에 대한 대략적인 감은 잡을 수 있을 듯 하다. 핵심만 간추려서 군더더기 없이 친절하게 안내하고 있어 쉽게 이해 할 수 있다. 하지만 소스코드를 보고 이해 하는 것과 설명만을 이해 하는 것은 전혀 다른 것이니 소스코드를 보고 직접 코딩하면서 결과물을 확인 하면 더 좋을 것이다.

웹 크롤러를 작성하여 데이터를 얻어 오는데 있어 여러가지 준비 사항들이 필요한데 정규표현식과 람다표현식에 대해서도 간단하게 설명하고 넘어가는 부분이 있다. 웹 크롤링으로 정확한 정보를 수집한다고 하면 이들의 내용에 대해서도 따로 학습이 필요 할 듯 하다. 또 수집한 데이터를 데이터베이스에 저장 하여 확인 하기 위해 my-sql 을 설치하여 사용하는 방법을 안내하고 있다. 이렇게 부분 부분 필요한 내용을 어렵지 않게 쉽게 설명하고 있어서 맘에 들었다.

파트2 고급 스크레이핑

책에서 저자가 말했던 "웹 크롤링은 여러가지 최신 웹 기술의 핵심에 있다" 라는 말을 증명 하는 내용이다. 웹 크롤링으로 데이터들을 수집하기 위해 상대해야 하는 여러가지 주제들에 대해 하나하나 설명을 하고 있다. 목차에서도 볼 수 있듯이 텍스트 포멧의 문서읽기, 자연어 처리, 폼과 로그인, 자바스크립트등의 내용을 소개 하는 것을 보고 있자니 내가 너무 웹 크롤링을 그냥 막연하게만 생각하고 있었다는 것을 느꼈다. 하지만 적당한 유머와 간결한 문체로 설명을 해주어서 이렇게 알아야할 내용을 나열해주는데도 부담스럽거나 어렵다고 느껴지는 부분은 없었다.

목차의 내용중에 다음의 부분들이 인상적이었다.

폼과 로그인 뚫기

http post 요청을 형식에 맞게 직접 만들어서 스크레이퍼가 전송을 할수있게 만드는 법을 소개 하고 있다. 웹 크롤렁은 정적인 페이지의 데이터만 수집해오는 줄 알고 있었기에 이 부분은 전혀 생각하지 못했다.

자바스크립트 스크레이핑

자바스크립트를 스크레이핑 하기전에 자바스크립트에 대해 간결하게 설명을 하고 있다. 내용이 많지도 않은데 마치 자바스크립트 안내서의 느낌을 받았다. 그만큼 설명을 잘 하고 있다고 생각한다.

API를 통한 크롤링

웹 크롤러에도 API가 있는 줄은 몰랐다. 수집하고자 하는 사이트와 내용을 잘 정리해서 시행착오를 거치며 쓸만한 데이터를 얻어 내는 것으로만 생각 하고 있었는데. 웹 크롤러 자체도 하나의 프로그램으로 인식하고 접근 방법을 다르게 바라보게 해주는 내용 이었다.

인상적인 문구들

어찌보면 당연한 내용인데도 읽으면서 세삼 각인되었던 문구들이다.

"분석과 설계를 통해 코드 작업에 들어가야지 그렇지 않은 경우에는 코드를 작성하고 유지하는게 어려워 지고 결과 데이터를 추출하고 효율적으로 사용하기도 어려워진다"

"웹 크롤링은 여러가지 최신 웹 기술의 핵심에 있다"

"텍스트 분석은 당신의 프로젝트와는 아무 상관없다고 생각할 수도 있지만, 텍스트 분석의 배경에 있는 개념을 이해하면 머신러닝 전반에 걸쳐 대단히 큰 도움이 되며, 현실 세계의 문제를 개연성과 알고리즘의 관점에서 모델링하는 더 범용적인 능력을 갖게 됩니다."

zzo***l2019-06-08

2판으로 업데이트 되며 실습코드를 바로 실행해 보기가 좋아져서 실습과 함께 크롤링을 배울 수 있다.

파이썬으로 웹 크롤러 만들기(2판)

이 책의 초판도 인상적으로 읽었는데, 2판이 나와서 다시 읽어보게 되었다. 기존 초판에서 4, 5, 16장이 추가되었다고 한다.

프로그래밍 책을 읽을 때 가장 먼저 하는 일은 github 저장소가 있는지 찾는다. 이 책의 저자도 github 페이지에 책의 소스코드를 공개하고 있고 주피터 노트북을 통해 바로 실습할 수 있도록 .ipynb 확장자로 파일을 제공하고 있다. 또, 초판에서는 소스코드를 .py 형태로 제공했는데 2판이 나오며 .ipynb 형태로 제공하고 있기 때문에 주피터노트북과 google colabortory를 통해 코드를 바로 실행해 볼 수있게 되었다.

https://github.com/REMitchell/python-scraping

소스코드를 열어볼 때는 로컬장비에 클론을 받아 주피터노트북으로 열어보는 방법도 있지만, 아래의 링크처럼 바로 Colaboratory로 열어 소스코드를 실행해 볼 수 있다.https://colab.research.google.com/github/REMitchell/python-scraping/

위에 있는 colab URL을 실행하면 바로 소스코드를 실행해 볼 수 있다. 또, 개발서적을 볼 때 텍스트 보다 소스코드를 먼저보고 이 소스코드가 뭘 의미할지 먼저 고민해 보고 텍스트를 보는데 이렇게 프로그래밍 관련 책을 읽을 때는 소스코드를 먼저 실행해 보면 텍스트를 봤을 때 더 도움이 되는 것 같다.

크롤링을 할 때 보통 유명사이트를 크롤링하는 예제로 만들어질 때가 많은데 이 책은 크롤링을 위해 사이트를 임의로 만들었다. 이렇게 별도의 사이트를 만드는데는 실습하고자 하는 의도를 잘 표현할 수 있다는 점과 사이트의 레이아웃이 변경되거나 했을 때 책의 소스코드가 돌아가지 않는 점을 방지할 수 있을거 같다. 크롤링을 위한 사이트를 만들어 놓았기 때문에 사이트의 내용이 변경되어 책의 소스코드를 사용할 수 없게 되는 일을 방지할 수 있다는 점이 좋았다.

또, 이렇게 실습 사이트를 만들었을 때 실습용으로 만든 사이트이기 때문에 서비스에 부담을 주지 않는 것도 장점일 것 같다. 사이트를 크롤링하면 트래픽이 몰릴 수 밖에 없기 때문에 서비스에 부담을 주게 되는데 실습용으로 제작된 사이트에서 여러 배려를 느낄 수 있었다.

웹 크롤링 혹은 스크래핑은 책에서 얘기하는 것 처럼 프로그래밍을 전문적으로 다루는 사람이든 아니든 누구든 흥미로워 하는 분야 중에 하나인것 같다. 또, 웹 크롤링을 위해서는 웹에 대한 전반적인 지식을 필요로 한다. 그래서 크롤링으로 프로그래밍을 배우게 된다면 웹에 대한 전반적인 내용을 배울 수 있는 주제라는 생각이 든다.

그래서 웹 스크래핑을 이해하기 위해서는 프로그래밍 기초지식도 필요하지만 html 이라든지 css, 자바스크립트 등에 대한 이해도 필요로 한다.

다양한 형식으로 저장하기

데이터를 수집해서 어떻게 저장해서 처리해야 하는지도 중요한데, 이 책은 csv형태의 파일로 저장하는 코드 뿐만 아니라 데이터베이스를 활용해서 저장하는 방법까지 다루고 있다.

텍스트 마이닝 기법(ngram, 마르코프 모델)

이 책에서 가장 인상적이었던 부분은 텍스트데이터를 전처리 하고 다루는 방법에 대한 내용이다. 크롤링과는 조금 거리가 있는 내용일 수도 있지만 수집한 비정형 데이터를 분석하기 위해서는 텍스트 마이닝 기술을 가지고 있으면 좀 더 다양한 분석을 해볼 수 있다. 또, 웹상에서 수집한 데이터는 텍스트 데이터가 많은데 아무리 수집을 많이 한다고 해도 의미를 찾을 수 없다면 무용한 일이 될 수도 있을 것이다. 초판에서도 이 책에서 인상적이었던 부분은 이런 텍스트마이닝 기법이었다. 게다가 머신러닝이나 딥러닝에서 활용되고 있는 마르코프 모델에 대한 내용까지 다루고 있다.

이미지 처리와 텍스트 인식

웹 상에서 가져온 이미지에 있는 텍스트를 다룰 수 있도록 OCR 라이브러리도 다루고 있다. 그리고 수집된 이미지를 학습해서 이미지의 문자를 인식할 수 있는 머신러닝 기술에 대한 설명도 함께 하고 있다.

테스트

웹사이트를 주기적으로 크롤링하다보면 어느 날 사이트가 변경이 되어 작성했던 크롤링 스크립트가 동작하지 않는 경험을 하기도 한다. 또 테스트코드를 작성하는 것은 좋은 습관 중에 하나이기도 하다. 이 책은 이런 코드들을 모두 주피터 노트북에서 실행할 수 있는 소스코드로 제공하고 있다.

저작권

초판의 내용도 좋았기 때문에 어떤 내용이 추가되었을 지 궁금했는데 크롤링을 하면 대량의 페이지를 가져올 때 좀 더 빠르게 혹은 효율적으로 작업하기 위한 병렬처리 내용이 추가된 것도 인상적이다.

책의 소스코드도 잘 정리되어 있어서 실습과 함께 볼 수 있는 점이 좋았다.

mmxsk***l2019-06-07

[상품 협찬]데이터 수집에 대한 새로운 시각을 가지게 되었다

한빛미디어에서 '상품 협찬'을 받아 후기를 작성하였습니다.

[책 표지]

책 표지에 나오는 동물이 무엇인지 매우 궁금했었다. 책을 다 읽고 표지 다음장을 넘기면서 그 궁금증을 해소할 수 있었다.
표지의 주인공은 '사바나천산갑'이라는 포유류 동물이라고 한다. 멸종 위기에 처해 있다고 한다.
국내 서적에서는 찾아보기 힘든 독특한 표지 디자인이다.

1. 이 책을 읽기전에
오래전부터 난 '웹 스크랩'이 아니라 '파싱'이라는 용어에 더 익숙했다.
수년전 내가 활동하는 IT카페에서도 '파싱'에 관한 질문이 간혹 올라오는게 전부였다.

요즘은 분위기는 반전되어 광범위하게 활용되고 있는 것 같다.
정보처리 신기술은 대체로 그 기술과 분위기가 무르익을 때까지 다소 시일이 걸리는 듯 하다.

수년전만 해도 웹사이트에서 내가 원하는 데이터를 쉽게 가져온다는 것은
'신기하네. 이런 방법도 사용하는구나'
그러나 딱 거기까지였다. 나는 더이상 목적이나 바라는 무엇을 찾지 못했고 중단됐었다.

2.파이썬에 대한 나의 선수 지식은?
나는 파이썬으로 프로젝트를 진행해 본적이 없다.
닷넷 계열 언어로만 쭈욱 프로젝트를 진행해 왔기 때문이다.
이웃 회사에서 파이썬으로 프로젝트를 해 달라는 요청이 있었지만 다른 선행 프로젝트로 인해 진행하지 못했다.
그리고 파이썬은 내 기억속에서 사라졌다.
파이썬이 아닌 다른 언어로 몇번 시험 코드를 만들어 돌려 보곤 한게 전부였다.

그리고 "Web Scraping with Python"이라는 책에 내 수중에 들어왔다.

3. 책을 읽으려면 파이썬 문법을 몰라도 될까?
몰라도 되고 알면 더 좋다.
이 말은 파이썬이라는 언어에 대해서 어느정도 알고 있으면 더 재미있을 것이라 생각된다.

하지만 파이썬을 몰라도 책에 나와 있는 예제를 입력하고 실행보면서 문법을 익혀도 크게 문제가 없을 것 같다.
책에 나오는 예제 하나 하나는 쓸모없는 예제는 단 하나도 없다. 전부 유용하고 실무에 바로 적용 가능한 수준으로 고급스럽다.
나는 이 책을 더 재미있게 보기 위해서 아니 파이썬이라는 언어의 매력을 보게 해주었기에 파이썬에 푹 빠지게 만들었다.

4.예제 코드를 실행해 보면서
책 도입부에 "BeautifulSoup"라는 용어가 등장한다.

생전 처음 접해보는 용어다.

파이썬에서 사용하는 웹 탐색용 라이브러리라고 정의되어 있다.
파이썬이라는 언어의 간결함과 엄청나게 많은 라이브러리에 한번 더 놀라고 있다.

파이썬을 가벼이 볼 게 아니구나. 새삼 깨닫고 있다.

import sqlite3
conn = sqlite3.connect('testdb.sqlite')

단 두줄의 코드로 SQLite에 연결하고 있다. 정말 놀랍다.

그래서 난 여러 파이썬 책을 도서관에서 대출해서 이 책과 같이 보았다. 소장하고픈 책도 한권 주문했다.

책장을 한장 두장 넘기면서 그 다음은 무엇이 나올까? 어떤 이야기를 할까?
정말 흥미 진진하다. IT기술서적은 대부분 딱딱하고 재미없다.
그러나 이 책은 처음부터 끝까지 재미있다. 꼭 한번 보시는 걸 추천드린다.

2017년도인지 정확히 기억이 안난다. 언제 구입한지는 몰라도 책장을 둘러보니 파이썬 책이 하나 있었다.
보물을 찾은 듯한 기분이랄까 왠지 새롭다.

5. 무수히 많은 데이터를 어떻게 정리해야 할지 새로운 아이디어를 떠오르게 해주었다.
무수히 많은 정보가 웹사이트에 공개되어 있고 독자를 기다리고 있지만 막상 내가 필요로하는 유용한 정보를 검색하고 저장하고 내 것으로 만들기란 쉽지 않다.
그리고 한가지 중요한게 더 있다. 저작자의 권리 침해없이 다른 사람에게 불편함이 없도록 합법적으로 정보를 내 데이터베이스에 저장하는 것이다.

친절하게도 이 책에서는 스크랩한 정보를 데이터베이스로 저장하는 방법도 알려 주고 있다.
MySQL 설치부터 파이썬에서 사용하는 방법도 안내해 준다.
나는 기 설치된 MariaDB가 있어 별도로 MySQL을 설치하지 않았다. 서로 비슷한 DB이기에 그대로 사용할 수 있었다.

6. 마무리 하면서
저자의 지식의 깊이가 남다르다. 다른 사람은 어떨지 모르지만 내 생각은 그렇다.
여러 저자의 책을 경험했기에 '라이언 미첼'의 지식 깊이는 조금은 남다른 것 같다.
풍부한 경험에서 우러나오는 지식의 깊이를 가늠해 볼 수 있었다.

나는 이 책을 통해 정보(데이터)에 대한 새로운 시각을 가지게 되었고 새로운 뭔가를 준비하고 있다.
저자와 한빛미디어에 감사의 인사를 드리며 리뷰를 마무리 하고자 한다.

khg4***l2019-05-27

[서평]파이썬으로 웹 크롤러 만들기(2판)

파이썬으로 웹 크롤러 만들기(2판)

파이썬으로 웹 크롤러 만들기

라이언 미첼 저/한선용 역

웹 어디서든 내가 원하는 데이터를 쏙쏙쏙웹에 존재한다면 그것이 어떤 형태이든 데이터로 추출할 수 있다. 필요한 무기는 이 책과 파이썬뿐. BeautifulSoup, 셀레니움, 테서랙트 등 강력한 파이썬 라이브러리 사용법과 함께 API, 인증, 이미지 및 텍스트 인식, 로그인 처리 등 웹 크롤링의 기초부터 고급 기법까지 종합적...

프로그래밍을 배웠다면 이제 배운 프로그래밍을 어디에 사용할까? 머신러닝, 인공지능? 아마 많은 경우 귀찮은 작업을 수행하기 위해 일반적인 사람들이 배우는 경우가 많다. 그렇다면 이렇게 귀찮은 작업을 한 번에 할 수 있는 방법은 다양하다. 인터넷의 웹에 있는 자료를 가져오는 것 바로 웹 스크래핑이다. 프로그래머와 일반인들 사이에 가장 재미있고 가장 흥미로운 주제가 바로 웹 스크래핑이다. 일반적인 사람이라면 누구나 인터넷을 이용하고 인터넷에서 자료를 찾기 때문이다.

이론적으로 웹 스크래핑이나 데이터를 수집하는 작업을 웹 크롤링이라 하고 이러한 프로그래밍을 웹 크롤러라고 한다. 대표적으로 파이썬을 이용해 이러한 웹 크롤러를 많이 작성하고 있다. 이 책은 이렇게 파이썬을 이용해 웹 크롤러를 만드는 방법을 상세히 설명하고 있다. 오늘날 웹에 존재하는 거의 모든 종류의 데이터를 수집, 변형, 사용할 수 있는 상세한 가이드로 이 책이 제공하고 있다. 1부에서는 웹 스프래핑과 웹 크롤링에 대해 깊이 설명하고 책고 실습에서 사용할 라이브러리에 중점을 준다. 2부에서는 독자가 웹 스크패링을 만들 때 유용한 추가적인 주제에 대해 다룬다.

1부에서부터 BeautifulSoup이라는 크롤링에 필수적인 라이브러리를 설치하고 간단하게 이용해본다. 위 사진과 같이 Crwaler 클래스의 코드를 살펴볼 수 있다. 실제 파이썬 관련 코드는 모두 오픈되어 있으니 github와 같은 사이트 및 공식웹에서 모두 확인할 수 있다. 실제 구문을 보면 그렇게 복잡하지 않다. 사이트 주소를 입력해 파싱하는 것이다. 즉 원하는 형태로 쪼갤 수 있게 하는 것이다.

웹 언어 외에도 CSV, TXT파일 등 많은 형태의 자료를 파싱하고 분석할 수 있지만, 대부분의 인터넷의 자료를 가져오는 경우가 많기 때문에 HTML 분석을 많이한다. 실제 HTML은 마크업 언어로 다양한 태그가 계층적으로 이뤄져있다. 따라서 HTML언어의 크롤링의 핵심은 바로 이 태그를 분석하는 것이다. 많은 경우 태그의 이름을 이용해 해당 태크가 있는 문장을 검색해 이를 출력하거나 저장하거나 이용할 수 있다.

이 책은 그 외에도 다양한 크롤링 방법을 제공한다. 자연어를 읽고 이를 분석하는 방법은 NLTK라는 자연어 툴킷을 사용한다. 다양한 API를 통해 받아온 데이터를 분석하는 방법도 알아본다. 실제 이렇게 웹의 데이터를 파싱하고 분석하는 일련의 과정들이 단순히 자료를 만들고 업무 자동화에만 사용된다면 큰 오산이다. 실제로 이는 알고리즘 관점에서 좀 더 확장된다면 머신러닝과 딥러닝의 전반적인 작업이 될 수 있다. 따라서 이후 파이썬으로 인공지능을 배우고자 하면 먼저 파싱과 분석에 대해 이 책을 통해 먼저 익히길 추천한다.

파이썬의 기본적인 이해가 끝났다면 이렇게 다양한 프로젝트와 여러 라이브러리를 이용하는 예제를 익히고 실제로 사용해도 큰 문제가 없을 정도의 코드 및 프로그램을 작성하고 알아보는 과정을 거쳐보자.

ybh***l2019-05-04

웹 크롤러 최고의 책

bae***l2019-04-15

이전에 검색으로 얻은 파편화된 지식이 파이썬 웹 크롤러 만들기를 읽음으로써 조각이 맞춰지는 기분이었다.

slu***l2019-04-15

[리뷰] 파이썬으로 웹 크롤러 만들기

리뷰에 앞서 본 리뷰는 한빛 출판 네트워크에서 진행한 ‘나는 리뷰어다’ 이벤트에서 제공받은 책으로 진행한 것을 밝힙니다.

파이썬이라는 언어는, 프로그래밍을 한다고 하면 항상 C 언어를 배워야했던 것처럼, 반드시 익혀야하는 언어라고 생각이 될 정도로 일반화되었다고 생각한다. 단순히 사용하기 쉽다 정도에서 끝나지 않고, 어떤 일을 빠른 시간 내에 해야 할 때, 이미 필요한 대부분의 라이브러리가 준비되어 있는 경우가 많다. 웹 관련 기술에서도 이러한 점은 다르지 않다.

초판이 정확이 언제 출간되었는지 기억이 나지는 않는데, 벌써 두 번째 버전의 번역판이 출간되었음을 다른 책을 구매하러 한빛 미디어 사이트에 들어갔다가 알게 되었다. 마침 기회가 되어 리뷰까지 할 수 있어 감사하게 생각한다.

웹 크롤러를 만들어 특정 사이트에서 원하는 정보를 얻어 오는 것은, 어떤 정보를 어느정도로 수집할 것인가에 따라 난이도는 많이 달라진다. 간단한 정보라 해도, 정보를 수집하게 어렵게 만들기 위한 여러 기법이 적용되어 있는 사이트의 경우, 이를 위해 많은 정보를 찾아보아야 하고, 어떤 언어를 이용하는 것이 가장 도움이 되는 지에 대해서도 고민해야 하는 부분이 된다.

본 책은, 그러한 고민을 시작하거나 이미 하고 계신 분들에게, 도움이 될 수 있다고 생각한다. 책의 두께만 보고 별 내용이 없으리라 판단할 수도 있지만, 모든 챕터를 꼼꼼히 읽어보면, 단순히 웹 크롤링러 작성하는 방법만을 나열한 책이 아니라는 것은 쉽게 파악할 수 있다. 간단한 스크레이퍼를 작성하는 방식으로 접근을 하면서 하나 하나 좀 더 복잡한 경우 그리고 좀 더 다양한 고려를 해야만 하는 경우들을 짚고 있다. 그리고 중간 중간에 뒤에 진행되어야 할 부분에 대한 필요한 정보에 대해서도 몇 개의 챕터를 할애해 설명을 하고 있다. 간단한 테크닉이나 단순 라이브러리의 사용법 이외에도, 쿠키 처리, CAPTCHA 다루는 방법, 스크레이핑 방어 코드 우회 등과 같이 좀 더 고급 내용도 다루고 있어 참고하기에 좋은 부분이라 생각한다. 그리고 웹 크롤러 작성시 반드시 고려해야하는 윤리성, 합법성 관련 문제에 대해서도 다루고 있다. 전반적으로 웹 크롤러 작성 시 큰 그림을 보기 위해서 읽어볼 만한 좋은 책이라 생각한다.

하지만, 책을 읽으면서 아쉬운 부분도 일부 눈에 띄었다. 첫째로 이 책이 원서라는 점이다. 원서이기 때문에 이 책이 간행된 시점과 번역서가 간행된 시점은 차이가 날 수 밖에 없다. 예제로 설명하는 코드가 번역이 진행된 시점에 동작하지 않는 부분들이 존재한다. 하지만 역자 분이 이 부분을 꼼꼼히 체크하여, 이러한 부분들을 일일이 언급하고 필요시 예제 코드를 변경하거나, 별도의 github 사이트에 대체 코드를 올려주신 부분은 고마운 부분이라 생각된다. 둘째로 일부 내용의 경우, 배치를 굳이 이렇게 해야했나 하는 부분도 눈에 띈다. 굳이 CVS, PDF와 같은 포맷의 문서 읽기나 자연어 처리와 같이, 알면 도움이 되지만 흐름상 배치를 참고 자료로서 뒷쪽에 배치해도 될 것으로 보이는 내용들을, 중간에 배치 해, 그냥 스킵하고 다음으로 넘어가도 되는 내용 아닐까 하는 부분도 있었다. 셋째로, 다양한 주제를 적은 페이지의 책에서 설명하려다보니, 예제가 단순한 면이 있다. 규모가 좀 큰 예제와 그런 경우 고려해야하는 부분들이 있으면 좋았을텐데 하는 아쉬움이 있다.

요즘 들어 번역서들은 과거의 수준과는 달리 상당히 번역이 잘 되어 있다. 이 책 역시 책을 읽으면서 큰 어색함을 느끼지 못하였다. 또 띄어 쓰기나 쉼표 등이 잘 되어 있어서 어색함과는 별개로 빠르게 읽어나가는데도 문제가 없다고 느꼈다 ( 이 부분에 있어서는 사람들마다 생각이 다를 수는 있으나, 아무리 컴퓨터 IT 책이라도, 중요하다고 생각하는 편이다).

참고로 이 책은 웹 크롤링에 대한 입문서이지, 파이썬 언어에 대한 입문서는 아니다. 책에서 저자가 책에서 설명하는 라이브러리 설치 방법 등에 대해 상세하게 설명하는 부분이 있지만, 어느정도 파이썬에 익숙해져 있는 분들을 위한 내용이다. 따라서 본 책을 보기 전에 먼저 파이썬 입문서를 참고한 후 읽는 것이 더 효과적으로 책을 이해할 수 있을 것이라 생각한다.

zid***l2019-04-14

파이썬 기본 문법만 알고 있는 사람들에게 쉽게 다가갈 수 있는 웹 크롤러 만들기 리뷰

dragm***l2019-04-13

크롤러로 무엇을 할 수 있는가 'ㅅ')

초판이 나온지 벌써 몇 년이 흐른 것 같은데, 한빛미디어의 웹 크롤러 도서가 2판이 나왔다.

하지만, 이 책을 읽기 위해서는 기본적인 파이썬 지식이 필요하다는 것이 함정이지 'ㅅ') 후후.

크롤러를 만들면 뭘 할 수 있을까.

예를 들어, 페이지 내의 모든 링크 목록 중 관심 있는 링크 항목만을 정규표현식을 활용하여 골라내어 수집한다던가, 또는 사이트 전체를 이동하는 크롤러를 만들어 내부 링크를 모두 수집하고 그 페이지들을 사이트의 구조와 동일하게 정리할 수 있다던가, 특정 주제만을 크롤링하여 자신만의 서비스를 만들 수 있다던가 하는 여러 활용 방법이 존재하는 것이다. 'ㅅ')

책 초반부에서는 BeautifulSoup 라이브러리를 통해 간단한 스크레이퍼를 제작하는 과정을 다루고 있으며, BeautifulSoup 의 find(), findAll() 메소드를 통해 정보에 접근하는 방법을 간단한 정규표현식 안내와 함께 쉽게 설명하고 있다. // 이것은 마치 javascript 의 jQuery나 DOM API를 통해 html node 를 찾는 형태와 비슷하여 습득하기도 쉬워 보인다. 'ㅅ')

챕터 4 에서는 '웹 크롤링 모델' 이라는 제목으로 데이터 수집시의 이슈와 전략, 체크해야 할 들에 대한 고민할 거리를 안내하면서, 웹 크롤러의 기본적인 구조 설계 패턴 몇 가지를 제시하고 있다. 이 챕터가 아마도 크롤러 초심자에게 많은 도움이 될 것이라 생각한다. // 저.. 저도 초심자.. 'ㅅ');

개인적으로는 챕터 9 '자연어 읽고 쓰기' 가 두고두고 볼만한 주제로 보이고, 웹개발자들에게는 챕터 10 '폼과 로그인 뚫기' 가 한번쯤 살펴봐야 하는 내용일 것이다.

책의 후반부에는 병렬 웹 크롤링, 원격 스크레이핑 등의 고급 주제들과 스크레이핑 자체의 법적/윤리적 이슈들에 대해서 다루고 있는데, 크롤러 전반 이슈에 대해 다루고 있는 국내 발매된 책 중에서는 단연 구성이 좋은 책이 아닌가 하는 생각이다. 'ㅅ')a 긁적. 아님 말구.

자료명	등록일	다운로드
예제소스(GitHub)	2025-02-03	다운로드
예제소스	2025-02-03	다운로드

파이썬으로 웹 크롤러 만들기(2판) : 초간단 나만의 웹 크롤러로 원하는 데이터를 가져오는 방법

책의 구성

Part 1. 스크레이퍼 제작

Chapter 1. 첫 번째 웹 스크레이퍼

Chapter 2. 고급 HTML 분석

Chapter 3. 크롤링 시작하기

Chapter 4. 웹 크롤링 모델

Chapter 5. 스크레이피

Chapter 6. 데이터 저장

Part 2. 고급 스크레이핑

Chapter 7. 문서 읽기

Chapter 8. 지저분한 데이터 정리하기

Chapter 9. 자연어 읽고 쓰기

Chapter 10. 폼과 로그인 뚫기

Chapter 11. 자바스크립트 스크레이핑

Chapter 12. API를 통한 크롤링

Chapter 13. 이미지 처리와 텍스트 인식

Chapter 14. 스크레이핑 함정 피하기

Chapter 15. 스크레이퍼로 웹사이트 테스트하기

Chapter 16. 병렬 웹 크롤링

Chapter 17. 원격 스크레이핑

Chapter 18. 웹 스크레이핑의 합법성과 윤리성

느낀점

추천 독자

파트1 스크레이퍼 제작

파트2 고급 스크레이핑

폼과 로그인 뚫기

자바스크립트 스크레이핑

API를 통한 크롤링

인상적인 문구들

다양한 형식으로 저장하기

텍스트 마이닝 기법(ngram, 마르코프 모델)

이미지 처리와 텍스트 인식

테스트

저작권

자료 다운로드시 유의사항

▶ 부록/자료 관련 FAQ