스파크를 이용한 자연어 처리

skywi***l2021-09-28

아파치 스파크 안내서

pcr3***l2021-09-22

이것만으로는 힘들꺼 같다

growl***l2021-09-22

스파크를 이용한 자연어 처리

Spark NLP는 아피치 스파크 및 스파크 ML에 기반을 두고 구축된 오픈 소스 자연어 처리 라이브러리입니다. 자연어 처리는 텍스트를 이해하거나 추론해야 하는 많은 데이터 과학 시스템의 핵심 구성요소를 말하는데요. 이번 스파크를 이용한 자연어 처리 저서를 통해 기본 사항과 구성요소, 언어학 기반의 여러 개념과 용어들 그리고 NLP 라이브러리 기반의 애플리케이션 프로젝트에 관해 쉽게 이해할 수 있는 내용을 담고 있습니다.

스파크를 이용한 자연어 처리는 크게 4부로 나눠집니다.

1부에서는 아파치 스파크의 기본 환경 설정, 언어학, 문자 체계 및 Spark NLP 라이브러리를 설명하고 딥러닝 기초로서 신경망에 대해서 다룹니다.

2부에서는 자체 NLP 기술을 구축하는데 필요한 여러 가지 기술을 소개합니다. 이들의 기술의 종류와 작동 방법을 이해하면 자신의 애플리케이션에 적용할 수 있습니다.

3부에서는 이전 내용을 바탕으로 NLP 애플리케이션을 구축하는데요. 소프트웨어 공학, 데이터 과학 그리고 언어학이라는 세 가지 관점을 염두에 두어야 하는 점입니다.

4부에서는 NLP 시스템 기반에서 제품으로 만들 때 고려할 여러 사항을 다룹니다.

자연어 처리 애플리케이션을 개발하고 싶은데 어디부터 시작해야 할지, 어떤 도구를 사용해야 좋을지 고민하는 분들에게 Spark NLP는 답을 제시해줍니다. 스파크를 이용한 자연어 처리 저서는 친절하고 다양한 예시, 영화 리뷰 작성자의 감정 분석하기, 지식 베이스 구축하기 등 실용적인 예제 실습들이 있습니다. 이뿐만 아니라 응용력 강화를 위한 요소 제공을 해줍니다.

자연어 처리는 사람과 기계를 소통할 수 있게 만든 기술로 최근에는 의료 산업, 기계번역, 작문, 챗봇과 같이 데이터를 분석해 서비스를 제공하는 애플리케이션의 개발과 기술 도입이 활발하게 확대되고 있는데요. 스파크를 이용한 자연어 처리는 데이터를 잘 분석하고 처리하기 위해서 언어학, 데이터 과학, 소프트웨어 공학 측면에서 이를 살펴봐야 한다는 새로운 관점을 제시해줍니다. 이 책을 통해 Spark NLP 사용법과 NLP 애플리케이션을 현명하게 구현하는 방법을 배워 자연어 처리 전문가가 되어 보시길 바랍니다.

예제 코드는 깃허브 저장소에서 내려받을 수 있습니다.

github.com/jamsuham75/spark-nlp-book

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

kyungla***l2021-09-22

[도서 리뷰] 스파크를 이용한 자연어 처리

hyeon***l2021-09-22

스파크를 이용한 자연어 처리

2021년 8월에 출간된 <스파크를 이용한 자연어 처리>에 대해 소개합니다. 이 책의 부제는 '대규모 텍스트를 다루는 가장 효율적인 딥러닝을 만나다'입니다. 필자는 자연어 처리를 온톨로지를 학습할 때 경험해 봤었습니다. 이 책은 자연어 처리를 스파크 기반 위에서 할 수 있는 라이브러리인 Spark NLP에 대해 소개하는 책입니다.

이 책의 저자는 'Alex Thomas'이며, 원서는 아마존 리뷰에서 높은 점수(9점)를 받았습니다. 역자는 이창현 님으로 번역에 대해서는 개인적으로 호불호가 있을 것으로 판단합니다.

<스파크를 이용한 자연어 처리>는 440 페이지로 구성되어 있어 휴대하면서 읽기에 부담스럽지 않습니다. 다만 최근 출시된 한빛미디어 책은 전차책으로도 출간되므로 전자책을 읽을 수 있는 장치를 보유하신 분이라면 전자책으로 만나보는 것도 좋을 것 같습니다.

한빛미디어 평가단에 참가하여 작성한 글이며, 한빛미디어에서 제공해준 책을 읽고 작성했음을 밝힙니다.

이 책의 매력은?

<스파크를 이용한 자연어 처리>는 자연어 처리 기초와 주요 알고리즘, 그리고 Spark NLP 라이브러리에 대해 학습하는 책입니다.

<스파크를 이용한 자연어 처리>는 4부 19개의 챕터로 구성되어 있습니다. 1부에서는 자연어 처리를 기본 개념과 지식, 그리고 딥러닝에 대해 간략히 소개합니다. 2부에서는 NLP 애플리케이션을 제작하기 위한 기술과 작동원리를 다룹니다. 3, 4부에서는 NLP 애플리케이션을 예제를 활용하여 직접 작성해보고 고려해야 할 사항들을 소개합니다. 이 책은 NLP 학습과 스파크를 활용한 NLP 애플리케이션 제작에 좋은 참고자료가 될 것 같습니다.

저는 이 책을 제대로 소화하기 위해서는 기본적인 CS에 대한 지식이 필요하다고 생각합니다. CS에 대한 기초 지식이 부족하면 이 책에서 설명하는 내용을 소화하기가 어려울 것으로 판단합니다. 이 책의 주제가 쉬운 주제는 아니지만, 조금 꼼꼼하게 독자를 배려했으면 하는 아쉬움은 있습니다.

위 이미지는 이 책의 그림 1-1입니다. 하지만 코드를 실행해서 나온 결과는 아래 이미지입니다. 코드에 대해 이해를 하고 이 책을 읽었다면, 우측 이미지가 제대로 나온 결과물임을 알 수 있겠지만 그렇지 않은 독자들은 당황스러울 수 있습니다.

위의 예처럼 저자가 설명을 전개하는 부분에서 아쉬움이 느껴집니다.

마치면서

<스파크를 이용한 자연어 처리>의 원서가 출간된 시점은 약 1년 전입니다. 이 문제로 말미암아, 컴퓨터에 익숙하지 않은 분들이라면 이 책에서 제공하는 개발 환경을 제대로 구축하고 실습을 원활히 진행하기에는 어려움이 있을 수도 있습니다. 필자가 추천하는 방법은 Google Colab을 활용하는 방법입니다. Google Colab을 이용하는 방법은 Github의 colab 디렉토리에 있는 자료를 활용하면 됩니다.

<스파크를 이용한 자연어 처리>는 스파크 기반 환경에서 NLP를 효과적으로 학습하는 데 도움을 주는 책입니다. 이 책을 통해 새로운 라이브러리(Spark NLP)를 알게 되었습니다. 앞으로 자연어 처리가 필요할 때 이 라이브러리를 활용해보고 싶습니다. 개인적으로는 파이선으로 작성된 예제를 스칼라로 변경해 보고 싶습니다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

daeh***l2021-09-20

스파크로 자연어처리를 하는 것은 좋았으나 실습이 원활치 못해 아쉬웠던 책

ladybu***l2021-09-19

스파크를 이용한 자연어 처리

안녕하세요! 한빛미디어 도서 서평단 나는 리뷰어다 2021 멤버로서 작성하는 여섯 번째 리뷰입니다 :)

이번에 제가 리뷰할 책은 스파크를 이용한 자연어 처리입니다. 저는 8월부터 2021 오픈소스 컨트리뷰션 아카데미 NLP with U 팀의 (어쩌다보니) 리드멘티로 참여하고 있는데, 그동안 웹과 모바일 프로그래밍만 공부하다가 지난 학기에 컴파일러 수업을 흥미롭게 듣고 관심이 생겨 지원한 것이라 자연어 처리 분야에 대한 지식은 거의 없이 오픈소스 NLP 도구만 조금 써 본 상태였습니다. 그래서 미팅 때 멘토님과 다른 멘티님들이 말씀하시는 내용을 이해하고 따라가기에는 어려움이 있었는데 마침 자연어 처리 내용을 다루는 이 책을 보고 선택했는데 마침 원하던 책을 리뷰할 수 있게 되어 기뻤습니다!

KakaoTalk_Photo_2021-09-19-20-05-06 001.jpeg

이 책은 약 430 페이지의 분량의 책으로 19개의 챕터에 걸쳐 자연어 처리에 유용한 Spark NLP로 효율적인 자연어 텍스트 분석 애플리케이션을 설계하고 제작하는 방법을 구체적인 예제와 설명을 통해 기본적인 언어학과 문자 체계부터 감성 분석, 검색엔진 구축까지 다양한 부분을 성능 문제까지 고려하여 다룹니다.

이번에도 어김없이 목차부터 꼼꼼하게 살펴봤는데 감성 분석과 감지, 검색엔진, 챗봇, 객체 문자 인식, 다국어 지원 등 흥미로운 챕터명에 눈길이 가는데 여러분은 어떤 챕터에 관심이 있으신가요? 저는 얼른 애플리케이션을 개발해보고 싶었습니다.

KakaoTalk_Photo_2021-09-19-20-05-06 002.jpeg

종종 처음 환경 세팅할 때 막혀버려서 진도를 못 나가면 지쳐서 흥미를 잃게 되는데 저는 이번에도 이 부분에서 많은 고생을 했습니다. 그래도 끈기를 가지고 구글링을 통해 해결했습니다ㅎㅎ 아무래도 독자마다 처한 환경이 달라서 발생한 문제이니 어쩔 수 없는 것 같습니다^^

KakaoTalk_Photo_2021-09-19-20-05-07 003.jpeg

이론적인 부분에 대한 설명도 있지만 역시 흥미롭게 빠르게 공부하기에는 애플리케이션을 구현해보는 것만한 게 없다고 느꼈습니다. 평소에 선택이 필요한 상황에서 리뷰와 피드백을 꼼꼼히 살피는 편이고 개발할 때도 사용자의 리뷰와 피드백에 관심이 많은 편이라 감성 분석과 감지 파트에 특히 관심이 갔는데 애플리케이션을 개발할 때 문제와 제약 조건을 먼저 살펴보고 프로젝트를 계획한 다음, 솔루션을 구현하고 테스트 및 측정과 검토까지 단계적으로 다뤄주어 이 책을 통해 빠르게 전반적인 자연어 처리를 공부하고 적용해보는데 도움이 되었습니다 :)

아직은 모르는 것이 많지만 그래도 이 책 덕분에 이제는 미팅 때 오가는 용어들에 대해 조금은 귀가 트인 것 같습니다. 저처럼 자연어 처리 분야에 관심을 가지시기 시작한 분들에게 간단한 애플리케이션을 만들어보며 전반적인 내용을 알아가기에 좋다고 생각하여 추천합니다!

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

hade***l2021-09-19

[리뷰]스파크를 이용한 자연어 처리