* 띄어쓰기 없이 입력해 주십시오
  > 총 도서목록 > 분야별 도서목록 > 언론학 > R를 이용한 텍스트 마이닝(개정판)
       
 
 

R를 이용한 텍스트 마이닝(개정판)
백영민
한울아카데미 / 2020-03-10 발행 / 크라운판 / 반양장 / 424면 / 37,000원
ISBN 978-89-460-7219-0 93300
분야 : 언론학, 사회학, 정보·기술
관련자료 : R를_이용한_텍스트마이닝_제2판-관련자료.zip
 
  R를 이용한 텍스트 마이닝 기법의
변화와 발전에 맞춘 2020 개정판

2017년 가을 첫선을 보인 후 독자의 사랑을 받아온 R를 『이용한 텍스트 마이닝』의 개정판이 나왔다.
2년 반이라는 길다면 길고 짧다면 짧은 시간동안 R을 활용한 기법은 많은 변화와 발전이 있었다. 기법상의 변화 뿐 아니라 우리를 둘러싼 텍스트 환경의 판도도 변화했다. 웹보다는 모바일 플랫폼이 대세가 된 것이다. 저자는 이러한 변화에 발맞추고 학계와 독자들의 피드백을 반영해 424쪽 개정판을 내놓았다.
이 책에서 다루는 여러 기법들은 학문적 신뢰성이 검증되었으며 현재 언론학, 정치학, 사회학, 컴퓨터공학, 통계학 등의 학술논문에서 소개되거나 해당 분과의 학술적 주장을 뒷받침하는 자료로서 효용을 인정받고 있다. 또한 예제를 통해 독자가 직접 실습해 볼 수 있도록 구성되어 있다.
저자는 자신의 연구 데이터를 분석하기 위한 도구로서 R을 다루어 왔고 여론조사 및 수용자 조사, 계량적 연구 방법에 주로 관심을 두고 연구해 왔다. 이와 함께 수년간 R를 이용한 텍스트 분석 워크숍을 진행한 저자의 경험이 이 책에 그대로 녹아 있다.

R를 이용한 텍스트 마이닝(개정판)
개정판에 추가된 내용

첫째, 텍스트 사전처리와 관련된 stringr 패키지에 편리한 기능을의 함수들이 새로 탑재되었다. 이에 따라 2판에서는 stringr 패키지의 함수들을 설명하는 분량이 증가했다.
둘째, 1판에서 사용한 말뭉치(corpus) 데이터를 업데이트했다.
셋째, KoNLP 패키지에서 기존 사전에 이용자가 지정 표현을 추가하하는 방법을 소개했다. 또한 KoNLP 패키지 외에 한국어 형태소 분석이 가능한 R 패키지들을 간단하게 소개했다.
넷째, 텍스트 내부의 단어와 단어의 연관 관계를 설명에 널리 사용되는 연관 규칙(association rule) 분석을 새로 소개했다.
다섯째, 잠재적 디리클레 할당(latent Dirichlet allocation, LDA) 모형에서 최적의 잠재토픽 개수를 추정하는 방법을 추가로 소개했다.
여섯째, 적은 수의 단어로 구성된 짧은 텍스트(예를 들어 140자 이내의 트윗, 온라인 Q&A 게시판, 광고 문구 등)에서 잠재토픽을 추정하는 데 특화된 토픽모형들 중 하나로 ‘공통단어등장 토픽모형(biterm topic model, BTM)’을 추가로 소개했다.
일곱째, 타이디데이터 관점에서 데이터를 조직하고 관리하는 tidyverse 접근법을 기반으로 하는 텍스트 데이터 분석기법들을 대폭 추가했다.
여덟째, 감정어휘 사전(sentiment lexicon)을 이용한 감정분석(sentiment analysis) 내용은 거의 대부분을 새로 작성했다. 우선 영어 텍스트의 경우 최근 새로운 감정어휘 사전들이 개발되어 공개되면서, 이를 다운로드받을 수 있는 textdata 패키지를 새로 소개하게 되었다.
아홉째, caret 패키지를 이용해 지도 기계학습 기법을 소개했다.
끝으로 웹 스크레이핑(scraping)을 소개하는 부분은 완전히 새로 작성했다. 1판에서는 실렉터가젯(selectorGadget)이라는 프로그램을 위주로 웹 스크레이핑을 설명했으나, 온라인 공간의 웹페이지 구성 방식 변화로 인해 실렉터가젯을 활용한 웹 스크레이핑 적용 영역은 크게 감소했다. 2판에서는 모바일 환경에 특화된 그리고 반응형 웹 페이지가 주류인 현재의 온라인 공간에 더 적합한 RSelenium 패키지와 rvest 패키지를 이용한 웹 스크레이핑 방법을 간략하게 소개했다.
이번 개정판은 흑백으로 인쇄되었던 초판과 달리 컬러로 인쇄해 독자들이 출력 결과물을 실제 색으로 확인할 수 있다. 코드 부분도 본문과 색을 다르게 인쇄하여 가시성을 높였다.


출간 의의

프로그램의 작동법을 아는 것과 그것을 이용헤 제대로 된 결과물을 얻는 것은 별개이다. R이 강력한 도구임에는 틀림없지만 그 도구를 어떻게 써야 하는지 배우는 데는 상당한 노력이 필요하다. 특히 일반적, 피상적 사용법으로는 나에게 맞는 최적의 결과물을 만들어 내기 어렵다.
저자는 자신의 연구 데이터를 분석하기 위한 도구로서 R을 다루어 왔고 여론조사 및 수용자 조사, 계량적 연구 방법에 주로 관심을 두고 연구해 왔다. 저자 자신의 시행착오와 교차검층을 통해 확인된 결과를 제시하고 있다는 점이 이 책을 더욱 가치게 한다. 이 책은 기존의 영어 텍스트 처리 방식뿐만 아니라 우리말에 특화된 방식도 자세하게 예제를 통해 설명하고 있어 특히 도움이 된다.
자신의 연구를 위해 또 데이터 분석을 위해 R를 이용하고자 하는 사람은 저자의 친절한 설명과 자세한 코드 등을 이용해 보다 쉽게 텍스트 마이닝에 도전해 볼 수 있을 것이다.


**********************************************************
* 관련 자료는 저자의 홈페이지 https://sites.google.com/site/ymbaek/ 에서도 다운받을 수 있다.
 
  1부 텍스트 데이터란 무엇인가
01 텍스트를 데이터로 파악하기

2부 텍스트 데이터 처리
01 텍스트 분석을 위한 기초적 R 함수
02 텍스트 분석을 위한 R의 베이스 함수
03 텍스트 분석을 위한 stringr 패키지 함수
04 말뭉치 텍스트 데이터 사전처리
05 한국어 텍스트 데이터 처리
06 품사분석

3부 텍스트 데이터 분석 및 결과 제시
01 텍스트 데이터에 대한 기술통계분석
02 토픽모형
03 감정분석

4부 마무리
01 RSelenium, rvest 패키지를 활용한 온라인 데이터 수집
02 맺음말

별첨 자료
01 자바 설치 방법
02 잠재토픽 개수 선정