상세 컨텐츠

본문 제목

[JMP] 한글 Text Explorer 사용하기

카테고리 없음

by e5b 2024. 5. 13. 21:54

본문

반응형

 

JMP 17버전에서부터 한글의 Text Explorer(텍스트 마이닝)이 가능함

 

위치는 "메인메뉴 >> Analysis >> Text Explorer"

 

분석하려는 대상 Column의 Data Type은 Character 이어야 함

 

 

 

Text Explorer를 실행하고 Language는 Korean 선택. Korean을 선택하면 자동으로 한글 텍스트 마이닝을 위한 Token(토큰)과 Corpus(말뭉치)가 다운로드됨. Corpus는 라틴어로 몸(body)이라는 뜻을 가지고 있다고 한다.

 

한글을 선택하면 Stemming(유사 단어 통합)과 Tokenizing(토큰 설정)이 선택 안됨. 한글에 대한 유사 단어 통합이 구현되어 있지 않고 한글 분석 시 정규식을 통한 Tokenizing이 default이기 때문

 

정규 표현식(Regular Expression 또는 regex)은 문자열 패턴을 검색, 추출 및 조작하기 위해 사용되는 텍스트 처리 도구임. 정규식을 Customize에서 사용할 수 있으나 이 방법은 조금 공부를 해야 함

 

나의 경우 Maximum Words per Phrase(구문을 형성하는 최대 단어 수) 8개로 설정하고 Minimum Character per Word(단어를 표현하는 최소 글자 수) 2개로 설정

 

 

 

빅카인즈 사이트를 통해 "뉴진스"라는 키워드로 3개월 기간의 뉴스 제목 데이터를 예시로 분석

 

Summary Count는 다음과 같이 해석할 수 있다.

 

총 단어(Terms) 수는 4,382개이고 제목(Document)에서 3,154개의 Corpus(말뭉치)가 사용되었다. 말뭉치에서 사용된 총 토큰(Token) 수는 38,918개 이고 제목당 평균 12.33개의 토큰이 사용되었다. 토큰이 사용되지 않은 제목(Document)는 없으므로 Non-Empty Cases도 3,154개이고 비율도 1.0이다.

 

 

 

분석 결과 창에서

 

Term에서 불필요 단어는 "우클릭>>Add Stop Word" 으로 분석에서 제외 가능. 기본적으로 Count가 적은 단어들은 일괄적으로 Add Stop Word 설정하면 됨

 

Phrase(구문에서) 유의미한 것은 선택 "우클릭>>Add Phrase" 으로 Term 영역으로 이동 가능. 이렇게 하는 이유는 Term 영역을 가지고 Word Cloud를 생성하기 때문임

 

Word Cloud의 형태와 색상을 변경할 수 있는데 색상 설정에서 "By Column" 으로 하면 Column 조건(평점, 순위 등)에 따라 색상을 다르게 표현할 수 있음. 예를 들어 평점에 따라 사용된 단어들을 파악하기에 용이함

 

 

 

Term 및 Phrase List 및 Word Cloud에서 원하는 항목을 선택 "우클릭 >> Show Text"를 선택하면 선택된 단어의 원본 문장을 쉽게 볼 수 있어 맥락적으로 중요한 단어 유무를 파악할 수 있어서 용이함

 

 

 

각자 다루는 데이터의 전문 영역이 있음. 이 말은 텍스트 마이닝을 할 때에 불필요 단어나 필요한 분석의 문장들이 다르다는 것임

 

전문 영역에 따라 Stop Word와 Term 분석으로 설정할 Phrase 및 recode를 설정할 수 있음. recode는 분석 자료에서 오타 또는 동일한 맥락의 단어들을 합칠 수 있게 해줌. 영어의 Stemming과 유사하다고 할 수 있겠음

 

"상단 역삼각형>>Term Option>>Manage Stop Words/Phrases/recodes" 에서 각각 설정할 수 있음

 

"Manage Words/Phrases/recodes" 창에서 User 항목에 입력하면 다른 파일 분석 시에도 적용 가능. local에 있는 항목들은 이번 분석 시에 Add Stop Word로 설정한 것.

 

이를 통해 각자 다루는 데이터 특성에 맞게 Text Explorer를 구현할 수 있음.

 

 

 

위에서 설정하면 "사용자\AppData\Roaming\SAS\JMP\TextExplorer\ko" 폴더에 txt 파일로 존재함. 해당 위치에 Corpus 파일로 같이 있음

 

해당 Text 파일을 직접 수정해도 적용 가능 (recodes의 경우에는 구문과 구문 사이는 tab으로 분류되어 있음)

 

 

 

"Save Term Table"은 단어와 Count 값을 가진 별도의 Data Table를 생성하여 아래와 같이 그래프로 표현할 수 있음

 

 

 

텍스트 마이닝 분석 결과를 Document Term Matrix로 저장 가능

 

몇 개의 단어를(Maximum Number of Terms)를 최소 몇 번 자주 사용되었는지(Minimum Term Frequency)를 선택하고 이를 어떠한 형식으로 표현할 것인지(Binary/Ternary/Frequency/log/TF-IDF) 선택하면 메인 Data Table에 해당 값들이 저장

 

이를 통해 예를 들어 평점과 단어의 연관성을 파악하기 위한 "Partition" 분석이나 모델링 및 각 단어들 간의 "Multivariable" 분석 등을 할 수 있다.

 

 

 

예시 파일에서 뉴스가 나온 월과 Bianary 값의 관계를 Partition 기법으로 분석하면 아래와 같다.

 

 

반응형