NPMI와 TF-IDF를 고려한 자동 불용어 생성 기법이 의미론적 일관성에 미치는 영향: 태권도 연구를 중심으로

The Influence of NPMI and TF-IDF-Based Automatic Stopword Generation on Semantic Consistency

Abstract

PURPOSE This study optimized stopword removal to enhance topic modeling performance. We propose an objective method combining normalized pointwise mutual information (NPMI) with median-based term frequency–inverse document frequency (TF–IDF) to automatically generate stopwords. METHODS Using text data from 443 research papers on “Taekwondo sparring,” we selected stopword candidates based on NPMI and identified 30 words with the lowest TF–IDF scores. We examined the impact of removing 1–30 stopwords on u_mass coherence scores. RESULTS The NPMI–TF–IDF method significantly improved coherence (R² = .456; p < .001). However, excessive removal led to diminishing returns, with the optimal coherence score (−11.442) achieved at 200 stopwords. In contrast, manually selected stopwords yielded a lower coherence score (−16.001). The findings indicate that integrating TF–IDF with NPMI effectively preserves meaningful words and outperforms PMI2 and PMI3 approaches. CONCLUSIONS Manual stopword selection can reduce reproducibility. Optimizing stopword removal based on domain-specific characteristics is essential. Future research should validate this method across diverse fields to establish a more generalizable standard.

keywords
Stopwords Topic modeling NPMI TF-IDF Semantic coherence

초록

[목적] 본 연구는 토픽 모델링의 성능을 향상시키기 위해 불용어 제거 방법을 최적화하는 데 초점을 맞추었다. 이를 위해 정규화된 점별 상호정보량(NPMI)과 TF-IDF 기준 중위수를 결합하여 불용어를 자동으로 생성하고 그 효과를 분석하는 데 목적이 있다. [방법] 연구 대상은 ‘태권도 겨루기’를 키워드로 포함하는 443개의 논문에서 추출한 텍스트 데이터이며, NPMI를 활용하여 불용어 후보를 선정한 후 TF-IDF 값이 낮은 순서대로 30개의 불용어를 추출하였다. 이후 불용어 개수를 1개에서 30개까지 순차적으로 증가시키면서 u_mass score 변화를 측정하였다. [결과] NPMI와 TF-IDF를 활용한 불용어 자동 생성 방법이 의미론적 일관성 지표(u_mass score)를 향상시키는 데 긍정적인 영향을 미치는 것으로 나타났다(R² = .456, p < .001). 또한, 불용어 개수가 증가할수록 의미론적 일관성이 향상되는 경향을 보였으나 일정 개수를 초과하면 오히려 성능이 저하되는 수확체감의 법칙(diminishing returns)이 확인되었다. 불용어 200개를 제거했을 때 u_mass score가 가장 높은 값(-11.442)을 기록하였으며, 이는 불용어 개수 최적화의 중요성을 시사한다. 반면, 연구자가 주관적으로 선정한 불용어를 적용한 경우 최적 토픽 수는 5개, u_mass score는 -16.001로 상대적으로 낮은 의미론적 일관성을 보였다. 이러한 결과는 NPMI 기반 불용어 제거의 한계를 보완하기 위해 TF-IDF를 함께 고려해야 함을 시사하며, 기존 PMI2, PMI3 기반 접근법보다 정보량이 높은 단어를 효과적으로 보존할 수 있음을 보여준다. [결론] 연구자에 의한 주관적 불용어 제거는 연구 결과의 재생가능성을 저해하므로 특정 도메인과 데이터 규모에 따라 최적화되어야 할 필요성이 있다. 향후 연구에서는 다양한 도메인에서 본 연구의 방법론을 검증하고 일반화할 필요가 있다.

주요 용어
불용어 토픽 모델링 정규화 점별상호정보량 의미론적 일관성
Submission Date
2025-06-26
Revised Date
2025-11-05
Accepted Date
2025-12-18

logo