著者・編者新納, 浩幸 / 佐々木, 稔
SHINNOU, Hiroyuki / SASAKI, Minoru
並列タイトル等Ping-Pong Document Clustering by using NMF and Linkage Based Refinement
NMF ト リンク ベース ノ シュウセイホウ ニ ヨル ピンポンガタ ブンショ クラスタリング
一般注記application/pdf
テクニカルレポート
Non-negative Matrix Factorization(NMF)は効果的な文書クラスタリング手法である。本論文ではNMFの精度をさらに高めるために、NMFとリンクベースの修正法を交互に適用するピンポン型文書クラスタリング手法を提案する。NMFをピンポン型で利用することで、効果的な文書クラスタリングが期待できるが、 NMFは入力のクラスタリング結果を改善できない場合も多く、ピンポン型で利用すると悪影響も多い。ここでは、ピンポンの終了条件の設定でこの問題に対処する。具体的には、リンクベースの修正法の適用の後に、設定した評価関数の値が改善されたかどうかでピンポンの終了を判定する。もし改善されていなければ、ピンポンを終了し、前回のリンクベースの修正法を行った後の結果を最終的なクラスタリング結果とする。これによって、NMFを利用した効果的なピンポン型クラスタリングが可能となる。実験では16個の文書データセットを利用して、本手法をk-meansやNMFと比較した。基本となるNMFの結果を大きく改善できた。
Non-negative Matrix Factorization (NMF) is a powerful document clustering method. This paper proposes a ping-pong document clustering method using NMF and the linkage based refinement alternately, in order to improve the clustering result of NMF. The use of NMF in the ping-pong strategy can be expected effective for document clustering. However, NMF in the ping-pong strategy often worsens performance because NMF often fails to improve the clustering result given as the initial values. Our method handles this problem with the stop condition of the ping-pong process. Concretely speaking, our method decides the stop/continue of the ping-pong process by the value of an object function for the clustering result produced by the linkage based refinement. If that value is not improved, our method stops the ping-pong process, and outputs the clustering result produced by the linkage based refinement in the previous ping-pong process. By this setting, our method can use NMF in the ping-pong strategy. In the experiment, we compared our method with the k-means and NMF by using 16 document data sets. Our method improved the clustering result of NMF significantly.
著作権情報情報処理学会
本文データは学協会の許諾に基づきCiNiiから複製したものである
連携機関・データベース国立情報学研究所 : 学術機関リポジトリデータベース(IRDB)(機関リポジトリ)