並列タイトル等Conversion of Japanese morphological analysis into classification problem and its solving
ニホンゴ ケイタイソ カイセキ ノ クラス ブンルイ モンダイ ヘノ ヘンカン ト ソノ カイホウ
一般注記application/pdf
テクニカルレポート
本論文では日本語形態素解析がクラス分類問題へ変換できることを示し, 決定リストを利用してその問題を解くことを試みる。日本語形態素解析は単語切りとその単語への品詞付けの2つの処理から成り立っている。入力文中の単語を構成している各文字に対して, S(開始文字), M(中間文字), E(終了文字)そしてI(その文字自身が単語)のいずれかの記号を付与することで, 単語切りが可能になる。また品詞ごとに上記4つの記号を用意すれば, 同時に品詞付けも行える。つまり日本語形態素解析は入力文の各文字に, 前述した記号を付与するクラス分類の問題に変換できる。ここでは帰納学習法の1つである決定リストを利用して, 訓練データからクラス分類規則を学習し, その規則を利用して形態素解析を行った。1,000文の解析結果を形態素解析システム「茶筌」による解析結果と比較したところ, ほぼ同等の精度を得た。また「茶筌」による解析結果を本手法により修正するという形をとれば, 最終的に得られた結果は「茶筌」よりも精度が良かった。
In this paper, we propose a new method for Japanese morphological analysis. Here we convert Japanese morphological analysis into classification problem and solve its problem by the decision list method. Japanese morphological analysis consists of two works : word segmentation and assignment of the part of speech to each segmented word. We can segment a sentence into words by assigning one of four signs, which are S(start point of word), M(middle point of word), E(end point of word)and I(the equation of the character and the word), to each characters in each word in the sentence. Moreover, by preparing four signs for every part of speech, we can also assign the part of speech to the word. Therefore, Japanese morphological analysis can be converted into classification problem. By the decision list method, which is inductive learning method of sorts, we can acquire the rule to classify each character into above signs, that is, classes. Last we can conduct Japanese morphological analysis by the acquired rule. In experiment, we compared the result our method conducted for test 1,000 sentences with the result the Chasen sistem did. This experiment showed the former was as good as the latter. Moreover, we used our method to modify the result through Chasen system. As the result, the accuracy of the modified result was improved.
著作権情報情報処理学会
本文データは学協会の許諾に基づきCiNiiから複製したものである
連携機関・データベース国立情報学研究所 : 学術機関リポジトリデータベース(IRDB)(機関リポジトリ)