平松綾子, 田村慎吾, 大礒洋明, コーデトーイズ, 薦田憲久
電気学会論文誌. C, 電子・情報・システム部門誌 = The transactions of the Institute of Electrical Engineers of Japan. C, A publication of Electronics, Information and System Society 125(7) 1153-1159 2005年7月
本研究では、携帯電話などから入力された日本語の構文を成していない非文法的な文を多く含む自由回答形式アンケートデータから、意外性のある意見を抽出する手法を提案する。非文法的な文を対象とするため、単語単位で文の意図を据えるアプローチをとる。形態素解析を用いて回答文の単語リスト生成し、予め設定した単語の組合せと比較することにより既知の意見であるか判定する。 しかし、単語の組合せが回答文中に含まれているだけでは、その組合せが示す意図を回答文中で正確に表していない可能性がある。また、複数の内容が記入される意見では文章を分割して考える必要があるが、単純に文章を分割できない。そこで、文中の単語の出現順序の差を単語間の距離ととらえ、一定の距離以内に出現した単語の組合せが意味を成すものとし、出現した場所を新たな意味を成す文の始まりとすることで文を分割する。分割されたそれぞれの文を判定し、