勝丸 真樹, 中野 幹生, 駒谷 和範, 成松 宏美, 船越 孝太郎, 辻野 広司, 高橋 徹, 尾形 哲也, 奥乃 博
情報処理学会研究報告音声言語情報処理(SLP) 2009(10) 45-50 2009年1月30日
音声対話システムでは,学習データや発話によって適した言語モデル・言語理解方式が異なる. そのため最適なモデル・手法を選び音声理解部を構築することは容易でない.本稿は,複数の言語モデルと言語理解方式とを用いて複数の理解結果を得ることにより,それらから最も良い結果を選択したり,文脈理解部で複数の結果を扱える枠組みを提案する.本枠組みの一つの実装として,言語モデルは文法モデルと単語N-gramモデルの2 種類,言語理解方式はFST とWFST,キーフレーズスポッティングの3 種類を用いて,それらの任意の組合せを用いて音声理解を行い,それらの結果から,発話ごとに適した理解結果を動的に選択し,最終的な理解結果を得るような音声理解システムを構築した.評価実験の結果,単一の言語モデル・言語理解方式を用いたときと比較して言語理解精度を向上することがわかった.Optimal language models (LMs) and language understanding (LU) methods for spoken dialogue systems vary depending on available training data or utterances to handle. Finding their optimal combination is difficult because much data and expertise are required. We developed a framework for improving speech understanding accuracy under various situations by using multiple LMs and LU methods. As its experimental evaluation, We used two LMs such as grammar-based and statistical models, and three LU methods such as finite states transducer (FST), weighted FST (WFST) and keyphrase-spotting. Six speech understanding results are obtained by combining these models and methods, and the most appropriate one was dynamically selected by a decision tree for each utterance. We showed that our method improved speech understanding accuracy compared with those obtained from any combination of single LM and LU method.