福森 隆寛, 中山 雅人, 西浦 敬信, 山下 洋一
電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 113(452) 7-12 2014年2月28日
実環境において音声認識システムを利用すると,残響などの影響を受けて音声認識性能が著しく劣化する.耐残響に関するアプローチの1つとして,残響音声を音響モデルの学習に用いる手法が広く研究されており,特に従来は残響時間が異なる環境の残響音声から複数の音響モデルを構築する手法が利用されてきた.しかし,音声認識性能は発話者とマイクロホン間の位置関係に大きく依存するため,同一室内で固有の値を有する残響時間だけでは,適切な音響モデルの学習に限界があると考えられる.そこで,本研究では,室内音響指標に基づいて残響下音声認識における最適な音響モデルの構築・選択手法を提案する.提案手法では,発話者とマイクロホン間の位置関係に依存して変動する室内音響指標のD値に着目し,このD値が異なるようにインパルス応答を複数計測する.そして,学習環境で計測したインパルス応答を残響時間,あるいはD値ごとに分類して複数の音響モデルを構築する.その後,テスト環境のインパルス応答から算出した残響時間とD値に基づいて,学習環境と最も近い音響モデルを選択して音声認識を行う.評価実験結果より,提案手法のような音声認識性能と相関がある室内音響指標のD値を用いることで,従来法よりも音声認識性能が改善し,利用環境によりマッチドな音響モデルを構築・選択できることを確認した.