研究者業績

中山 雅人

ナカヤマ マサト  (Masato Nakayama)

基本情報

所属
大阪産業大学 デザイン工学部情報システム学科 教授 (副学長)
(兼任)工学研究科 博士前期課程 専攻担当教員
学位
学士(工学)(近畿大学)
修士(工学)(和歌山大学)
博士(工学)(立命館大学)

研究者番号
90511056
J-GLOBAL ID
201601002814105918
researchmap会員ID
7000017209

外部リンク

論文

 124
  • Yuting Geng, Makoto Shimokata, Masato Nakayama, Takanobu Nishiura
    Applied Sciences 14(12) 5241-5241 2024年6月17日  
    With the development of acoustic simulation methods in recent decades, it has become feasible to simulate the sound pressure distribution of loudspeakers before actually setting physical speakers and measuring the sound field. The parametric array loudspeaker (PAL) has attracted attention due to its sharp directivity and unique applications. However, the sound reproduced by PALs is generated by the nonlinear interactions of ultrasound in the air, which makes it difficult to simulate the reproduced sound of a PAL with low computational load. Focusing on the sharp directivity of ultrasound, we extended conventional acoustic ray-tracing methods to consider the self-demodulation phenomenon of PALs. In this study, we developed a visualization method for the demodulated sound of a PAL. Specifically, the demodulated sound pressure distribution can be simulated to estimate and visualize the area covered by the reproduced sound of PAL before setting a real PAL. In the proposed method, acoustic rays were generated sequentially to express the generation of demodulated sound. Therefore, the proposed method is expected to simulate the demodulated sound of a PAL with acceptable accuracy and low calculation complexity. Quantitative evaluation between simulation results and practical measurement has been carried out, and the results demonstrate the effectiveness of the proposed method.
  • Yuting Geng, Masato Nakayama, Takanobu Nishiura
    2023 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) 2023年10月31日  査読有り
  • Takuya Hayashi, Asuto Ueda, Toru Takahashi, Masato Nakayama
    2023 IEEE 12th Global Conference on Consumer Electronics (GCCE) 2023年10月  査読有り最終著者責任著者
  • Toru Takahashi, Kotaro Fukuda, Tomoru Awatani, Masato Nakayama
    2023 IEEE 12th Global Conference on Consumer Electronics (GCCE) 2023年10月  査読有り最終著者
  • Yuting Geng, Shiori Sayama, Masato Nakayama, Takanobu Nishiura
    APSIPA Transactions on Signal and Information Processing 2023年  査読有り

MISC

 192
  • Keisuke Horii, Takahiro Fukumori, Masato, Masato, Nakayama, Takanobu Nishiura, Yoichi Yamashita
    Proc. NCSP 2013 13-16 2013年3月  
    ・本発表では、雑音環境における重み付き反復スペクトルサブトラクションによる音質改善のためのミュージカルノイズ削減手法を検討した。評価実験の結果、提案手法の有効性を確認した。 ・論文執筆の全般を担当。特に理論構築を担当
  • Naoki Yoshimoto, Takahiro Fukumori, Masato Nakayama, Takanobu Nishiura
    Proc. NCSP 2013 169-172 2013年3月  
    ・本発表では、祇園祭のための楽器演奏の放射特性に基づく高臨場感を実現する音場再現手法の評価を行った。評価実験の結果、提案手法の有効性を確認した。 ・論文執筆の全般を担当。特に理論構築を担当
  • 早川 惇, 福森 隆寛, 中山 雅人, 西浦 敬信
    電子情報通信学会技術研究報告 : 信学技報 112(424) 121-126 2013年1月31日  
    音声収録時に,入力信号が収録機器の許容最大振幅を超過するとクリッピングノイズが発生し,収録音声の品質が低下する.このような場合,音声品質を改善するためのクリッピングノイズ抑圧処理が必要となる.従来,音声のクリッピングノイズ抑圧手法として線形予測モデルに基づく手法が提案されているが,クリッピングノイズが大きい場合には予測誤差の累積によって音声の復元性能が低下するという問題があった.そこで本論文では,スペクトル包絡の周波数帯域別補正による音声のクリッピングノイズ抑圧法を提案する.評価実験の結果,音声のクリッピングノイズが大きい場合における提案手法の音質改善性能の有効性を確認した.
  • 吉元 直輝, 福森 隆寛, 中山 雅人, 西浦 敬信
    電子情報通信学会技術研究報告 : 信学技報 112(385) 163-168 2013年1月23日  
    本研究では高品質収録技術を用いて祇園祭のお嘩子をデジタルアーカイブ化し,アーカイブ化した収録音源に対し音響信号処理技術を用いることで祇園唯子の高臨場感再生の実現を目指す.お喉子の収録において,祇園祭が神事であることによりお唯子を構成する楽器別の演奏が難しく,そして各楽器の音圧ダイナミックレンジも大きく異なるために,お唯子の構成楽器を高品質かつ独立に収録することが困難である.そこで各楽器の独立収録を目指して指向性マイクロホンの設置箇所を実験的に検討する多点計測技術に基づいて収録を試みた.収録の結果から各楽器に対してマイクロホンを接近させて設置することで各楽器の独立収録が可能であることを確認した.その他にも祇園祭の雑踏の高品質収録や山鉾巡行時の鉾内部のサラウンド収録を行い,高品質なデジタルアーカイブ化に取り組んだ.そして,アーカイブ化した収録音源に対し多面体スピーカ(11ch出力)を用いて各楽器の音の広がりを再現する.加えて,正十二面対スピーカ(11ch出力)を鉾内で実際に演奏されている位置関係に基づき配置することで,各楽器の位置関係を考慮した高臨場音場再現を試みた.
  • 吉元 直輝, 福森 隆寛, 中山 雅人, 西浦 敬信
    研究報告コンピュータビジョンとイメージメディア(CVIM) 2013(25) 1-6 2013年1月16日  
    本研究では高品質収録技術を用いて祇園祭のお囃子をデジタルアーカイブ化し,アーカイブ化した収録音源に対し音響信号処理技術を用いることで祇園囃子の高臨場感再生の実現を目指す.お囃子の収録において,祇園祭が神事であることによりお囃子を構成する楽器別の演奏が難しく,そして各楽器の音圧ダイナミックレンジも大きく異なるために,お囃子の構成楽器を高品質かつ独立に収録することが困難である.そこで各楽器の独立収録を目指して指向性マイクロホンの設置箇所を実験的に検討する多点計測技術に基づいて収録を試みた.収録の結果から各楽器に対してマイクロホンを接近させて設置することで各楽器の独立収録が可能であることを確認した.その他にも祇園祭の雑踏の高品質収録や山鉾巡行時の鉾内部のサラウンド収録を行い,高品質なデジタルアーカイブ化に取り組んだ.そして,アーカイブ化した収録音源に対し多面体スピーカ(11ch出力)を用いて各楽器の音の広がりを再現する.加えて,正十二面対スピーカ(11ch出力)を鉾内で実際に演奏されている位置関係に基づき配置することで,各楽器の位置関係を考慮した高臨場音場再現を試みた.We attempt the digital archive for festival music signals ("OHAYASHI" in Japanese) in Yamahoko parade. The festival music in Yamahoko parade is consisted of Japanese traditional drum, Japanese traditional flute and Japanese traditional bell. It is difficult to independently record the Japanese traditional flute in simultaneous playing with Japanese traditional instruments because Japanese traditional drum and bell are louder sounds than Japanese traditional flute. To overcome this problem, we attempt to accurately record them with directional micro phones and multiple-track recording technique. We especially record with high-quality not only above instruments, but also ambient noise and inside noise of the float in Yamahoko parade. In addition, we attempt to reproduction of high-realistic acoustic sound field based on the radiation characteristics of musical accompaniment with polyhedron loudspeaker.
  • 中山 雅人
    サウンド (第28) 16-19 2013年1月  招待有り
    ・可聴音の送信波と反射波の位相干渉に基づく距離推定法を用いた音響イメージングに基づくロボットセンサを開発し、それを解説した。
  • 篠原 寿広, 前川 将志, 中山 雅人, 中迫 昇
    International Forum on Medical Imaging in Asia 2012年11月  
  • 福森 隆寛, 吉元 直輝, 中山 雅人
    聴覚研究会資料 = Proceedings of the auditory research meeting 42(7) 579-584 2012年10月13日  
  • 林田 亘平, 中山 雅人, 森勢 将雅, 西浦 敬信, 山下 洋一
    電子情報通信学会技術研究報告. SIP, 信号処理 : IEICE technical report 112(48) 91-96 2012年5月17日  
    本研究ではマイクロホンアレーを用いて対話型ロボットなどに向かって発話された音声を高品質に収録するために,音源の位置を実時間で推定する方法について検討する.従来の音源位置推定法は離散化した空間の各点において周波数毎に処理を行うため,計算量が大きく実時間処理が困難という問題がある.この問題を解決するため,本研究ではあらかじめ低い空間分解能で推定した音源位置付近のみを高い空間分解能で再度走査する空間領域多重解像度走査と周波数に応じて異なる空間分解能を用いる周波数領域多重解像度走査を提案する.実環境における評価実験の結果,2つの提案法を併用することで従来と同等の位置推定性能を維持したまま,実時間処理を実現可能であることを確認した.
  • 小川 純平, 林田 亘平, 中山 雅人, 森勢 将雅, 西浦 敬信, 山下 洋一
    電子情報通信学会技術研究報告. SIP, 信号処理 : IEICE technical report 112(48) 167-172 2012年5月17日  
    近年,高齢者を狙う悪質犯罪の増加に伴い,家族が遠隔地から高齢者の危機的状況を確認するために環境音を利用した異常検出システムが注目されている.従来,環境音識別において,環境音を音の種類ごとに分類して音響モデルを構築し,その音響モデルにより環境音を識別する手法が用いられてきた.従来法では,非日常音に対しても日常音と同様に個々に音響モデルを構築している.しかしながら,非日常音は,観測可能なサンプル数が少ないため,音響モデルの学習が不十分だという問題と類似音の識別が困難であるという問題が存在する.また,従来法では残響の存在しない音(ドライソース)を学習環境音として用いていたため,残響下の環境音を頑健に識別することが困難であった.そこで本研究では,非日常音を高精度に識別するためにマルチステージ非日常音識別法を,残響下の環境音を高精度に識別するために模擬インパルス応答を用いた残響マルチコンディションモデルを提案する.
  • 倉谷 泰弘, 林田 亘平, 中山 雅人, 森勢 将雅, 西浦 敬信, 山下 洋一
    電子情報通信学会技術研究報告. EA, 応用音響 112(47) 185-190 2012年5月17日  
    マルチチャネル2D-CSP法などの従来のマイクロホンアレーを用いた音源位置推定法は,マイクロホン間に生じる音波の到来時間差が,音源の位置に依存して変化することを利用して音源の位置を推定する.しかしながら,室内などの実環境では天井や壁により反射や残響が生じ,その影響で音源位置推定精度が低下するという問題がある.受音信号内で反射音を分離して除外することができれば,残響の影響を低減し,直接音同士の到来時間差のみで高精度な音源位置推定を実現できると期待できる.直接音と反射音を分離するためには,音源からマイクロホンアレーまでのインパルス応答を推定する必要がある.インパルス応答内で直接音は支配的なパワーを持つため,容易に反射音を分離し,除外することで残響の影響を低減することができる.そこで本稿では,ブラインドインパルス応答推定を用いた残響下音源位置推定法を提案する.提案法では受音信号のみを基に,ブラインドインパルス応答推定の一つであるVSS-UMCLMS法でインパルス応答を推定し,その中で反射音を分離して残響を低減した信号を用いて,音源の位置を推定する.提案法の有効性を確認するために実施した評価実験の結果より,提案法において従来法よりも音源位置推定精度が向上したことを確認した.
  • Kohei Hayashida, Masanori Morise, Masato Nakayama, Takanobu Nishiura, Yoichi Yamashita
    Proc. Acoustics 2012 Paper ID:4pSP3 1-6 2012年5月  
    ・本発表では、空間・周波数領域多重解像度走査に基づく実時間近接音源位置推定法を提案した。評価実験の結果、提案手法の有効性を確認した。 ・論文執筆の全般を担当。特に理論構築を担当
  • Takahiro Fukumori, Masanori Morise, Masato Nakayama, Takanobu Nishiura, Yoichi Yamashita
    Proc. Acoustics 2012 Paper ID:4pSP4 1-6 2012年5月  
    ・本発表では、残響下音声認識における話者の個人性を分析・調査した。 ・論文執筆の全般を担当。特に理論構築を担当
  • Junpei Ogawa, Kohei Hayashida, Masanori Morise, Masato Nakayama, Takanobu Nishiura, Yoichi Yamashita
    Proc. Acoustics 2012 Paper ID:4aSP27 1-6 2012年5月  
    ・本発表では、オノマトペ用いたクラスタリン グに基づくマルチステージ危険音検出手法を提案した。評価実験の結果、提案手法の有効性を確認した。 ・論文執筆の全般を担当。特に理論構築を担当
  • Hideya Tsujii, Masanori Morise, Masato Nakayama, Takanobu Nishiura
    Proc. Acoustics 2012 Paper ID:4aSP22 1-6 2012年5月  
    ・本発表では、パラメトリックスピーカの反射 音と間接照明のような残響用スピーカを用いた立体音場再現手法を提案した。評価実験の結果、提案手法の有効性を確認した。 ・論文執筆の全般を担当。特に理論構築を担当
  • Shohei Masunaga, Masanori Morise, Masato Nakayama, Takanobu Nishiura
    Proc. Acoustics 2012 Paper ID:4aSP21 1-6 2012年5月  
    ・本発表では、Log-TSP信号を用いたパラメトリックスピーカの高調波歪みの計測法を提案した。評価実験の結果、提案手法の有効性を確認した。 ・論文執筆の全般を担当。特に理論構築を担当
  • Keisuke Horii, Takahiro Fukumori, Masanori Morise, Masato Nakayama, Takanobu Nishiura, Yoichi Yamashita
    Proc. Acoustics 2012 Paper ID:4aSP24 1-6 2012年5月  
    ・本発表では、スペクトルサブトラクションに おけるミュージカルノイズを低減するためのダイナミック減算の決定法について検討した。評価実験の結果、提案手法の有効性を確認した。 ・論文執筆の全般を担当。特に理論構築を担当
  • Daisuke Ikefuji, Masanori Morise, Masato Nakayama, Takanobu Nishiura
    Proc. Acoustics 2012 Paper ID:4aSP20 1-6 2012年5月  
    ・本発表では、パラメトリックスピーカによる再生音の周波数特性に着目し,その概形を表すスペクトル包絡に基づいて復調率を推定する手法を提案する。評価実験の結果、提案手法の有効性を確認した。 ・論文執筆の全般を担当。特に理論構築を担当
  • Makoto Hayakawa, Masanori Morise, Masato Nakayama, Takanobu Nishiura
    Proc. Acoustics 2012 Paper ID:4aSP10 1-6 2012年5月  
    ・本発表では、各周波数帯域のスペクトル変形に基づくクリッピング音声の復元手法を提案した。評価実験の結果、提案手法の有効性を確認した。 ・論文執筆の全般を担当。特に理論構築を担当
  • Kota Nakano, Masanori Morise, Masato Nakayama, Takanobu Nishiura, Yoichi Yamashita
    Proc. Acoustics 2012 Paper ID:4aSP7 1-4 2012年5月  
    ・本発表では、音場再現のための指向性のある音の合成のためのFDTD法におけるアレー処理について検討した。評価実験の結果、提案手法の有効性を確認した。 ・論文執筆の全般を担当。特に理論構築を担当
  • Naoto Kakino, Takahiro Fukumori, Yasuhiro Kuratani, Masanori Morise, Masato Nakayama, Takanobu Nishiura
    Proc. Acoustics 2012 Paper ID:4aSP23 1-6 2012年5月  
    ・本発表では、音素ラベルを用いたスペクトル復元に基づく遠隔発話音声強調を検討した。評価実験の結果、提案手法の有効性を確認した。 ・論文執筆の全般を担当。特に理論構築を担当
  • 前川 将志, 篠原 寿広, 中山 雅人, 中迫 昇
    電子情報通信学会技術研究報告. MI, 医用画像 111(389) 359-364 2012年1月12日  
  • Masato Nakayama, Takanobu Nishiura, Yoichi Yamashita, Noboru Nakasako
    Proc. inter-noise 2011 Paper ID:Mon-P-19 1-6 2011年9月  
    ・話者位置と雑音位置を推定し、その環境に適した死角形成ビームフォーマを適用する手法を提案した。 ・提案手法の理論構築、実験、執筆の全般を担当
  • 中山 雅人, 西浦 敬信, 山下 洋一, 中迫 昇
    電子情報通信学会技術研究報告. SP, 音声 111(28) 107-112 2011年5月5日  
    近年,雑音環境下における遠隔発話音声認識のための前処理としてマイクロホンアレーを用いたビームフォーミングが注目されている.適応型ビームフォーマは雑音の方位に感度の死角を形成することで,少ないマイクロホン素子でビームフォーミングを実現できるが,話者もしくは雑音源が移動するような環境では,死角制御フィルタ(適応フィルタ)の環境雑音に対する学習が環境の変化に追従できない問題があった.しかし,事前に話者と雑音源の方位が推定可能であれば,環境雑音に対する適応学習を逐次行わなくても雑音の方位に感度の死角を形成することは可能である.そこで,本研究では,話者と雑音源の位置推定を行い,その推定結果と移動予測に基づき事前に設計した複数の死角制御フィルタを用いる複数死角制御型ビームフォーマを提案する.最後に,シミュレーションを行い,提案手法の有用性を確認した.
  • 英 慎平, 中山 雅人, 中迫 昇, 篠原 寿広, 上保 徹志
    電子情報通信学会技術研究報告. EA, 応用音響 110(367) 119-124 2011年1月13日  
    マイクロ波レーダの分野において,送信波と反射波の位相干渉を利用した近距離計測法が知られている.我々はこれを可聴音域に拡張し,静止物体を対象物とした音響測距法を提案し,実環境において様々な実験を行ってきた.しかしながら,実環境において対象物は移動している場合が多い.本研究では,移動物体に対する追跡法を目指して,位相干渉に基づく音響測距法の拡張を検討する.本報告では基礎的検討として,送信波に可聴音のリニアチャープ信号を用い,移動物体に対して時間幅を持つ送信波を放射した場合における測距法のドップラー効果を考慮した理論的な検討を行う.また,計算機シミュレーションを通して提案手法の正当性を検証する.
  • 中迫 昇, 英 慎平, 篠原 寿広, 中山 雅人, 上保 徹志
    電子情報通信学会技術研究報告. EA, 応用音響 110(285) 43-48 2010年11月11日  
    マイクロ波レーダの分野において,送信波と反射波の位相干渉を利用した距離推定法が知られている.我々はこれを可聴音域に拡張し,送信波として主にインパルス音(周波数-振幅特性が一様な確定信号)などを用いた距離推定法について検討してきた.その原理は,送信波と反射波の干渉によって生じる定在波のパワースペクトルが周期関数であり,その周期がマイクロホン-対象物間の距離に逆比例することである.本報告では,送信信号として白色雑音信号を採用し,送信波と反射波間の定在波を用いた距離推定に関して,とくに送信波と測定系の周波数-振幅特性の影響を補正する方法について考察する.具体的には,対象物に向けて放射した場合の観測値のパワースペクトルを,同じ送信波を対象物の無い方向に放射した場合のパワースペクトルで引き算,あるいは割り算(Wienerフィルタ:白色化)することにより,送信音および測定系の周波数-振幅特性の除去を目指す.さらに実音場で距離計測を行い,提案手法の有効性を確認する.
  • 中山 雅人, 中迫 昇
    電子情報通信学会技術研究報告. SIP, 信号処理 : IEICE technical report 110(55) 73-78 2010年5月19日  
    特定の場所の音環境を立体的に再現する技術として,頭部伝達関数(Head Related Transfer Function; HRTF)を事前に計測して適用するバイノーラル方式と任意の位置にある複数の遠隔スピーカを利用するトランスオーラル方式が提案されている.バイノーラル音場再現はヘッドホンの着用が煩わしく,トランスオーラル音場再現は非常に大規模なシステムとなる問題がある.一方,スピーカとその近傍のマイクロホンで収録した直接音と反射音の干渉を利用した距離推定法が提案されている.この距離推定は,スピーカと受聴者の頭部(耳の位置)間の距離の計測に利用できる.この距離情報とスピーカ配置を考慮することで,トランスオーラル方式と比べて小規模な音場再現システムを実現できる可能性がある.そこで本研究では,受聴者の頭部の左右近傍に設置したスピーカーマイクロホン対と直接音と反射音の干渉に基づく距離推定法を利用した音場再現手法を提案する.さらに,理論の正当性を確認するための予備実験と,HRTFにより定位を付与した音声による主観評価実験を行うことで,提案手法の有効性を確認する.
  • 北岡 教英, 山田 武志, 滝口 哲也, 柘植 覚, 山本 一公, 宮島 千代美, 西浦 敬信, 中山 雅人, 傳田遊亀, 藤本 雅清, 田村 哲嗣, 松田 繁樹, 小川 哲司, 黒岩 眞吾, 武田 一哉, 中村哲
    情報処理学会研究報告音声言語情報処理(SLP) 2008(102) 41-46 2008年10月17日  
    我々雑音下音声認識評価ワーキンググループは,2001 年 10 月から情報処理学会音声言語情報処理研究会の下に組織され,数多く研究されている雑音下の音声認識手法を容易に評価・比較可能な標準評価基盤 CENSREC シリーズの開発・配布を行ってきた.本稿ではその CENSREC シリーズを概観し,また主な音声認識研究の発表の場である日本音響学会全国大会および IEEE ICASSP の発表件数調査を踏まえて,その位置づけを確認する.最後に,今後の展望について述べる.We organized a working group under Special Interest Group of Spoken Language Processing in Information Processing Society of Japan have developed evaluation frameworks of noisy speech recognition (CENSREC series) with which one can evaluate his/her own noise-robust speech recognition method and compare it with the others. In this report, we introduce the series and then review the history of the noisy speech recognition researches in ASJ and ICASSP and view the roles of our works in the history. Finally we discuss the future directions.
  • 北岡 教英, 山田 武志, 滝口 哲也, 柘植 覚, 山本 一公, 宮島 千代美, 西浦 敬信, 中山 雅人, 傳田遊亀, 藤本 雅清, 田村 哲嗣, 松田 繁樹, 小川 哲司, 黒岩 眞吾, 武田 一哉, 中村哲
    情報処理学会研究報告音声言語情報処理(SLP) 2007(129) 1-6 2007年12月20日  
    音声認識実用化において,雑音下の音声認識の性能向上が叫ばれている.現在も多くの研究が行われているが,これらの手法を客観的に比較評価する標準評価基盤が必要と考えられる.我々は 2001 年 10 月から情報処理学会音声言語情報処理研究会の下で雑音下音声認識評価ワーキンググループとして活動し,標準評価基盤 CENSREC シリーズを構築・配布している.これまでの CENSREC シリーズを概観し,さらに今年度新たに配付する残響下音声認識評価基盤 CENSREC-4 の概要を述べる.そして,ワーキンググループ最終年度に向けて,今後どのような方針で評価基盤を設計・構築・配付していくのかを述べる.Performance improvement of noisy speech recognition is urgent for practical use of speech recognition and methods for this purpose should be compared on common evaluation frameworks. We organized a working group under Special Interest Group of Spoken Language Processing in Information Processing Society of Japan, to develop evaluation frameworks of noisy speech recognition to compare many methods for processing of noisy speech. In this paper, we review the series of CENSREC series and then introduce the reverberant speech recognition evaluation framework CENSREC-4, the newest CENSREC. Finally we describe the road-maps of future CENSRECs.
  • Hiroaki Ishii, Masato Nakayama, Takanobu Nishiura, Shinichi Nakagawa
    Proc. ICA2007 3057-3062 2007年9月  
    ・音響フレネルレンズと能動騒音制御(ANC)を用いた騒音低減手法を提案した。評価実験の結果、提案手法の有効性を確認した。 ・論文執筆の全般を担当。特に理論構築を担当
  • Takanobu Nishiura, Yoshiki Hirano, Yuki Denda, Masato Nakayama
    Proc. ICA2007 405-410 2007年9月  
    ・遠隔発話音声に対して適した残響指標の検討を行った。評価実験の結果、提案手法の有効性を確認した。 ・論文執筆の全般を担当。特に理論構築を担当
  • 傳田遊亀, 田中 貴雅, 中山 雅人, 西浦 敬信, 山下 洋一
    情報処理学会研究報告音声言語情報処理(SLP) 2007(11) 109-114 2007年2月10日  
    ハンズフリー音声認識において発話区間検出(Voice Activity Detection : VAD)は必要不可欠である。ゼロ交差情報などの時間特徴量に基づいた時間領域 VAD 法は、雑音によって歪みを受けた遠隔発話に対して十分な性能を得られないという問題がある。また、話者方位情報などの空間特徴量に基づいた空間領域 VAD 法は、指向性雑音環境下で大きく性能が劣化するという問題がある。本稿ではこれらの問題を解決するために、時間領域 VAD 法と空間領域 VAD 法を統合することを検討し、話者方位情報とゼロ交差情報に基づいた雑音に頑健な空間-空間領域ハンズフリー VAD 法を提案する。提案手法は、音声の到来方向推定に特化した WCSP (Weighted Cross-power Spectrum Phase)法によって空間安定度と空間信頼度を抽出する。そして、抽出した空間特徴量に基づく適応型ゼロ交差検出法によって発話区間を頑健に検出する。実オフィス環境における評価実験の結果、提案手法は従来手法よりも高い発話区間検出性能を得られることを確認した。Voice activity detection (VAD) is indispensable for hands-free speech recognition. Time domain VAD algorithms based on time domain features such as zero crossing information cannot perform satisfactory VAD performance against distant-talking noisy speech. In addition, spatial domain VAD algorithms based on spatial domain features such as talker direction information provides degraded VAD performance due to directional interferences. To overcome these problems, in this paper, we study to integrate the time domain VAD algorithm and the spatial domain VAD algorithm; therefore, we propose the noise robust time-spatial domain VAD algorithm based on talker direction information and zero crossing information. The proposed algorithm firstly extracts two spatial features: spatial reliability and spatial stability, based on WCSP (Weighted Cross-power Spectrum Phase) analysis. Then, adaptive zero crossing detection based on extracted spatial features robustly detects voice activity frame. As a result of evaluation experiments in an actual office room, we confirmed that the performance of the proposed VAD algorithm is superior to that of the conventional VAD algorithms.
  • 北岡 教英, 山田 武志, 滝口 哲也, 柘植 覚, 山本 一公, 宮島 千代美, 西浦 敬信, 中山 雅人, 傳田 遊亀, 藤本 雅清, 田村 哲嗣, 黒岩 眞吾, 武田 一哉, 中村 哲
    電子情報通信学会技術研究報告. SP, 音声 106(443) 1-6 2006年12月14日  
    雑音下の音声認識の性能向上は音声認識実用化のために急務である.これまでに数多くの研究が行われてきており,これらの手法を客観的に比較評価できる標準評価基盤の構築を目的として,2001年10月,情報処理学会告声言語情報処理研究会の下に雑音下音声認識評価ワーキンググループを組織した.本稿ではこれまでの標準評価基盤CENSRECシリーズを振り返り,今年度新たに配付したCENSREC-1-Cの概要と位置づけを述べる.さらに,今後どのような方針で新たな評価基盤を設計・構築・配付するのかについての考えを述べる.
  • 北岡 教英, 山田 武志, 柘植 覚, 宮島 千代美, 西浦 敬信, 中山 雅人, 傳田遊亀, 藤本 雅清, 山本 一公, 滝口 哲也, 黒岩 眞吾, 武田 一哉, 中村 哲
    情報処理学会研究報告音声言語情報処理(SLP) 2006(107) 1-6 2006年10月20日  
    雑音下における音声認識 音声強調 音声符号化などの音声処理で重要な役割を果たす音声区間検出(Voice Activity Detection;VAD)手法を評価するための基盤としてCENSREC-LCを構築した.これは,雑音下で発声された連続数字音声データとVAD結果の評価を行うツール群からなる.評価方法としては一般的なフレームベースの検出性能評価尺度と音声認識を指向した発話単位の評価尺度を定義した.そして,音声パワーに基づくベースライン手法による川の結果をこれら2つの評価尺度で評価した結果を示した.Voice activity detection (VAD) plays an important role in speech processing including speech recognition, speech enhancement, and speech coding under noisy environment. We developed a evaluation framework for VAD under noisy environments, named CENSREC-1-C. This framework consists of noisy continuous digit utterances and evaluation tools for VAD results. We defined two evaluation measures, one for frame-level detection performance and the other for utterance-level detection perfromance. We showed the evaluation results of a baseline power-based VAD method.
  • 傳田遊亀, 田中 貴雅, 中山 雅人, 西浦 敬信, 山下 洋一
    情報処理学会研究報告音声言語情報処理(SLP) 2006(73) 7-12 2006年7月7日  
    ハンズフリー音声認識において発話区間検出 (VAD : Voice Activity Detection) は必要不可欠である.受音信号の時間情報のみに基づいた従来の時間領域VAD法は,雑音の影響の少ない近接発話では高い性能を得ることが出来る一方,雑音によって大きく歪みを受けた遠隔発話では十分な性能を得られないという問題がある.そこで本稿では,時間情報に基づいた時間領域VAD法と空間情報に基づいた空間領域VAD法を統合することを検討し,雑音に頑健な時間 / 空間領域ハンズフリーVAD法を提案する.提案手法では,ゼロ交差検出 (ZCD : Zero Crossing Detection) 法に基づく時間領域VAD法と,音声信号の到来方向推定に特化したWCSP (Weighted Cross-power Spectrum Phase) 法に基づく空間領域VAD法を統合することで発話区間を検出する.実騒音環境における評価実験の結果,提案手法はハンズフリー環境において,従来手法よりも高い発話区間検出性能を得られることを確認した.Voice activity detection (VAD) is necessary for hands-free speech recognition. Conventional time-domain VAD algorithms based on only time-sequence information of captured signals works well with closed-talking speech. However, it can not achieve the satisfactory VAD performance with noisy distant-talking speech. To overcome this problem, in this paper, we study to integrate the time-domain VAD algorithm based on the time-sequence information and spatial-domain VAD algorithsm based on spatial-sequence information, and propose the noise robust time / spatial-domain VAD algorithm. The zero crossing detection (ZCD) method is employed as a time-domain VAD algorithm and the weighted cross-power spectrum phase (WCSP) analysis proposed for noise robust direction of arrival estimation of the target talker's speech is employed as a spatial-domain VAD algorithms. The proposed hands-free VAD algorithm then performs the hands-free VAD by integrating both ZCD method and WCSP analysis. As a result of evaluation experiments in an actual room, we confirmed that the performance of the proposed VAD is superior to that of the conventional VAD in hands-free environments.
  • Takamasa Tanaka, Yuki Denda, Masato Nakayama, Takanobu Nishiura
    Proc. WESPAC IX 2006 Paper ID:469 1-6 2006年6月  
    ・Weighted CSP分析とゼロ交差特徴量を用いた発話区間検出手法を提案した。評価実験の結果、提案手法の有効性を確認した。 ・論文執筆の全般を担当。特に理論構築を担当
  • Masato NAKAYAMA, Takanobu NISHIURA, Youichi YAMASHITA
    Proc. WESPAC IX 2006 Paper ID:343 1-7 2006年6月  
    ・平均音素に基づく適応型マイクロホンアレーAMNORを用いたハンズフリー音声認識を提案した。評価実験の結果、提案手法の有効性を確認した。 ・提案手法の理論構築、実験、執筆の全般を担当
  • 中山 雅人, 西浦 敬信, 山下 洋一
    日本音響学会研究発表会講演論文集 2005(1) 523-524 2005年3月8日  
  • 中山 雅人, 西浦 敬信, 河原 英紀
    電子情報通信学会技術研究報告. EA, 応用音響 103(251) 39-44 2003年8月8日  
    ハンズフリー音声認識を実現する方法としてマイクロホンアレーによるビームフォーマが注目されている。本研究では、適応形ビームフォーマの1つとして提案されている、AMNOR(Adaptive Microphone-array for NOise Reduction)を利用し、音声を母音と子音に分離して適応フィルタを構築することにより雑音下音声認識性能の改善を試みた。また、提案法では母音/子音フィルタを切り替える必要があるため、母音と子音の判別が非常に重要となる。そこで、音声の母音/子音区間検出にGMM(Gaussian Mixture Model)を用いることで、母音/子音の自動検出を行った。提案法を評価するために、防音室において収録したマイクロホンアレーの信号を用いて音声認識性能の評価実験を行った。その結果、音声が90°方向、白色雑音が50°方向から到来している状況で、SNR 10dBの場合、従来法が約60%の音声認識率であったのが、提案法では約65%の音声認識率となり、約5%の改善を得た。
  • 中山 雅人, 西浦 敬信, 河原 英紀
    日本音響学会研究発表会講演論文集 2003(1) 757-758 2003年3月18日  

講演・口頭発表等

 495

担当経験のある科目(授業)

 17

共同研究・競争的資金等の研究課題

 11

産業財産権

 10

研究テーマ

 3
  • 研究テーマ
    マイクロホンアレー,雑音下音声受音,音声認識
    研究期間(開始)
    2003/04/01
  • 研究テーマ
    能動騒音制御,快音化
    研究期間(開始)
    2007/04/01
  • 研究テーマ
    パラメトリックスピーカ,音場再現,立体音響,音レーダ
    研究期間(開始)
    2009/04/01