研究者業績

高橋 徹

タカハシ トオル  (Takahashi Toru)

基本情報

所属
大阪産業大学 デザイン工学部情報システム学科 教授
学位
博士(工学)(名古屋工業大学)

研究者番号
30419494
J-GLOBAL ID
201201026236304402
researchmap会員ID
7000000887

外部リンク

論文

 115

MISC

 71
  • Takeshi Mizumoto, Takuma Otsuka, Kazuhiro Nakadai, Toru Takahashi, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno
    IEEE/RSJ 2010 INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS (IROS 2010) 1957-1963 2010年  査読有り
    This paper presents a novel synchronizing method for a human-robot ensemble using coupled oscillators. We define an ensemble as a synchronized performance produced through interactions between independent players. To attain better synchronized performance, the robot should predict the human's behavior to reduce the difference between the human's and robot's onset timings. Existing studies in such synchronization only adapts to onset intervals, thus, need a considerable time to synchronize. We use a coupled oscillator model to predict the human's behavior. Experimental results show that our method reduces the average of onset time errors; when we use a metronome, a tempo-varying metronome or a human drummer, errors are reduced by 38%, 10% or 14% on the average, respectively. These results mean that the prediction of human's behaviors is effective for the synchronized performance.
  • Angelica Lim, Takeshi Mizumoto, Louis-Kenzo Cahier, Takuma Otsuka, Toru Takahashi, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno
    IEEE/RSJ 2010 INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS (IROS 2010) 1964-1969 2010年  査読有り
    Musicians often have the following problem: they have a music score that requires 2 or more players, but they have no one with whom to practice. So far, score-playing music robots exist, but they lack adaptive abilities to synchronize with fellow players' tempo variations. In other words, if the human speeds up their play, the robot should also increase its speed. However, computer accompaniment systems allow exactly this kind of adaptive ability. We present a first step towards giving these accompaniment abilities to a music robot. We introduce a new paradigm of beat tracking using 2 types of sensory input - visual and audio - using our own visual cue recognition system and state-of-the-art acoustic onset detection techniques. Preliminary experiments suggest that by coupling these two modalities, a robot accompanist can start and stop a performance in synchrony with a flutist, and detect tempo changes within half a second.
  • Toru Takahashi, Kazuhiro Nakadai, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno
    IEEE/RSJ 2010 INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS (IROS 2010) 964-969 2010年  査読有り
    We describe integration of preprocessing and automatic speech recognition based on Missing-Feature-Theory (MFT) to recognize a highly interfered speech signal, such as the signal in a narrow angle between a desired and interfered speakers. As a speech signal separated from a mixture of speech signals includes the leakage from other speech signals, recognition performance of the separated speech degrades. An important problem is estimating the leakage in time-frequency components. Once the leakage is estimated, we can generate missing feature masks (MFM) automatically by using our method. A new weighted sigmoid function is introduced for our MFM generation method. An experiment shows that a word correct rate improves from 66 % to 74 % by using our MFM generation method tuned by a search base approach in the parameter space.
  • Shun Nishide, Tetsuya Ogata, Jun Tani, Toru Takahashi, Kazunori Komatani, Hiroshi G. Okuno
    IEEE/RSJ 2010 INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS (IROS 2010) 2010年  査読有り
    Predictability is an important factor for determining robot motions. This paper presents a model to generate robot motions based on reliable predictability evaluated through a dynamics learning model which self-organizes object features. The model is composed of a dynamics learning module, namely Recurrent Neural Network with Parametric Bias (RNNPB), and a hierarchical neural network as a feature extraction module. The model inputs raw object images and robot motions. Through bi-directional training of the two models, object features which describe the object motion are self-organized in the output of the hierarchical neural network, which is linked to the input of RNNPB. After training, the model searches for the robot motion with high reliable predictability of object motion. Experiments were performed with the robot's pushing motion with a variety of objects to generate sliding, falling over, bouncing, and rolling motions. For objects with single motion possibility, the robot tended to generate motions that induce the object motion. For objects with two motion possibilities, the robot evenly generated motions that induce the two object motions.
  • Yasuharu Hirasawa, Toru Takahashi, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno
    IEEE/RSJ 2010 INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS (IROS 2010) 450-457 2010年  査読有り
    In real-world situations, a robot may often encounter "under-determined" situation, where there are more sound sources than microphones. This paper presents a speech separation method using a new constraint on the harmonic structure for a simultaneous speech-recognition system in under-determined conditions. The requirements for a speech separation method in a simultaneous speech-recognition system are (1) ability to handle a large number of talkers, and (2) reduction of distortion in acoustic features. Conventional methods use a maximum likelihood estimation in sound source separation, which fulfills requirement (1). Since it is a general approach, the performance is limited when separating speech. This paper presents a two-stage method to improve the separation. The first stage uses maximum likelihood estimation and extracts the harmonic structure, and the second stage exploits the harmonic structure as a new constraint to achieve requirement (2). We carried out an experiment that simulated three simultaneous utterances using impulse responses recorded by two microphones in an anechoic chamber. The experimental results revealed that our method could improve speech recognition correctness by about four points.
  • 前澤 陽, 糸山 克寿, 高橋 徹, 尾形 哲也, 奥乃 博
    研究報告音楽情報科学(MUS) 2009(5) 1-6 2009年7月22日  
    本報告ではコンテキストベースの規則と音響信号を併用したバイオリン演奏弦系列推定手法を提案する.音響信号から演奏弦系列を推定し,それの規則に合わない箇所を訂正することにより認識率の向上を図る.6 楽節での実験の結果,学習データと同一の弦の場合最大8%,平均 5%,別の銘柄の弦の場合最大 15%,平均 7% の認識率の向上が確認される.We present a violin bowed string sequence identification method by combining context-based rules and audio-based bowed string estimator. Using audio-based estimator followed by error correction using context-based rules increases the accuracy of the estimator. Using six musical phrases, we confirm that the accuracy increases on average by 5% (max. 8%) when using the set of strings used for training, and, when using different brand of strings than that used for training, confirm 7% increase on average (max. 15%).
  • 安良岡 直希, 糸山 克寿, 高橋 徹, 尾形 哲也, 奥乃 博
    研究報告音楽情報科学(MUS) 2009(10) 1-6 2009年7月22日  
    本報告書では,楽器演奏音響信号の分析合成における,入力中の伴奏音や残響成分を抑制した分析手法を報告する.対象演奏パートの楽譜情報に合致しないスペクトル成分を表現する残差スペクトルモデルを導入し, これを用いて伴奏や残響を含む音響信号から対象の演奏を効率よく分離する. 調波非調波統合音モデルに用いた演奏分析をこの分離と同時に行い, 分析された音モデルを用いて未知楽譜への演奏を合成する.評価実験では, 伴奏付き演奏に対する分析精度が本手法によりスペクトル距離において平均 35.2% 改善し, また残響を含む演奏に対する分析合成精度の低下を回避できる事が確認された.This paper presents a musical performance analysis-and-synthesis method using residual model for reduction of accompaniment or sound reverberation. The residual model is designed for representing spectrum that the score does not convey about the performance. This leads to an efficient extraction of a performed part from accompanied and/or reverberant audio source. The extraction is performed simultaneously with estimation of musical tone models that represent both harmonic and inharmonic sound of the performance. Using the estimated tone models, a new performance sound corresponding to a new given score is synthesized. An experiment showed that the spectral distance of one instrument part extracted from polyphonic audio source improved by 35.0 points by incorporating the residual model. Another result showed the effectiveness of our method under reverberant source.
  • 水本 武志, 合原 一究, 高橋 徹, 尾形 哲也, 奥乃 博
    全国大会講演論文集 71 169-170 2009年3月10日  
  • 高橋 徹, 中臺 一博, 駒谷 和範, 尾形 哲也, 奥乃 博
    全国大会講演論文集 71 35-36 2009年3月10日  
  • 中川 達裕, 尾形 哲也, 谷 淳, 高橋 徹, 奥乃 博
    全国大会講演論文集 71 53-54 2009年3月10日  
  • 勝丸 真樹, 中野 幹生, 駒谷 和範, 成松 宏美, 船越 孝太郎, 辻野 広司, 高橋 徹, 尾形 哲也, 奥乃 博
    全国大会講演論文集 71 117-118 2009年3月10日  
  • 池田 智志, 駒谷 和範, 高橋 徹, 尾形 哲也, 奥乃 博
    全国大会講演論文集 71 121-122 2009年3月10日  
  • 神田 尚, 尾形 哲也, 高橋 徹, 駒谷 和範, 奥乃 博
    全国大会講演論文集 71 133-134 2009年3月10日  
  • 安良岡 直希, 安部 武宏, 糸山 克寿, 高橋 徹, 尾形 哲也, 奥乃 博
    全国大会講演論文集 71 217-218 2009年3月10日  
  • 安部 武宏, 糸山 克寿, 高橋 徹, 駒谷 和範, 尾形 哲也, 奥乃 博
    全国大会講演論文集 71 219-220 2009年3月10日  
  • 前澤 陽, 糸山 克寿, 高橋 徹, 尾形 哲也, 奥乃 博
    全国大会講演論文集 71 221-222 2009年3月10日  
  • 大塚 琢馬, 村田 和真, 武田 龍, 中臺 一博, 高橋 徹, 尾形 哲也, 奥乃 博
    全国大会講演論文集 71 243-244 2009年3月10日  
  • 水本 武志, 辻野 広司, 高橋 徹, 尾形 哲也, 奥乃 博
    全国大会講演論文集 71 717-718 2009年3月10日  
  • 合原 一究, 武田 龍, 水本 武志, 高橋 徹, 合原 一幸, 奥乃 博
    電子情報通信学会技術研究報告. NC, ニューロコンピューティング 108(480) 335-339 2009年3月4日  
    ニホンアマガエルは日本全域に生息しており、春から夏にかけて水田などで鳴く様子を広く観察できる。オスのアマガエルは単独では周期的に鳴く一方で、目の後方に鼓膜を備えており周囲の音声を認識できる。そのため、多数のアマガエルが鳴き交わす状況は単独では周期的に振る舞う自励振動子が互いに影響を及ぼしあう系、すなわち結合振動子系として数理的には理解できるだろう。著者らは、アマガエルの自発的な発声行動を調べる実験を行ない、2匹では交互にほぼ逆位相πで同期して鳴く現象を新たに発見した。一方で、数理モデルを用いた解析を行ない、上記実験結果を安定な逆相同期状態として定性的に説明できることを示した。本稿では、アマガエル3体系の発声行動に関する数理モデリングとその分岐解析およびリアプノブ関数解析を中心に紹介する。アマガエルの場合、2匹ではほぼ逆位相で同期して鳴くため、3体系ではフラストレーションが起こり、その振る舞いは自明ではない。
  • 勝丸 真樹, 中野 幹生, 駒谷 和範, 成松 宏美, 船越 孝太郎, 辻野 広司, 高橋 徹, 尾形 哲也, 奥乃 博
    情報処理学会研究報告音声言語情報処理(SLP) 2009(10) 45-50 2009年1月30日  
    音声対話システムでは,学習データや発話によって適した言語モデル・言語理解方式が異なる. そのため最適なモデル・手法を選び音声理解部を構築することは容易でない.本稿は,複数の言語モデルと言語理解方式とを用いて複数の理解結果を得ることにより,それらから最も良い結果を選択したり,文脈理解部で複数の結果を扱える枠組みを提案する.本枠組みの一つの実装として,言語モデルは文法モデルと単語N-gramモデルの2 種類,言語理解方式はFST とWFST,キーフレーズスポッティングの3 種類を用いて,それらの任意の組合せを用いて音声理解を行い,それらの結果から,発話ごとに適した理解結果を動的に選択し,最終的な理解結果を得るような音声理解システムを構築した.評価実験の結果,単一の言語モデル・言語理解方式を用いたときと比較して言語理解精度を向上することがわかった.Optimal language models (LMs) and language understanding (LU) methods for spoken dialogue systems vary depending on available training data or utterances to handle. Finding their optimal combination is difficult because much data and expertise are required. We developed a framework for improving speech understanding accuracy under various situations by using multiple LMs and LU methods. As its experimental evaluation, We used two LMs such as grammar-based and statistical models, and three LU methods such as finite states transducer (FST), weighted FST (WFST) and keyphrase-spotting. Six speech understanding results are obtained by combining these models and methods, and the most appropriate one was dynamically selected by a decision tree for each utterance. We showed that our method improved speech understanding accuracy compared with those obtained from any combination of single LM and LU method.
  • 水本 武志, 武田 龍, 吉井 和佳, 高橋 徹, 駒谷 和範, 尾形 哲也, 奥乃 博
    日本ロボット学会 第26回学術講演会 2008年9月  

書籍等出版物

 8

講演・口頭発表等

 79

担当経験のある科目(授業)

 18

所属学協会

 6

Works(作品等)

 1

共同研究・競争的資金等の研究課題

 14

産業財産権

 2

研究テーマ

 1
  • 研究テーマ
    ヒューマンロボットインタラクション,音声コミュニケーション,音声認識,音環境理解,
    キーワード
    マイクロホンアレイ,音響特徴量,音声認識,音源定位,音源分離
    概要
    ロボットと人の自然な対話を実環境において実現するための課題に取り組んでいる