研究者業績

高橋 徹

タカハシ トオル  (Takahashi Toru)

基本情報

所属
大阪産業大学 デザイン工学部情報システム学科 教授
学位
博士(工学)(名古屋工業大学)

研究者番号
30419494
J-GLOBAL ID
201201026236304402
researchmap会員ID
7000000887

外部リンク

論文

 115
  • 乾 聡志, 高橋 徹
    電気音響研究会 116(477) 125-130 2017年3月1日  
  • 高橋 徹, 赤塚 俊洋
    大阪産業大学学会論文誌 自然科学分野 128(128) 21-30 2017年3月  査読有り
    Since a large-scale speech corpus is required to train the spontaneous speechrecognition engine, it is required to support the collection of speech data. We show that it is possible to collect spontaneous speech sounds from sounds in television programs. The collected sound shows applicability as speech corpus for training the spontaneous speechrecognition engine. As a result of investigation of the sounds in TV program, we concludethat spontaneous speech sounds can be collected efficiently from the sounds in varietyprograms
  • 高橋 徹
    福祉情報工学研究会 116(360) 17-22 2016年12月7日  
  • 福井 綺花, 乾 聡志, 高橋 徹
    教育工学研究会 116(266) 15-20 2016年10月22日  
  • 田中 大智, 高橋 徹
    第11回日本感性工学会春季大会 2016年3月27日  
  • 浦瀬 弘平, 高橋 徹
    第11回日本感性工学会春季大会 2016年3月26日  
  • 山森 晋, 高橋 徹
    第11回日本感性工学会春季大会 2016年3月26日  
  • 岡本 匡由, 高橋 徹
    情報処理学会第78回全国大会 2016年3月12日  
  • 村上 雄大, 高橋 徹
    情報処理学会第78回全国大会 2016年3月11日  
  • 南絛 浩輝, 高橋 徹, 西崎 博光
    日本音響学会2016年春季研究発表会 2016年3月11日  
  • 高橋 徹
    日本音響学会2016年春季研究発表会 2016年3月9日  
  • 高橋 徹, 能勢 和夫, 塚本 直幸, 吉川 耕司
    福祉情報工学研究会 2015年12月8日  
  • 岡本 匡由, 高橋 徹
    情報処理学会関西支部支部大会2015年 4p 2015年9月28日  
  • 高橋 徹
    日本音響学会2015年春季研究発表会 2015年3月18日  
  • 高橋 徹, 能勢 和夫, 塚本 直幸, 吉川 耕司
    福祉情報工学研究会 114(512) 57-60 2015年3月13日  
    本稿では,ソーシャルネットワークの様なコミュニケーションプラットフォームを用い,ローコストで路面電車の位置を通知するシステムについて述べる.我々はこれまでに,GPSを用いて路面電車の位置を通知するシステムを開発してきた.このシステムは,大阪市から堺市にかけて運行する阪堺電気軌道の路面電車上で試験されている.開発において,低価格で導入/運用可能である点を重視している.何故ならば,ローカルコミュニティが運用する様な予算規模の比較的小さい交通機関への導入を期待しているためである.システムは,情報配信サーバと車載クライアントで構成している.主要な運用コストは,サーバ側では維持管理コスト,クライアント側でサーバへの通信コストである.ソーシャルネットワークサービスの情報配信機能を用い,独自サーバが不要な運用を検討した結果を報告する.
  • 高橋 徹, 能勢 和夫, 塚本 直幸, 吉川 耕司
    福祉情報工学研究会 2014年12月11日  
  • 山田 耕嗣, 高橋 徹
    情報システム学会第10回全国大会研究発表大会論文集 (P003) 2014年11月29日  
    学生の主体的な学び、問題解決型の能動的な授業、実社会体験への取り組みとして、企業と連携し当該企業の製品アイディアを企画する授業を運営した。さらに企業から選抜された学生が実際の製品開発者にプレゼンテーションを行い、社会人基礎力の醸成を図る取り組みを進め、学生アンケートより頭記課題の改善が図れ、企業側の評価を得たことを述べた。
  • 高橋 徹
    日本音響学会2014年秋季研究発表会 1547-1550 2014年9月5日  
  • 樋口 颯
    日本音響学会2014年秋季研究発表会 2014年9月4日  
  • 樋口 颯, 高橋 徹
    信号処理研究会 114(191) 19-24 2014年8月28日  
    本報告では,混合音を検索キーとした音源検索システムにおける検索性能の改善ついて述べる.特徴量間距離にフレーム累積距離を導入することによる効果についての実験結果を示す.混合音から音源信号を検索する問題は,混合音を構成する音源をデータベースから検索する問題である.複数の音源から成る混合音を検索キーとすると,検索結果も複数となる.混合音が,検索キーとして使われる点が本課題の特徴である.本報告では,検索キーは,音楽と音声の2音源が混合された場合の混合音検索について考える.検索キーは,楽曲の任意の位置から構成する.混合音を検索キーとした音源検索システムでは,検索キー中の楽曲を検索する課題と,音声を検索する課題の2つを解く必要がある.本報告は,前者(混合音中の楽曲検索方法)について検討し,検索性能を評価する.検索性能は,平均誤棄却率と平均誤検出率で表す.今回,フレーム累積数を1,10,30,50,100で性能を比較した結果,特徴量間距離にフレーム累積距離を導入することにより性能を改善できることを確認した.フレーム累積数を100,平均誤検出率0.01とした時,最も高い性能を示し,平均誤棄却率0.64を達成できた.
  • 赤塚 俊洋, 高橋 徹
    日本音響学会2014年春季研究発表会 2014年3月12日  
  • 高橋 徹
    日本音響学会2014年春季研究発表会 2014年3月11日  
  • 谷口 哲也, 高橋 徹
    情報処理学会第76回全国大会 2014(1) 185-186 2014年3月11日  
    公共交通機関の位置情報をリアルタイムに配信するシステムは、人々に交通機関の選択・乗り継ぎに関する情報を与えることになり人々の効率よい移動が可能となるなど多くの利点がある。著者らは、大阪府堺市および阪堺電気軌道の協力を得て、低床式車両の位置情報をリアルタイム配信するシステムを開発した。GPS 受信機を低床式車両に設置し、情報配信サーバに現在位置を送信し、情報配信サーバが、HTTP プロトコルを用いて現在位置を配信する。本研究では、実車両にシステムを実装するに当たり直面した問題点およびその解決法をまとめ報告する。
  • 樋口 颯, 高橋 徹
    日本音響学会2013年秋季研究発表会 2013年9月26日  
  • 高橋 徹
    日本音響学会2013年秋季研究発表会 2013年9月25日  
  • 高橋 徹
    日本音響学会2013年春季研究発表会 2013年3月13日  
  • 高橋 徹
    日本音響学会2012年秋季研究発表会 2012年9月19日  
  • Takeshi Mizumoto, Toru Takahashi, Tetsuya Ogata,Array
    Modern Advances in Intelligent Systems and Tools 19-24 2012年  査読有り
  • Ryu Takeda, Kazuhiro Nakadai, Toru Takahashi, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno
    NEURAL COMPUTATION 24(1) 234-272 2012年1月  査読有り
    This letter presents a new algorithm for blind dereverberation and echo cancellation based on independent component analysis (ICA) for actual acoustic signals. We focus on frequency domain ICA (FD-ICA) because its computational cost and speed of learning convergence are sufficiently reasonable for practical applications such as hands-free speech recognition. In applying conventional FD-ICA as a preprocessing of automatic speech recognition in noisy environments, one of the most critical problems is how to cope with reverberations. To extract a clean signal from the reverberant observation, we model the separation process in the short-time Fourier transform domain and apply the multiple input/output inverse-filtering theorem (MINT) to the FD-ICA separation model. A naive implementation of this method is computationally expensive, because its time complexity is the second order of reverberation time. Therefore, the main issue in dereverberation is to reduce the high computational cost of ICA. In this letter, we reduce the computational complexity to the linear order of the reverberation time by using two techniques: (1) a separation model based on the independence of delayed observed signals with MINT and (2) spatial sphering for preprocessing. Experiments show that the computational cost grows in proportion to the linear order of the reverberation time and that our method improves the word correctness of automatic speech recognition by 10 to 20 points in a RT20 = 670 ms reverberant environment.
  • Yusuke Yamamura, Toru Takahashi, Tetsuya Ogata, Hiroshi G. Okuno
    2012 IEEE/RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS (IROS) 2364-2369 2012年  
    Our motivation is to develop a robot that treats auditory information in real environment because auditory information is useful for animated communications or understanding our surroundings. Interactions by using sound information need an aquisition of it and a proper sound source reference between a user and a robot leads to it. Such sound source reference is difficult due to multiple sound sources generating in real environemnt, and we use onomatopoeic representations as a representation for the reference. This paper shows a system that selects a sound source specified by a user from multiple sound sources. Users use onomatopoeias in the specification, and our system separates a mixed sound and converts separated sounds into onomatopoeias for the selection. Onomatopoeais have the ambiguity that each user gives each expression to a certain sound and we create an original similarity based on Minimum Edit Distance and acoustic features for solving its problem. In experiments, our system receives a mixed sound consisting of three sounds and a user's query as inputs, and checks a count of a consistency of a sound source selected by a system and a sound source specified by a user in 100 tests. The result shows our system selects user's required sound source at 49.2%.
  • Zhang Yang, Tetsuya Ogata, Shun Nishide, Toru Takahashi, Hiroshi G. Okuno
    Advanced Robotics 125(17) pp.2127--2141 2011年11月  査読有り
  • Shun Nishide, Tetsuya Ogata, Jun Tani, Toru Takahashi, Hiroshi G. Okuno, Tetsuya Ogata
    IEEE Transactions on Autonomous Mental Development 2011年10月  査読有り
  • Ikkyu Aihara, Ryu Takeda, Takeshi Mizumoto, Takuma Otsuka, Toru Takahashi, Hiroshi G. Okuno, Kazuyuki Aihara
    PHYSICAL REVIEW E 83(4) 2011年4月  査読有り
  • Ikkyu Aihara, Ryu Takeda, Takeshi Mizumoto, Takuma Otsuka, Toru Takahashi, Hiroshi G. Okuno, Kazuyuki Aihara
    PHYSICAL REVIEW E 83(3) 031913 2011年3月  査読有り
    This letter reports synchronization phenomena and mathematical modeling on a frustrated system of living beings, or Japanese tree frogs (Hyla japonica). While an isolated male Japanese tree frog calls nearly periodically, he can hear sounds including calls of other males. Therefore, the spontaneous calling behavior of interacting males can be understood as a system of coupled oscillators. We construct a simple but biologically reasonable model based on the experimental results of two frogs, extend the model to a system of three frogs, and theoretically predict the occurrence of rich synchronization phenomena, such as triphase synchronization and 1:2 antiphase synchronization. In addition, we experimentally verify the theoretical prediction by ethological experiments on the calling behavior of three frogs and time series analysis on recorded sound data. Note that the calling behavior of three male Japanese tree frogs is frustrated because almost perfect antiphase synchronization is robustly observed in a system of two male frogs. Thus, nonlinear dynamics of the three-frogs system should be far from trivial.
  • Hisashi Kanda, Tetsuya Ogata, Toru Takahashi, Kazunori Komatani, Hiroshi G. Okuno
    JRSJ 27(7) 802-813 2011年  査読有り
    This paper proposes a continuous vowel imitation system that explains the process of phoneme acquisition by infants from the dynamical systems perspective. Almost existing models concerning this process dealt with discrete phoneme sequences. Human infants, however, have no knowledge of phoneme innately. They perceive speech sounds as continuous acoustic signals. The imitation target of this study is continuous acoustic signals including unknown numbers and kinds of phonemes. The key ideas of the model are (1) the use of a physical vocal tract model called the Maeda model for embodying the motor theory of speech perception, (2) the use of a dynamical system called the Recurrent Neural Network with Parametric Bias (RNNPB) trained with both dynamics of the acoustic signals and articulatory movements of the Maeda model, and (3) the segmenting method of a temporal sequence using the prediction error of the RNNPB model. The experiments of our model demonstrated following results: (a) the self-organization of the vowel structure into attractors of RNNPB model, (b) the improvement of vowel imitation using movement of the Maeda model, and (c) the generation of clear vowels based on the bubbling process trained with a few random utterances. These results suggest that our model reflects the process of phoneme acquisition.
  • Ryu Takeda, Kazuhiro Nakadai, Toru Takahashi, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno
    JRSJ 27(7) 782-792 2011年  査読有り
    This paper presents a new method based on independent component analysis (ICA) for enhancing a target source and suppressing other interfering sound sources, supposed that the latter are known. The method can provides in a reverberant environment a barge-in-able robot audition system; that is, the user can talk to the robot at any time even when the robot speaks. Our method separates and dereverberates the user's speech and the robot's one by using Multiple Input ICA. The critical issue for real-time processing is to reduce the computational complexity of Multiple Input ICA to the linear order of the reverberation time, which has not been proposed so far. We attain it by exploit the property of the independence relationship between late observed signals and late speech signals. Experimental results show that 1) the computational complexity of our method is less than the naïve Multiple Input ICA method, and that 2) our method improves word correctness of automatic speech recognition under barge-in and reverberant situations; by at most 40 points for reverberation time of 240[ms] and 30 points for 670[ms].
  • 駒谷 和範, 松山 匡子, 武田 龍, 高橋 徹, 尾形 哲也, 奥乃 博
    情報処理学会論文誌 152(12) pp.3374--3385 2011年  査読有り
  • 安良岡 直希, 吉岡 拓也, 糸山 克寿, 高橋 徹, 駒谷 和範, 尾形 哲也, 奥乃 博
    情報処理学会論文誌 152(12) pp.3839--3852 2011年  査読有り
  • Takuma Otsuka, Kazuhiro Nakadai, Toru Takahashi, Tetsuya Ogata, Hiroshi G. Okuno
    EURASIP JOURNAL ON ADVANCES IN SIGNAL PROCESSING 2011 2011年  査読有り
    Our goal is to develop a coplayer music robot capable of presenting a musical expression together with humans. Although many instrument-performing robots exist, they may have difficulty playing with human performers due to the lack of the synchronization function. The robot has to follow differences in humans' performance such as temporal fluctuations to play with human performers. We classify synchronization and musical expression into two levels: (1) melody level and (2) rhythm level to cope with erroneous synchronizations. The idea is as follows: When the synchronization with the melody is reliable, respond to the pitch the robot hears, when the synchronization is uncertain, try to follow the rhythm of the music. Our method estimates the score position for the melody level and the tempo for the rhythm level. The reliability of the score position estimation is extracted from the probability distribution of the score position. The experimental results demonstrate that our method outperforms the existing score following system in 16 songs out of 20 polyphonic songs. The error in the prediction of the score position is reduced by 69% on average. The results also revealed that the switching mechanism alleviates the error in the estimation of the score position.
  • 水本 武志, 辻野 広司, 高橋 徹, 駒谷 和範, 尾形 哲也, 奥乃 博
    情報処理学会論文誌 51(10) pp.2007--2019 2010年10月  査読有り
  • Takuma Otsuka, Kazuhiro Nakadai, Toru Takahashi, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno
    PALADYN Journal of Behavioral Robotics 1(1) pp.80-88 2010年3月  査読有り
  • Toru Takahashi, Kazuhiro Nakadai, Kazunori Komatani, Tetsuya Ogata,Array
    Paladyn 1(1) 37-47 2010年1月  査読有り
  • Kazuhiro Nakadai, Toru Takahashi, Hiroshi G. Okuno, Hirofumi Nakajima, Yuji Hasegawa, Hiroshi Tsujino
    ADVANCED ROBOTICS 24(5-6) 739-761 2010年  査読有り
    This paper presents the design and implementation of the HARK robot audition software system consisting of sound source localization modules, sound source separation modules and automatic speech recognition modules of separated speech signals that works on any robot with any microphone configuration. Since a robot with ears may be deployed to various auditory environments, the robot audition system should provide an easy way to adapt to them. HARK provides a set of modules to cope with various auditory environments by using an open-sourced middleware, FlowDesigner, and reduces the overheads of data transfer between modules. HARK has been open-sourced since April 2008. The resulting implementation of HARK with MUSIC-based sound source localization, GSS-based sound source separation and Missing Feature Theory-based automatic speech recognition on Honda ASIMO, SIG2 and Robovie R2 attains recognizing three simultaneous utterances with the delay of 1.9 s at the word correct rate of 80-90% for three speakers. (C) Koninklijke Brill NV, Leiden and The Robotics Society of Japan, 2010
  • 日下 航, 尾形 哲也, 小島 秀樹, 高橋 徹, 奥乃 愽
    日本ロボット学会誌 27(4) pp.532--543 2010年  査読有り
  • Hisashi Kanda, Tetsuya Ogata, Toru Takahashi, Kazunori Komatani, Hiroshi G. Okuno
    2009 IEEE/RSJ International Conference on Intelligent Robots and Systems 2009年10月  査読有り
  • Shun Nishide, Tatsuhiro Nakagawa, Tetsuya Ogata, Jun Tani, Toru Takahashi, Hiroshi G. Okuno
    2009 IEEE/RSJ International Conference on Intelligent Robots and Systems 2009年10月  査読有り
  • Wataru Hinoshita, Tetsuya Ogata, Hideki Kozima, Hisashi Kanda, Toru Takahashi, Hiroshi G. Okuno
    2009 IEEE/RSJ International Conference on Intelligent Robots and Systems 2009年10月  査読有り
  • Ryu Takeda, Kazuhiro Nakadai, Toru Takahashi, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno
    2009 IEEE/RSJ International Conference on Intelligent Robots and Systems 2009年10月  査読有り
  • Takeshi Mizumoto, Hiroshi Tsujino, Toru Takahashi, Tetsuya Ogata, Hiroshi G. Okuno
    2009 IEEE/RSJ International Conference on Intelligent Robots and Systems 2009年10月  査読有り
  • Toru Takahashi, Kazuhiro Nakadai, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno
    2009 IEEE/RSJ International Conference on Intelligent Robots and Systems 2009年10月  査読有り

MISC

 71
  • 乾 聡志, 高橋 徹
    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 116(477) 129-134 2017年3月1日  
  • 高橋徹, 山田耕嗣
    大阪産業大学論文集, 自然科学編 128(128) 31-40 2017年3月  
    我々は,可聴周波数帯域での振幅変調に基づく信号伝送システムの設計と実装について述べる。典型的な振幅変調に基づく信号伝送システムでは,信号は,非常に高い周波数によって変調される。我々のシステムは,2から20000Hzの間の可聴信号のような非常に低い周波数を用いる。我々は,可聴帯域で信号を伝送可能であることを実験で示した。We describe a design and an implementation of a signal transmission system based on the amplitude modulation in audible frequency bands. In conventional signal transmission system based on the amplitude modulation, signal is modulated by very high frequency.Our system uses very low frequency, such as audible signal between 2 and 20000Hz. We experimentally show that it is possible to transmit based on the audible bands.
  • 高橋 徹, 能勢 和夫, 塚本 直幸
    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 115(354) 43-46 2015年12月8日  
  • 高橋 徹, 能勢 和夫, 塚本 直幸, 吉川 耕司
    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 114(357) 57-62 2014年12月11日  
    本稿では,GPSを用いた路面電車の位置を通知するシステムの開発と評価について述べ,設計思想を示す.最も重要な設計思想は,容易に入手可能な汎用品を用いてシステムを構成する点である.何故ならば,バスやタクシーや電車のような他の交通機関への導入が推進されることを狙っているためである.本コンセプトに基づくプロトタイプシステムを開発し,阪堺電気軌道で試験サービスを実施し評価した.位置情報を地図上に表す時の測位値をそのまま地図上に表示する替わりに,推定誤差軽減のためマップマチングアルゴリズムを用いて補正した.またマップマッチングアルゴリズムに用いるアンカーポイント間の間隔について評価している.以上の評価に基づきシステムをチューニングした結果,最大誤差で100mで,情報表示までの遅延を3秒程度に抑えることができた.
  • 阿曽 慎平, 齋藤 毅, 後藤 真孝, 糸山 克寿, 高橋 徹, 尾形 哲也, 奥乃 博
    研究報告音楽情報科学(MUS) 2012(13) 1-8 2012年1月27日  
    本稿では,歌声と朗読音声を識別するシステムについて述べる.入力は無雑音音声,出力は歌声と朗読音声それぞれの尤度 (連続値) である.従来,スペクトル包絡 (MFCC) と基本周波数 (F0) の時間変化に基づいた識別システムが報告されている.これらの特徴量に基づく識別器に,スペクトル変化量のピーク間隔という,音素継続時間に関連する特徴量に基づく識別器を加え,入力音声長に応じて各識別器への重みを変化させた.実験の結果,従来システムでは1秒の音声に対し 86.7% の精度であったのに対し,本システムでは 90.2% という結果を得た.本システムが実時間で動作するデモアプリケーションについても述べる.In this paper we describe a system that discriminates between singing and speaking voices. Given a clean speech signal, it outputs the likelihood of each of the singing and speaking voices. Previous systems use temporal transition of spectral envelope (MFCC) and fundamental frequency (F0) as discrimina- tion features. Our system adds peak interval of spectral change as a phoneme duration feature and weights these features according to the duration of the input speech signal. Experimental results with one-second speech signal show that our system achieves 90.2 % accuracy compared to 86.7 % with previous systems. We also describe a real-time application demonstrating our system.

書籍等出版物

 8

講演・口頭発表等

 79

担当経験のある科目(授業)

 18

所属学協会

 6

Works(作品等)

 1

共同研究・競争的資金等の研究課題

 14

産業財産権

 2

研究テーマ

 1
  • 研究テーマ
    ヒューマンロボットインタラクション,音声コミュニケーション,音声認識,音環境理解,
    キーワード
    マイクロホンアレイ,音響特徴量,音声認識,音源定位,音源分離
    概要
    ロボットと人の自然な対話を実環境において実現するための課題に取り組んでいる