研究者業績

高橋 徹

タカハシ トオル  (Takahashi Toru)

基本情報

所属
大阪産業大学 デザイン工学部情報システム学科 教授
学位
博士(工学)(名古屋工業大学)

研究者番号
30419494
J-GLOBAL ID
201201026236304402
researchmap会員ID
7000000887

外部リンク

論文

 115
  • Takuma Otsuka, Toru Takahashi, Hiroshi G. Okuno, Kazunori Komatani, Tetsuya Ogata, Kazumasa Murata, Kazuhiro Nakadai
    2009 IEEE/RSJ International Conference on Intelligent Robots and Systems 2009年10月  査読有り
  • 合原 一究, 武田 龍, 水本 武志, 高橋 徹, 奥乃 博
    数理解析研究所講究録 1663 153-158 2009年9月  
  • Shun Shiramatsu, Yuji Kubota, Kazunori Komatani, Tetsuya Ogata, Toru Takahashi, Hiroshi G. Okuno
    Opportunities and Challenges for Next-Generation Applied Intelligence, Studies in Computational Intelligence Springer-Verlag 214 111-117 2009年5月  査読有り
  • Ryu Takeda, Kazuhiro Nakadai, Toru Takahashi, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno
    2009 IEEE International Conference on Acoustics, Speech and Signal Processing 3677-+ 2009年4月  査読有り
  • Hisashi Kanda, Tetsuya Ogata, Toru Takahashi, Kazunori Komatani, Hiroshi G. Okuno
    ICRA: 2009 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION, VOLS 1-7 4036-4041 2009年  査読有り
    A continuous vocal imitation system was developed using a computational model that explains the process of phoneme acquisition by infants. Human infants perceive speech sounds not as discrete phoneme sequences but as continuous acoustic signals. One of critical problems in phoneme acquisition is the design for segmenting these continuous speech sounds. The key idea to solve this problem is that articulatory mechanisms such as the vocal tract help human beings to perceive speech sound units corresponding to phonemes. To segment acoustic signal with articulatory movement, we apply the segmenting method to our system by Recurrent Neural Network with Parametric Bias (RNNPB). This method determines the multiple segmentation boundaries in a temporal sequence using the prediction error of the RNNPB model, and the PB values obtained by the method can be encoded as kind of phonemes. Our system was implemented by using a physical vocal tract model, called the Maeda model. Experimental results demonstrated that our system can self-organize the same phonemes in different continuous sounds, and can imitate vocal sound involving arbitrary numbers of vowels using the vowel space in the RNNPB. This suggests that our model reflects the process of phoneme acquisition.
  • Naoki Yasuraoka, Takehiro Abe, Katsutoshi Itoyama, Toru Takahashi, Array,Array
    Proceedings of the 17th International Conference on Multimedia 2009, Vancouver, British Columbia, Canada, October 19-24, 2009 203-212 2009年  査読有り
  • Shun Shiramatsu, Tadachika Ozono, Toramatsu Shintani, Kazunori Komatani, Tetsuya Ogata, Toru Takahashi, Hiroshi G. Okuno
    2009 International Conference on Computational Science and Engineering 2009年  査読有り
  • Takuma Otsuka, Kazuhiro Nakadai, Toru Takahashi, Kazunori Komatani, Array,Array
    9th IEEE-RAS International Conference on Humanoid Robots, Humanoids 2009, Paris, France, December 7-10, 2009 405-410 2009年  査読有り
  • Ryu Takeda, Kazuhiro Nakadai, Toru Takahashi, Kazunori Komatani, Array,Array
    9th IEEE-RAS International Conference on Humanoid Robots, Humanoids 2009, Paris, France, December 7-10, 2009 250-255 2009年  査読有り
  • Akira Maezawa, Katsutoshi Itoyama, Toru Takahashi, Tetsuya Ogata, Hiroshi G. Okuno
    2009 11th IEEE International Symposium on Multimedia 2009年  査読有り
  • 森勢 将雅, 高橋 徹, 河原 英紀, 入野 俊夫
    電子情報通信学会 和文A 分冊 J92-A(3) pp.163--171 2009年  査読有り
  • Toru Takahashi, Shun'ichi Yamamoto, Kazuhiro Nakadai, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno
    INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5 1(1) 992-+ 2008年  査読有り
  • Toru Takahashi, Toshio Irino, Hideki Kawahara
    19th International Congress on Acoustics (ICA2007) , Madrid, Spain, 2-7 Sept. 2007 2007年9月  査読有り
    (発表日 2 Sept.)
  • Hideki Banno, Hiroaki Hata, Masanori Morise, Toru Takahashi, Toshio Irino, Hideki Kawahara
    Acoustical Science and Technology 28 140-146 2007年5月8日  
    A very high quality speech analysis, modification and synthesis system - STRAIGHT - has now been implemented in C language and operated in realtime. This article first provides a brief summary of STRAIGHT components and then introduces the underlying principles that enabled realtime operation. In STRAIGHT, the built-in extended pitch synchronous analysis, which does not require analysis window alignment, plays an important role in realtime implementation. A detailed description of the processing steps, which are based on the so-called "just-in-time" architecture, is presented. Further, discussions on other issues related to realtime implementation and performance measures are also provided. The software will be available to researchers upon request. © 2007 The Acoustical Society of Japan.
  • Toru Takahashi, Toru Takahashi, Hideki Banno, Hideki Banno, Toshio Irino, Toshio Irino, Hideki Kawahara, Hideki Kawahara
    European Signal Processing Conference 2006年12月1日  
    A simple, efficient, and high-quality speech style conversion algorithm is proposed based on STRAIGHT. A very highquality VOCODER STRAIGHT consists of instantaneousfrequency based F0 and source information extraction part and F0-adaptive time-frequency smoothing part to eliminate preriodicity interferences. The proposed method uses only vowel information to design the desired conversion functions and parameters. So, it is possible to reduce the amount of training data required for conversion. The processing of the proposed method is : 1) to produce abstract spectra that is represented on the perceptual frequency axis and is derived as average spectrum for each vowel and each style; 2) to decompose the original spectrum into the abstract spectrum and the residual, fine structure; 3) to replace the abstract spectrum from the original to the target style; 4) to map the fine structure with nonlinear frequency warping for adapting the target style fine structure; 5) then to add them together to produce target speech. An efficient algorithm for this conversion was developed using an orthogonal transformation referred to as warped-DCT. An informal listening test indicated that the proposed method yields more natural and high-quality speech style conversion than the previous methods.

MISC

 71
  • 乾 聡志, 高橋 徹
    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 116(477) 129-134 2017年3月1日  
  • 高橋徹, 山田耕嗣
    大阪産業大学論文集, 自然科学編 128(128) 31-40 2017年3月  
    我々は,可聴周波数帯域での振幅変調に基づく信号伝送システムの設計と実装について述べる。典型的な振幅変調に基づく信号伝送システムでは,信号は,非常に高い周波数によって変調される。我々のシステムは,2から20000Hzの間の可聴信号のような非常に低い周波数を用いる。我々は,可聴帯域で信号を伝送可能であることを実験で示した。We describe a design and an implementation of a signal transmission system based on the amplitude modulation in audible frequency bands. In conventional signal transmission system based on the amplitude modulation, signal is modulated by very high frequency.Our system uses very low frequency, such as audible signal between 2 and 20000Hz. We experimentally show that it is possible to transmit based on the audible bands.
  • 高橋 徹, 能勢 和夫, 塚本 直幸
    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 115(354) 43-46 2015年12月8日  
  • 高橋 徹, 能勢 和夫, 塚本 直幸, 吉川 耕司
    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 114(357) 57-62 2014年12月11日  
    本稿では,GPSを用いた路面電車の位置を通知するシステムの開発と評価について述べ,設計思想を示す.最も重要な設計思想は,容易に入手可能な汎用品を用いてシステムを構成する点である.何故ならば,バスやタクシーや電車のような他の交通機関への導入が推進されることを狙っているためである.本コンセプトに基づくプロトタイプシステムを開発し,阪堺電気軌道で試験サービスを実施し評価した.位置情報を地図上に表す時の測位値をそのまま地図上に表示する替わりに,推定誤差軽減のためマップマチングアルゴリズムを用いて補正した.またマップマッチングアルゴリズムに用いるアンカーポイント間の間隔について評価している.以上の評価に基づきシステムをチューニングした結果,最大誤差で100mで,情報表示までの遅延を3秒程度に抑えることができた.
  • 阿曽 慎平, 齋藤 毅, 後藤 真孝, 糸山 克寿, 高橋 徹, 尾形 哲也, 奥乃 博
    研究報告音楽情報科学(MUS) 2012(13) 1-8 2012年1月27日  
    本稿では,歌声と朗読音声を識別するシステムについて述べる.入力は無雑音音声,出力は歌声と朗読音声それぞれの尤度 (連続値) である.従来,スペクトル包絡 (MFCC) と基本周波数 (F0) の時間変化に基づいた識別システムが報告されている.これらの特徴量に基づく識別器に,スペクトル変化量のピーク間隔という,音素継続時間に関連する特徴量に基づく識別器を加え,入力音声長に応じて各識別器への重みを変化させた.実験の結果,従来システムでは1秒の音声に対し 86.7% の精度であったのに対し,本システムでは 90.2% という結果を得た.本システムが実時間で動作するデモアプリケーションについても述べる.In this paper we describe a system that discriminates between singing and speaking voices. Given a clean speech signal, it outputs the likelihood of each of the singing and speaking voices. Previous systems use temporal transition of spectral envelope (MFCC) and fundamental frequency (F0) as discrimina- tion features. Our system adds peak interval of spectral change as a phoneme duration feature and weights these features according to the duration of the input speech signal. Experimental results with one-second speech signal show that our system achieves 90.2 % accuracy compared to 86.7 % with previous systems. We also describe a real-time application demonstrating our system.

書籍等出版物

 8

講演・口頭発表等

 79

担当経験のある科目(授業)

 18

所属学協会

 6

Works(作品等)

 1

共同研究・競争的資金等の研究課題

 14

産業財産権

 2

研究テーマ

 1
  • 研究テーマ
    ヒューマンロボットインタラクション,音声コミュニケーション,音声認識,音環境理解,
    キーワード
    マイクロホンアレイ,音響特徴量,音声認識,音源定位,音源分離
    概要
    ロボットと人の自然な対話を実環境において実現するための課題に取り組んでいる