張, 宇涛, 戸塚, 史織, 耿, 毓庭, 岩居, 健太, 西浦, 敬信, 赤間, 亮
第86回全国大会講演論文集 2024(1) 53-54 2024年3月1日
日本には数百万の古典籍・古文書が残存するが、くずし字と呼ばれる文字で記されているため、現代の多くの人は文字を識別できない状況にある。これらの文献の活用には、翻刻とそのテキストデータ化が必須となる。上記作業の効率化のため、本研究では、翻刻成果の読み上げ音声を自動的にテキストデータ化する古文用音声認識システムの導入を検討する。具体的には、古文を流暢に読める複数の発話者から読み上げ音声データを収集し、自己教師あり学習モデルとデータ拡張手法を用いて古文音声認識モデルの構築を検討する。評価実験では、従来構築した古文用HMM-DNNモデルおよび現代語音声認識システムと比較して、認識性能の向上が確認された。