論文要旨  本論文は,HMMに基づいた音声合成システムにおける品質向上を 目的としている。音声パラメータの動的特徴のモデル化,および音 声信号において声帯振動が不規則となっている区間での基本周波数 (F0) 抽出の2つの問題を対象としている。動的特徴は音声パラメー タ変化の動的な性質を表現しており,スペクトル遷移などの音声の 変化特性に関する重要な情報を含んでいる。一方で,F0パラメータ は,音声のイントネーションを表現しており,声帯振動が不規則と なっている音声においては正確に推定することが難しい。動的特徴 の正確なモデル化および声帯振動が不規則となっている音声におけ る正確なF0推定は,HMMから合成された音声における自然性や感情 表現を高めることになる。  第1に,音声合成において広く用いられているHMM学習の枠組みに おいて,生成誤差最小 (MGE) 基準の評価関数に動的特徴の生成誤 差を導入することによって動的特徴のモデル化精度を向上させた。 また,新たに導入した誤差項の重みを,音声の動的変化の強度に応 じて適応的に変化させる手法を提案している。結果として,提案手 法は,計算量を従来のMGE基準の手法と同等に保ちながら,音声の 動的特徴においてHMMの表現能力を向上させている。  第2に,声帯の不規則振動が頻繁に出現する言語であるベトナム 語 (のハノイ方言) を対象として,声帯振動が不規則となっている 音声のF0 抽出の問題に取り組んでいる。声帯の不規則振動が頻繁 に発生する声調を持っている声調言語においては,不正確なF0推定 がF0のモデル化に悪影響をもたらし,合成音声において声調の不自 然さやしわがれ声をもたらす。従来のF0抽出にピッチマークの伝搬 アルゴリズムを組み込むことによって,ベトナム語の声帯振規則と なる声調に対するF0分析の枠組みを提案している。提案手法は,従 来のF0抽出法に比べて,抽出誤差なく正確に声調を表現するF0系列 を抽出できており,合成音声のしわがれ声らしさを軽減し,声調の 自然さを向上している。