統計的パラメトリック音声合成
統計的パラメトリック音声合成とは
テキストからの音声生成を直接モデル化することは、簡単ではない。そのため、音声合成をいくつかの部分問題に分割することで、実現可能性のより高い枠組みが提案された。明示的な特微量表現を用いる統計的音声合成のことを、統計的パラメトリック音声合成(Statistical Parametric Speech Synthesis)と呼ぶ。
音響モデルをいかに学習するかが重要。音響モデルから出された音響特徴量が不正確だと、出力された音声の品質は大きく劣化してしまう。
言語特徴量と音響特徴量
具体的には、言語特徴量と音響特徴量を中間表現として導入し、
テキスト > 言語特徴量 > 音響特徴量 > 音声波形
というように、中間表現を通すことによって各問題を簡単にすることができる。
言語特徴量とは
テキストの意味や構造を表す量。言語特徴量には、以下のようなものがある。
- 音素
- 音節
- 語
- 句
- 呼気段落
音響特徴量とは
音声波形の特徴を表す量。声の物理的な特徴。音響特徴量には、以下のようなものがある。
- フォルマント
- ピッチ
統計的パラメトリック音声合成のフロー図
準備中(p55)
このように、中間表現を導入することで、6つの部分問題に分割された。
新たな問題点
中間表現を新たに導入したことで、音響モデルに加え「テキスト解析」「音声分析」「波形合成」の3つのモジュールを考える必要がある。
テキスト解析
テキスト処理フロントエンド(Text Processing front-end)と呼ばれる。合成音声システムの前段階で用いられるため。
音響特徴量の予測に必要な言語特徴量を抽出する。
音声分析
ソース・フィルタモデルに基づく音源パラメータとスペクトル包絡パラメータを出力する。
音源パラメータとして、基本種は数、有声・無声フラグ、非周期性指標を用いる。スペクトル包絡パラメータとして、線型予測分析によって得られるLPC係数、ケプストラム係数、メルケプストラム係数などを用いる。
波形合成
音源パラメータから生成した音源波形に、スペクトル包絡パラメータから生成した合成フィルタを畳み込むことで、音声波形を合成する。
メリット
学習データが少量で良い
音声素片でなく統計モデルを用い、音声合成を部分問題に分割するため、少量のデータから音響モデルを学習できる。
各モジュールを個別に調整できる
部分問題に分割しているため、それぞれの調整が独立してできる。
合成部のサイズが小さめ
生の音声波形を保存しないため。
音声の制御製が高い
音響モデルは言語と音声に関わる特徴量を入出力に持つ。特徴量そのものや特徴量から測定されたモデルパラメータの制御ができる
デメリット
音質が良くない
過激な平滑化(Over-smoothing)やバジーさ(Buzziness)にあると考える。貧弱な音響モデルや貧弱な信号処理ボコーダに起因する。
全体最適ではない
分割したことによる弊害、全体で見ると最適ではなくなる。
システムが複雑になる
分割したことによる弊害。