統計的パラメトリック音声合成





統計的パラメトリック音声合成とは

テキストからの音声生成を直接モデル化することは、簡単ではない。そのため、音声合成をいくつかの部分問題に分割することで、実現可能性のより高い枠組みが提案された。明示的な特微量表現を用いる統計的音声合成のことを、統計的パラメトリック音声合成(Statistical Parametric Speech Synthesis)と呼ぶ。
音響モデルをいかに学習するかが重要。音響モデルから出された音響特徴量が不正確だと、出力された音声の品質は大きく劣化してしまう。


言語特徴量と音響特徴量

具体的には、言語特徴量と音響特徴量を中間表現として導入し、

テキスト > 言語特徴量 > 音響特徴量 > 音声波形

というように、中間表現を通すことによって各問題を簡単にすることができる。


言語特徴量とは

テキストの意味や構造を表す量。言語特徴量には、以下のようなものがある。

  • 音素
  • 音節
  • 呼気段落


音響特徴量とは

音声波形の特徴を表す量。声の物理的な特徴。音響特徴量には、以下のようなものがある。

  • フォルマント
  • ピッチ




統計的パラメトリック音声合成のフロー図

準備中(p55)

このように、中間表現を導入することで、6つの部分問題に分割された。




新たな問題点

中間表現を新たに導入したことで、音響モデルに加え「テキスト解析」「音声分析」「波形合成」の3つのモジュールを考える必要がある。


テキスト解析

テキスト処理フロントエンド(Text Processing front-end)と呼ばれる。合成音声システムの前段階で用いられるため。
音響特徴量の予測に必要な言語特徴量を抽出する。


音声分析

ソース・フィルタモデルに基づく音源パラメータとスペクトル包絡パラメータを出力する。
音源パラメータとして、基本種は数、有声・無声フラグ、非周期性指標を用いる。スペクトル包絡パラメータとして、線型予測分析によって得られるLPC係数、ケプストラム係数、メルケプストラム係数などを用いる。


波形合成

音源パラメータから生成した音源波形に、スペクトル包絡パラメータから生成した合成フィルタを畳み込むことで、音声波形を合成する。




メリット


学習データが少量で良い

音声素片でなく統計モデルを用い、音声合成を部分問題に分割するため、少量のデータから音響モデルを学習できる。


各モジュールを個別に調整できる

部分問題に分割しているため、それぞれの調整が独立してできる。


合成部のサイズが小さめ

生の音声波形を保存しないため。


音声の制御製が高い

音響モデルは言語と音声に関わる特徴量を入出力に持つ。特徴量そのものや特徴量から測定されたモデルパラメータの制御ができる




デメリット


音質が良くない

過激な平滑化(Over-smoothing)やバジーさ(Buzziness)にあると考える。貧弱な音響モデルや貧弱な信号処理ボコーダに起因する。


全体最適ではない

分割したことによる弊害、全体で見ると最適ではなくなる。


システムが複雑になる

分割したことによる弊害。





Last-modified: 2023-12-15 (金) 17:18:18