BézierCurvePro/StatisticalParametricSpeechSynthesis

統計的パラメトリック音声合成

統計的パラメトリック音声合成

統計的パラメトリック音声合成とは

テキストからの音声生成を直接モデル化することは、簡単ではない。そのため、音声合成をいくつかの部分問題に分割することで、実現可能性のより高い枠組みが提案された。明示的な特微量表現を用いる統計的音声合成のことを、統計的パラメトリック音声合成（Statistical Parametric Speech Synthesis）と呼ぶ。
音響モデルをいかに学習するかが重要。音響モデルから出された音響特徴量が不正確だと、出力された音声の品質は大きく劣化してしまう。

言語特徴量と音響特徴量

具体的には、言語特徴量と音響特徴量を中間表現として導入し、

テキスト > 言語特徴量 > 音響特徴量 > 音声波形

というように、中間表現を通すことによって各問題を簡単にすることができる。

言語特徴量とは

テキストの意味や構造を表す量。言語特徴量には、以下のようなものがある。

音素
音節
語
句
呼気段落

音響特徴量とは

音声波形の特徴を表す量。声の物理的な特徴。音響特徴量には、以下のようなものがある。

フォルマント
ピッチ

統計的パラメトリック音声合成のフロー図

準備中(p55)

このように、中間表現を導入することで、6つの部分問題に分割された。

新たな問題点

中間表現を新たに導入したことで、音響モデルに加え「テキスト解析」「音声分析」「波形合成」の3つのモジュールを考える必要がある。

テキスト解析

テキスト処理フロントエンド（Text Processing front-end）と呼ばれる。合成音声システムの前段階で用いられるため。
音響特徴量の予測に必要な言語特徴量を抽出する。

音声分析

ソース・フィルタモデルに基づく音源パラメータとスペクトル包絡パラメータを出力する。
音源パラメータとして、基本種は数、有声・無声フラグ、非周期性指標を用いる。スペクトル包絡パラメータとして、線型予測分析によって得られるLPC係数、ケプストラム係数、メルケプストラム係数などを用いる。

波形合成

音源パラメータから生成した音源波形に、スペクトル包絡パラメータから生成した合成フィルタを畳み込むことで、音声波形を合成する。

メリット

学習データが少量で良い

音声素片でなく統計モデルを用い、音声合成を部分問題に分割するため、少量のデータから音響モデルを学習できる。

各モジュールを個別に調整できる

部分問題に分割しているため、それぞれの調整が独立してできる。

合成部のサイズが小さめ

生の音声波形を保存しないため。

音声の制御製が高い

音響モデルは言語と音声に関わる特徴量を入出力に持つ。特徴量そのものや特徴量から測定されたモデルパラメータの制御ができる

デメリット

音質が良くない

過激な平滑化（Over-smoothing）やバジーさ（Buzziness）にあると考える。貧弱な音響モデルや貧弱な信号処理ボコーダに起因する。

全体最適ではない

分割したことによる弊害、全体で見ると最適ではなくなる。

システムが複雑になる

分割したことによる弊害。

Last-modified: 2023-12-15 (金) 17:18:18