#author("2023-12-15T17:01:08+09:00","default:ryutarodayo1234","ryutarodayo1234")
#author("2023-12-15T17:18:18+09:00","default:ryutarodayo1234","ryutarodayo1234")
*統計的パラメトリック音声合成
~
#contents

~
~
**統計的パラメトリック音声合成とは
テキストからの音声生成を直接モデル化することは、簡単ではない。そのため、音声合成をいくつかの部分問題に分割することで、実現可能性のより高い枠組みが提案された。明示的な特微量表現を用いる統計的音声合成のことを、統計的パラメトリック音声合成(Statistical Parametric Speech Synthesis)と呼ぶ。
音響モデルをいかに学習するかが重要。音響モデルから出された音響特徴量が不正確だと、出力された音声の品質は大きく劣化してしまう。

~
***言語特徴量と音響特徴量
具体的には、言語特徴量と音響特徴量を中間表現として導入し、
 テキスト > 言語特徴量 > 音響特徴量 > 音声波形
というように、中間表現を通すことによって各問題を簡単にすることができる。

~
***言語特徴量とは
テキストの意味や構造を表す量。言語特徴量には、以下のようなものがある。
-音素
-音節
-語
-句
-呼気段落

~
***音響特徴量とは
音声波形の特徴を表す量。声の物理的な特徴。音響特徴量には、以下のようなものがある。
-フォルマント
-ピッチ

~
~
**統計的パラメトリック音声合成のフロー図
準備中(p55)

このように、中間表現を導入することで、6つの部分問題に分割された。


~
~
**新たな問題点
中間表現を新たに導入したことで、音響モデルに加え「テキスト解析」「音声分析」「波形合成」の3つのモジュールを考える必要がある。

~
***テキスト解析
テキスト処理フロントエンド(Text Processing front-end)と呼ばれる。合成音声システムの前段階で用いられるため。
音響特徴量の予測に必要な言語特徴量を抽出する。

~
***音声分析
ソース・フィルタモデルに基づく音源パラメータとスペクトル包絡パラメータを出力する。
音源パラメータとして、基本種は数、有声・無声フラグ、非周期性指標を用いる。スペクトル包絡パラメータとして、線型予測分析によって得られるLPC係数、ケプストラム係数、メルケプストラム係数などを用いる。

~
***波形合成
音源パラメータから生成した音源波形に、スペクトル包絡パラメータから生成した合成フィルタを畳み込むことで、音声波形を合成する。

~
~
**メリット

~
***学習データが少量で良い
音声素片でなく統計モデルを用い、音声合成を部分問題に分割するため、少量のデータから音響モデルを学習できる。

~
***各モジュールを個別に調整できる
部分問題に分割しているため、それぞれの調整が独立してできる。

~
***合成部のサイズが小さめ
生の音声波形を保存しないため。

~
***音声の制御製が高い
音響モデルは言語と音声に関わる特徴量を入出力に持つ。特徴量そのものや特徴量から測定されたモデルパラメータの制御ができる


~
~
**デメリット

~
***音質が良くない
過激な平滑化(Over-smoothing)やバジーさ(Buzziness)にあると考える。貧弱な音響モデルや貧弱な信号処理ボコーダに起因する。

~
***全体最適ではない
分割したことによる弊害、全体で見ると最適ではなくなる。

~
***システムが複雑になる
分割したことによる弊害。

~
~