#author("2023-12-15T17:01:08+09:00","default:ryutarodayo1234","ryutarodayo1234") #author("2023-12-15T17:18:18+09:00","default:ryutarodayo1234","ryutarodayo1234") *統計的パラメトリック音声合成 ~ #contents ~ ~ **統計的パラメトリック音声合成とは テキストからの音声生成を直接モデル化することは、簡単ではない。そのため、音声合成をいくつかの部分問題に分割することで、実現可能性のより高い枠組みが提案された。明示的な特微量表現を用いる統計的音声合成のことを、統計的パラメトリック音声合成(Statistical Parametric Speech Synthesis)と呼ぶ。 音響モデルをいかに学習するかが重要。音響モデルから出された音響特徴量が不正確だと、出力された音声の品質は大きく劣化してしまう。 ~ ***言語特徴量と音響特徴量 具体的には、言語特徴量と音響特徴量を中間表現として導入し、 テキスト > 言語特徴量 > 音響特徴量 > 音声波形 というように、中間表現を通すことによって各問題を簡単にすることができる。 ~ ***言語特徴量とは テキストの意味や構造を表す量。言語特徴量には、以下のようなものがある。 -音素 -音節 -語 -句 -呼気段落 ~ ***音響特徴量とは 音声波形の特徴を表す量。声の物理的な特徴。音響特徴量には、以下のようなものがある。 -フォルマント -ピッチ ~ ~ **統計的パラメトリック音声合成のフロー図 準備中(p55) このように、中間表現を導入することで、6つの部分問題に分割された。 ~ ~ **新たな問題点 中間表現を新たに導入したことで、音響モデルに加え「テキスト解析」「音声分析」「波形合成」の3つのモジュールを考える必要がある。 ~ ***テキスト解析 テキスト処理フロントエンド(Text Processing front-end)と呼ばれる。合成音声システムの前段階で用いられるため。 音響特徴量の予測に必要な言語特徴量を抽出する。 ~ ***音声分析 ソース・フィルタモデルに基づく音源パラメータとスペクトル包絡パラメータを出力する。 音源パラメータとして、基本種は数、有声・無声フラグ、非周期性指標を用いる。スペクトル包絡パラメータとして、線型予測分析によって得られるLPC係数、ケプストラム係数、メルケプストラム係数などを用いる。 ~ ***波形合成 音源パラメータから生成した音源波形に、スペクトル包絡パラメータから生成した合成フィルタを畳み込むことで、音声波形を合成する。 ~ ~ **メリット ~ ***学習データが少量で良い 音声素片でなく統計モデルを用い、音声合成を部分問題に分割するため、少量のデータから音響モデルを学習できる。 ~ ***各モジュールを個別に調整できる 部分問題に分割しているため、それぞれの調整が独立してできる。 ~ ***合成部のサイズが小さめ 生の音声波形を保存しないため。 ~ ***音声の制御製が高い 音響モデルは言語と音声に関わる特徴量を入出力に持つ。特徴量そのものや特徴量から測定されたモデルパラメータの制御ができる ~ ~ **デメリット ~ ***音質が良くない 過激な平滑化(Over-smoothing)やバジーさ(Buzziness)にあると考える。貧弱な音響モデルや貧弱な信号処理ボコーダに起因する。 ~ ***全体最適ではない 分割したことによる弊害、全体で見ると最適ではなくなる。 ~ ***システムが複雑になる 分割したことによる弊害。 ~ ~