統計モデル
統計モデルとは
前置き
人が楽器を弾く時、全く同じ波形は2度と生まれないと言っても過言ではない。例え熟練のバイオリニストであろうと、人間である限り例外なく「揺らぎ」が生まれると考えられる。
その「揺らぎ」をどのように捉えるかと考えた時、数理的に便利なものが統計モデル(Statistical Model)である。
結論
モデル化したい対象の現象(演奏された音)が何らかの確率分布に従っており、そのモデルパラメータが未知のモデルのこと。
結果
揺らぎ(不確実性)を自然に扱える。
統計モデルの利点
モデルパラメータをデータから自動的に学習できる
生成過程全てを決定的に記述するのではなく、データを元にテキストと音声の統計的な関係性を見つけ出す。入力と出力の関係性が複雑で、ルール化しづらい家庭をモデル化する際に有効である。
また、データが多いほど汎化性能*1の向上する。
多様な音を容易に作成可能
2つの関係を表す統計モデルが手に入れば、そのモデルからサンプリング(Sampling)をすることで、モデルパラメータの変更などにより、さまざまな音の合成が可能である。
生成モデル
対象の確率変数*2の同時分布(Joint Distribution)をモデル化する統計モデルのこと。
統計的合成音声では、統計モデルとして生成モデル(Generative Model)が用いられることが多く、サンプリング可能なので合成音声に適している。
統計モデルの学習・からの生成
準備中(p50)
Last-modified: 2023-12-15 (金) 19:42:35