統計モデル





統計モデルとは


前置き

人が楽器を弾く時、全く同じ波形は2度と生まれないと言っても過言ではない。例え熟練のバイオリニストであろうと、人間である限り例外なく「揺らぎ」が生まれると考えられる。
その「揺らぎ」をどのように捉えるかと考えた時、数理的に便利なものが統計モデル(Statistical Model)である。


結論

モデル化したい対象の現象(演奏された音)が何らかの確率分布に従っており、そのモデルパラメータが未知のモデルのこと。


結果

揺らぎ(不確実性)を自然に扱える。




統計モデルの利点


モデルパラメータをデータから自動的に学習できる

生成過程全てを決定的に記述するのではなく、データを元にテキストと音声の統計的な関係性を見つけ出す。入力と出力の関係性が複雑で、ルール化しづらい家庭をモデル化する際に有効である。
また、データが多いほど汎化性能*1の向上する。


多様な音を容易に作成可能

2つの関係を表す統計モデルが手に入れば、そのモデルからサンプリング(Sampling)をすることで、モデルパラメータの変更などにより、さまざまな音の合成が可能である。




生成モデル

対象の確率変数*2の同時分布(Joint Distribution)をモデル化する統計モデルのこと。
統計的合成音声では、統計モデルとして生成モデル(Generative Model)が用いられることが多く、サンプリング可能なので合成音声に適している。




統計モデルの学習・からの生成

準備中(p50)






*1 はんかせいのう - データに含まれる誤差の部分を無視する力
*2 かくりつへんすう - 統計学の確率論において、起こりうることがらに割り当てている値を取る変数
Last-modified: 2023-12-15 (金) 19:42:35