BézierCurvePro/StatisticalModel - りゅうこのおへや

統計モデル

人が楽器を弾く時、全く同じ波形は2度と生まれないと言っても過言ではない。例え熟練のバイオリニストであろうと、人間である限り例外なく「揺らぎ」が生まれると考えられる。
その「揺らぎ」をどのように捉えるかと考えた時、数理的に便利なものが統計モデル（Statistical Model）である。

モデル化したい対象の現象（演奏された音）が何らかの確率分布に従っており、そのモデルパラメータが未知のモデルのこと。

揺らぎ（不確実性）を自然に扱える。

生成過程全てを決定的に記述するのではなく、データを元にテキストと音声の統計的な関係性を見つけ出す。入力と出力の関係性が複雑で、ルール化しづらい家庭をモデル化する際に有効である。
また、データが多いほど汎化性能*1の向上する。

2つの関係を表す統計モデルが手に入れば、そのモデルからサンプリング（Sampling）をすることで、モデルパラメータの変更などにより、さまざまな音の合成が可能である。

対象の確率変数*2の同時分布（Joint Distribution）をモデル化する統計モデルのこと。
統計的合成音声では、統計モデルとして生成モデル（Generative Model）が用いられることが多く、サンプリング可能なので合成音声に適している。

準備中(p50)

*1 はんかせいのう - データに含まれる誤差の部分を無視する力
*2 かくりつへんすう - 統計学の確率論において、起こりうることがらに割り当てている値を取る変数

Last-modified: 2023-12-15 (金) 19:42:35