Clark, James S. 2005. "Why Environmental Scientists are Becoming Bayesians." Ecology Letters 8: 2-14.
実用的な観点からベイズ統計を見た際に、結局のところが何がよいのかという関心から、それなりの数の論文を読んできたつもりなのですが、いまいちしっくり来ないところがありました。「頻度論vs.ベイズ」ではなく、「頻度論・単純ベイズvs.階層ベイズ」という図式を設定している本論文は、とてもよい説明だと思いました。生態学と社会人口学のモデルに若干似ているところがあるのも、実用性における関心が近くなる理由としてあるのかもしれません。
イントロ
-
複雑なモデルにおいて、大量の「効果」を特定すると、現在のデータにはよく適合するものの、異なるデータへの予測力がほとんどないという、過剰適合(overfitting)を起こしてしまう
哲学と実用主義
-
古典的アプローチと単純ベイズの間の哲学的な違いを、多くの研究は強調してきた
-
もちろん古典的な仮説検証や事前分布の役割については多くを語ることができるものの、哲学的な問題は近年の計算統計学の発展における主要な動機とはなっていない
-
階層ベイズは、「パラメータ」がばらつきうるという意味において、この仮定を弱めるのである
単純ベイズから階層ベイズモデルへ
複雑性の分解
- 階層ベイズはほとんどすべての高次元問題を捉えるフレームワークをもたらし、1990年代以降の計算統計学を変容させた
- 伝統的分析は、決定論的プロセスの外側に確率的な構造があり(たとえば、「標本分布」)、プロセスモデルでは考慮できないデータのばらつきに対処している
- この決定論的プロセスと確率的な外見が合わさって、尤度関数を構成している
- 尤度関数は多くの推論において中心的な役割となるものの、それだけでは複雑な関係に対応することができない
- 階層ベイズは複雑性を異なる水準に分解することで対処を可能にすることができ、それは次のように記述できる
単純ベイズ
-
しかし、ランダムなのは「推定値」であり、パラメータ自体ではないのである
-
事後分布は生態学者が言うところの不確実性(uncertainty)を記述するものであり、ばらつき(variability)や変動(fluctuation)を表すものではない
-
推定値が確率的であることによって、データの蓄積につれての「学習」を可能とする
-
古典的アプローチはすべての負荷を尤度に置くため、複雑な問題に進むに従ってその限界が明らかになる
階層ベイズモデル
- 確率過程をもたらす原因が複数ある場合
- likelihood
prior
hyperprior
-
θ1は個人間でばらつきうる要因である
-
θ1は中間の段階に位置するため、サンプルサイズの小ささによる影響('asymptotic collapse')を受けない
-
θ2とθ3はより低次の段階に条件付けられていないので、サンプルサイズの影響を受ける
-
階層構造によって、複数のレベルにおける確率過程が許容される
-
「プロセス全体はどのように動いているのか」ではなく、「この要素は、それに直接影響を与える要素を条件づけた場合にどのように動いているのか」を問うのである
「単純な」人口学的プロセスへの適用
-
木々の繁殖能力は、その直径に対して相対成長関係を持つと想定されている
-
しかし、すべての同じ大きさの木が同じ数の種子を生むとは期待できず、またこのばらつきは観測変数によって説明するのは難しい
-
つまりランダム効果の存在と、プロセスモデルが確率的であることが示唆される
-
確率過程を十分に考慮することによって第一に、実際に観察される要因のみを条件づけ、モデルの仮定を違反しないように不確実性を取り入れたデザインが可能になる
-
第二に、既存研究は種子の繁殖のスケジュールに関して単一のパラメータを特定しており、非現実的であったものの、より詳細なスケジュールを表現可能になる