Clark (2005) "Why Environmental Scientists are Becoming Bayesians"

Clark, James S. 2005. "Why Environmental Scientists are Becoming Bayesians." Ecology Letters 8: 2-14.

　実用的な観点からベイズ統計を見た際に、結局のところが何がよいのかという関心から、それなりの数の論文を読んできたつもりなのですが、いまいちしっくり来ないところがありました。「頻度論vs.ベイズ」ではなく、「頻度論・単純ベイズvs.階層ベイズ」という図式を設定している本論文は、とてもよい説明だと思いました。生態学と社会人口学のモデルに若干似ているところがあるのも、実用性における関心が近くなる理由としてあるのかもしれません。

イントロ

複雑なモデルにおいて、大量の「効果」を特定すると、現在のデータにはよく適合するものの、異なるデータへの予測力がほとんどないという、過剰適合（overfitting）を起こしてしまう
モデリングの制約のために多くの複雑性は無視されてきたものの、階層ベイズよって柔軟に行うことが可能になった
階層ベイズは不確実性を扱う唯一の方法ではないものの、複雑なシステムを一貫したフレームワークで捉えることが可能なアプローチとして際立っている

哲学と実用主義

古典的アプローチと単純ベイズの間の哲学的な違いを、多くの研究は強調してきた
もちろん古典的な仮説検証や事前分布の役割については多くを語ることができるものの、哲学的な問題は近年の計算統計学の発展における主要な動機とはなっていない
古典的アプローチにおける信頼区間と、ベイズ信用区間には重要な違いがあるとは言えない
もしベイズによってより多くの労力が必要であるにもかかわらず、同じ解釈に至るのであれば、なぜベイズに頭を悩ませるのだろうか
この論文で強調するのは、現代的なベイズは哲学とほとんど関係がなく、むしろ実用主義から来ているものだという見方をとる
ベイジアンはパラメータを「ランダム」であると言い、頻度論者はそうは言わないものの、実際のところ単純ベイズは古典的アプローチと同様に、潜在的に「真の」パラメータの値が存在し、サンプルサイズの増大によってその値に近づくことができるという、頻度論者における信頼区間と同様の仮定を共有している
階層ベイズは、「パラメータ」がばらつきうるという意味において、この仮定を弱めるのである

単純ベイズから階層ベイズモデルへ

複雑性の分解

階層ベイズはほとんどすべての高次元問題を捉えるフレームワークをもたらし、1990年代以降の計算統計学を変容させた
伝統的分析は、決定論的プロセスの外側に確率的な構造があり（たとえば、「標本分布」）、プロセスモデルでは考慮できないデータのばらつきに対処している
この決定論的プロセスと確率的な外見が合わさって、尤度関数を構成している
尤度関数は多くの推論において中心的な役割となるものの、それだけでは複雑な関係に対応することができない
階層ベイズは複雑性を異なる水準に分解することで対処を可能にすることができ、それは次のように記述できる
$p(パラメータ｜モデル，データ)\propto p(データ｜プロセス、データに関するパラメータ)$

　　 $\times p(プロセス｜プロセスに関するパラメータ)\times p(全パラメータ)$

単純ベイズ

ベイズの文脈におけるパラメータの解釈には大きな混乱が残り続けており、古典的アプローチと単純ベイズの違いとして、ベイズのパラメータが「ランダム」であることが強調されることが多い
しかし、ランダムなのは「推定値」であり、パラメータ自体ではないのである
事後分布は生態学者が言うところの不確実性（uncertainty）を記述するものであり、ばらつき（variability）や変動（fluctuation）を表すものではない
推定値が確率的であることによって、データの蓄積につれての「学習」を可能とする
しかし、単純ベイズは頻度論的アプローチと同様に、パラメータそれ自体は固定された定数であるという仮定を共有しており、一般的に信じられているよりも古典的アプローチと単純ベイズは矛盾していないのである
実用主義的な観点からは、単純な問題に対してベイズを用いる利点がないのであれば、古典的アプローチがより便利であると主張することもできるだろう
古典的アプローチはすべての負荷を尤度に置くため、複雑な問題に進むに従ってその限界が明らかになる