「統計的有意検定の無意味さ」

たまたま読んだ論文。

Jonson, Douglas, H., 1999, "The Insignificance of Statistical Significance Testing," The Journal of Wildlife Management, 763-72.


■帰無仮説の統計的検定において、P値が計算される。このP値について、(1)Pは得られた結果が偶然であるかどうかの確率、(2)1-Pは結果の信頼性の程度、すなわち同じ実験が繰り返されたときに同じ結果が得られる確率、(3)Pは帰無仮説が正しいという確率、であるというような解釈がしばしばなされるが、これらはいずれも幻想である。

■正しくは、P値とは帰無仮説が正しいという状況において、観察されたデータと同じか、それよりも極端なデータが得られる確率を表わす。すなわち、P=Pr[observed or more extreme data | H0]である。

■P値は任意の値をとる。なぜなら、P値は(1)帰無仮説と実際の違い、(2)サンプルサイズの2つの関数だからである。

■多くの著者は、重要な問題について有意な結果が得られなかった場合、サンプルが適切ではなく、もっと研究が必要であると結論付ける。反対に、重要でない問題について有意な結果が得られてしまった場合には、サンプルが大きすぎたと述べるのである。

■なぜ統計的有意検定がこれほどまでに用いられるのか。それは、(1)客観的で正確に見えるから、(2)商業的統計パッケージであらかじめ利用可能になっているから、(3)他のだれもが使っているように見えるから、(4)それを使うように教えられるから、(5)雑誌の編集者や査読者が用いるように求めるから、である。

■仮説を検証するという観点からすれば、推定値と信頼区間を提示する方がより実りがある。

■また、伝統的な統計的有意検定よりもベイズ的なアプローチの方が強みを持っている。ベイズ的なアプローチによって求められる信用区間は、真のパラメータ値が区間の中に入る確率が95%だというものであり、これこそが多くの人々が信頼区間が示していると誤解しているところのものなのである。


自然科学の雑誌の論文なので、事情は違うのかもしれないけれど、社会学では有意確率を重視する伝統はそう簡単には変わらないよなあ、と思った。