Wasserstein and Lazar (2016) "The ASA's Statement on p-Values: Context, Process, and Purpose"

Wasserstein, Ronald L. and Nicole A. Lazar. 2016. "The ASA's Statement on p-Values: Context, Process, and Purpose." American Statistician 79(2): 129-33.

p値とは何か

くだけた言い方をすれば、p値とはある特定化された統計モデルの下において、何らかのデータの要約（例：2つのグループにおける平均値の差）が観察値に一致するか、より極端な値をとる確率である

原則

p値は、データがある特定化されたモデルとどれだけ齟齬がある（incompatible）かを示しうる

p値はあるデータセットと、それに対して提示されたモデルがどれだけ齟齬があるかを要約する上での一つのアプローチをもたらす
もっともよくある文脈は、いわゆる「帰無仮説」とともに一連の仮説の下で構成されたモデルである
帰無仮説は、2つのグループ間で差異がないとか、ある要因とアウトカムの間に関係がないなど、効果が存在しないことをしばしば仮定する
もしp値が計算された際に置かれている仮定が成り立つならば、p値が小さいほどデータと帰無仮説の齟齬は大きくなる
この齟齬は、帰無仮説あるいは置かれている仮定に対する疑義・反証をもたらすものとして解釈できる

p値は研究仮説が真である確率、あるいはデータが偶然のみによって生成されている確率を測っているわけではない

研究者はしばしば、p値を帰無仮説が真であること、あるいは偶然の可能性が観察データを生み出した確率の言明へと変えたがる
p値はそれらのどちらでもない
p値は特定された仮説による説明に対するデータについての言明なのであり、説明それ自体についての言明なのではない

科学的な結論やビジネス・政策上の意思決定は、p値が特定の閾値を超えたかどうかのみに基づくべきではない

科学的な主張・結論において、データ分析や科学的推論を機械的な「歯切れのよい」（bright-line）ルール（たとえば、p<0.05）に単純化するような実践は、誤った信念や粗末な意思決定に至らせる可能性がある
ある結論はただちに、2つに分けられたうちの「真」または「偽」となるわけではない
研究者は科学的推論を導出する上で多くの文脈的要因を取り入れるべきであり、これには研究のデザイン、測定の質、対象となっている現象に関する外的な証拠、データ分析が置いている仮定の妥当性などが含まれる
実用的な関心からは、しばしば「yes/no」という2値の意思決定が求められるものの、このことはp値が単独でその決定が正しいかどうかを保証できるということを意味しない
科学的知見（あるいは示唆された真実）を正当化するものとして広く用いられている「統計的有意性」（一般的に「p≦0.05」として解釈されている）は、科学的プロセスを大きく歪んだものにしている

適切な推論には、結果の十分な報告と透明性が求められる

p値とそれに関連した分析は選択的に報告されるべきではない
複数のデータ分析を行ったにもかかわらず、特定のp値（概して有意な閾値を超えたもの）のみを報告することは、報告されたp値を本質的に解釈不能なものにする
有望な知見のいいとこ取り（cherry-picking）、あるいはデータの浚渫（data dredging）、有意性の追跡（significance chasing）、有意性の尋問（significance questioning）、選択的推論（selective inference）、「p値のハッキング」（p-hacking）としても知られる実践は、公表された論文において統計的に有意な結果が擬似的に過剰になることにいたり、きっぱりと避けるべきである
この問題が生じるためには、複数の統計的検定を行う必要もない
統計分析を行った結果に基づいて研究者が何を提示するかを選択する際に、もし読者がその選択とその基準を知らされなければ、結果の妥当な解釈はいつでも非常に危ういものとなる
研究者は検討される仮説の数、データ収集の意思決定、実施されたすべての統計分析、計算されたすべてのp値を公開すべきである
p値とそれに関連した統計に基づく妥当な科学的結論は、少なくともどういった分析がいくつ行われたか、またどのように分析（p値を含む）が選ばれたかを知ることなしには、導出することはできないのである

p値あるいは統計的有意性は、効果の大きさや結果の重要性を測っているわけではない

統計的有意性は、科学的・人道的・経済的な有意性と同じではない
p値が小さいからといってより大きなあるいはより重要な効果が存在することを意味するわけではなく、p値が大きいからといって重要性がないことや効果がないことを意味するわけではない
もしサンプルサイズが大きく測定が正確であれば、どれだけ効果が小さくともp値は小さくなるし、サンプルサイズが小さく測定が不正確であれば大きな効果であって大きなp値になりうる
同様にして、まったく同一の効果を推定していても、推定の正確性が異なればp値も異なりうる

p値それ自体は、モデルや仮説に関する証拠の適切な尺度とはならない

研究者は、文脈や他の証拠を欠いたp値が限定的な情報しかもたらさないことを認識すべきである
たとえば、0.05に近いp値はそれ自体では帰無仮説に対して弱い証拠にしかならない
同様にして、比較的大きいp値が帰無仮説を支持するわけでもない
他の多くの仮説も観察されたデータに対して同じくらいかそれ以上に一致するかもしれないのである
こうした理由から、他のアプローチが適切かつ可能な場合に、データ分析はp値の計算で終わるべきではない

他のアプローチ

p値に広く見られる誤用と誤解を踏まえて、p値を他のアプローチと補完、さらには置き換えることを選ぶ統計学者もいる
こうしたアプローチには、次のようなものが含まれる

検定にとどまらない推定、たとえば信頼区間、信用区間、予測区間の計算
尤度比やベイズ因子などの別の証拠を持ちるベイズ的方法
意思決定理論のモデリングや偽陽性率（false discovery rate）などの他のアプローチ
これらすべての方法・アプローチはさらなる仮定を必要とするものの、効果の大きさ（とそれに付随した不確実性）や、仮説の正しさをより直接的に扱うものである