Gelman (2008)


Gelman, Andrew. 2008. "Scaling Regression Inputs by Dividing by Two Standard Deviations." Statistics in Medicine 27:2865-2873.

 回帰分析における独立変数の係数の解釈は、独立変数の測定単位に依存するため、共通のスケールで比較を行いたいという場合がしばしば存在します。その方法として伝統的に行われる慣習の1つが、標準化された回帰係数の使用ですが、これは問題だとみなされることがしばしばあります。例えば、本論文でも引用されているGary KingやSander Greenlandはかなり厳しい批判を展開しています。
 本論文は、標準化された回帰係数にむしろ積極的な意味を見出そうという論文です。本論文の独自な点は、通常のように独立変数を標準偏差で割るのではなく、標準偏差の2倍で割るという提案を行っているところです。この提案の目的は、連続的な独立変数と0,1の値しかとらない二値変数との比較を簡単に解釈可能なものにするというものです。性別のようなダミー変数は0から1の変化が直接的に解釈可能です。むしろ、標準化した場合に、「標準偏差1つ分の変化」というものが意味を持ちません。
 等しい確率で実現する二値変数は平均が0.5、標準偏差が0.5の値を持ちます。もしこれを標準化した場合には、変換された変数は±1の値をとり、これは元のスケールでいうと0.5の差に等しくなります。ここから考えると、もとのスケールで0から1の変化は標準偏差の2倍の変化に対応します。よって、著者は連続的な独立変数を標準偏差の2倍で割るということを推奨しています。
 独立変数間の共通な基準による比較というのは難しい問題で、本論文の著者も標準化された回帰係数が推論上の問題点を解決しないことは認めています。なお、Gelmanは独立変数の比較ということにおいては、別の問題にも注意を促しています。それは変数Aが統計的に有意であり、かつ変数Bが統計的に有意ではなかった時に、「変数Aは変数Bと比べて統計的に有意な大きな効果を持っている」と判断するのは誤りだというものです(Gelman and Stern 2006)。この手の論文を読んでいると、統計理論的には誤りでも、実践としては行われているものが多く、どのように向き合ってゆけばよいのか悩ましい問題にしばしばつきあたります。