Westreich et al. (2011) "The Role of the c-statistic in Variable Selection for Propensity Score Models"

Westreich, Daniel et al. 2011. "The Role of the c-statistic in Variable Selection for Propensity Score Models." Pharmacoepidemiol Drug Saf. 20: 317-20.

 傾向スコアを用いた論文が、しばしばc統計量を掲載していることについて、本論文の著者たちは警鐘を鳴らしています。c統計量は、ROC曲線の下側の面積で表されるものであり、これを傾向スコアの予測の精度を表すものとして用いているということになります。
 しかし、著者たちは傾向スコアの目的は処置変数の予測をよく行うことではなく、処置群と対照群における共変量の分布をバランスさせることであると注意を促します。そして、予測の精度を上げるということを目的にすることは、共変量の分布をバランスすることに対して無関係であるどころか、場合によっては有害にもなりえるという主張がなされます。
 例えば、処置変数に対して強く影響するものの、結果変数には影響しないような共変量を傾向スコアの推定に含めた場合には、処置群と対照群の間における傾向スコアのオーバーラップを減少させてしまうことになります。著者たちはpositivityの仮定(すべての共変量の水準において、処置群と対照群のどちらにもサンプルが存在すること)の重要性を強調しています。
 共変量の選択基準について、著者たちは事前の知識と、因果ダイアグラムを用いることを奨めています。交差検証(cross-validation)のようなモデル選択を行うアプローチについては、有望な可能性を認めつつも、最初のモデルが一致性を持つことが必要であるということで、やはりどのような変数を最初に選択するかという問題が残るとしています。