Hellevik (2009)


Hellevik, Ottar. 2009. "Linear Versus Logistic Regression When the Dependent Variable is a Dichotomy." Quality & Quantity 43: 59-74.

 従属変数が二値の場合に、線形回帰モデルを使用することの危険性は昔から警告されてきました(例えば、Amemiya 1981など)。しかし、本論文の著者は、そのような「信念」が誤りであるということを議論します。
 従属変数が二値の場合に、線形回帰モデルを使用することの問題点として、2つ挙げられます。第一に、予測値が0-1の範囲を超えてしまうことです。すなわち線形回帰モデルを当てはめた場合には、独立変数1単位の変化が、従属変数が1をとる確率の変化という解釈になりますが、確率の定義からして、0-1の範囲を超えてしまうのは望ましくないというものです。第二に、誤差の等分散性の仮定を違反することです。すなわち、独立変数の水準によらず、誤差は均一に分散しているという仮定が線形回帰モデルには要求されますが、これを違反してしまうというものです。このような問題点から、従属変数が二値の場合には、通常はロジスティック回帰分析(あるいはプロビット)を使うことが慣習になっています。
 しかし、著者は予測値と検定の結果のどちらについても、線形回帰とロジスティック回帰の結果はほとんど変わらないということを示します。つまり、誤差の等分散性の仮定の違反は、実用的にはほとんど問題にならないということです。また、予測値が0-1を超えて無意味な値をとることについても、これは実際にはほとんど起こらないということをまず主張します。そして、それが起こる場合についても、独立変数が二値であれば適切に交互作用を入れればすむことであり、また独立変数が連続的な場合についても、いくつかのダミー変数に変換すればよいのだとしています。
 独立変数が連続的な場合にカテゴリ化することについては、問題点を指摘する論文もあります(例えば、Royston et al. 2006)。しかし、著者のいうように、線形回帰モデルを当てはめた際の、従属変数が1をとる確率の変化という解釈はたしかに魅力的であり、ロジスティック回帰分析における、対数オッズ比の変化よりもはるかに直感的です。よって、ロジスティック回帰を使うことを自明視するべき理由はないということには賛同できました。