Wodtke et al. (2011) "Neighborhood Effects in Temporal Perspective: The Impact of Long-Term Exposure to Concentrated Disadvantage on High School Graduation"

Wodtke, Geoffrey T., David J. Harding, and Felix Elwert. 2011. "Neighborhood Effects in Temporal Perspective: The Impact of Long-Term Exposure to Concentrated Disadvantage on High School Graduation." American Sociological Review 76 713-36. 

  一度読んだのは結構前なのですが、分析上の細かい手続きで気になっているところがあって、再読しています。幼少期の不利な居住環境が高校の卒業確率に与える効果が分析対象で、いわゆるneighborhood effectsの分野になります。

 近隣の居住環境が不利であることがもたらす、累積的な負の効果を検証するというのがオリジナル内容になっています。これはパネルデータにおける時間共変量がもたらす交絡の問題として提示され、Robinsらの周辺構造モデルが適用されます。

 気になっていたのは、処置変数を二値のものではなく、順序尺度で扱っているところです。具体的にはまず、居住地域の不利さを表す7つの変数(貧困、失業、福祉の受給、女性が世帯主の世帯であるかどうか、高卒者の割合、大卒者の割合、専門管理職の割合)から、主成分分析によって合成得点を取り出しています。この得点を五分位に分割しています。こうして処置変数はそれぞれの時点において、5つの値をとる順序尺度とみなされます。

 異なる k時点を通した処置変数の経験が、 \bar{a}_{k}=(a_{1},...,a_{k})と定義されます。ここでデータでは k=16なので、処置変数の値のパターンが 5^{16}だけあることになります。このままではもちろんパラメータの特定化ができないので、関数形を単純化する必要が出てきます。著者たちが用いているのは、

 logit(P(Y_{\bar{a}}=1))=\theta_{0}+\theta_{1}(\sum^{16}_{k=1}a_{k}/16)

というパラメトリックなモデルです。つまり、16時点の不利さの合計を平均化していることになります。なお、 P(Y_{\bar{a}}=1)は、処置変数の値のパターンが {\bar{a}}の際における、高校の卒業確率です。