Molina, Mario and Filiz Garip. 2019. "Machine Learning for Sociology." Annual Review of Sociology 45: 27-45.
面白かったところを中心に。機械学習は主に予測を目的にした方法ということで、因果推論とは対立する部分が多いと思っていたのですが、母集団の異質性の問題に対して有用ということが知れたのはよかったです。
-
教師あり機械学習は分析内・分析外散布つの誤差を減らす理想的なバランスを求める。この目標はデータ分析の2つの落とし穴である過少適合と過剰適合を避ける上で役に立つ。
-
このデータ分割の方法には欠点もある。検証とテストのためにデータを確保することで、推定に使用するデータが少なくなり、過少適合のリスクが増加してしまう。折衷的な方法として、特にデータが小さいときには訓練データと検証データを一緒にして、k分割交差検証を用いるというものがある。
-
社会科学者は特定の性質(不偏性や一致性)をともなった特定の推定値をもたらす統計モデルに慣れ親しんでいる。しかし教師あり機械学習はを復元するようにデザインされているのではなく、タスクと呼ばれるものを解くのに優れている。
-
教師あり機械学習は、XとYの関係を理解するのが目下の関心ではなく、むしろ新規のデータにおけるYを予測するのにXを用いることに関心がある場合に、政策の予測に役立てることができる。
-
観察データを用いた因果推論においては、傾向スコアの推定は予測のタスクをともなうために、教師あり機械学習が適している。伝統的なロジスティック回帰に代わるものとして、ブースティング、ニューラルネットワーク、回帰木が近年の研究では用いられている。
-
欠落変数バイアスに対処する方法の一つは操作変数法である。この第一段階では予測タスクが含まれるため、教師あり機械学習のツールを用いることができる。