Molina and Garip(2019)「社会学のための機械学習」

 

Molina, Mario and Filiz Garip. 2019. "Machine Learning for Sociology." Annual Review of Sociology 45: 27-45. 

 

 面白かったところを中心に。機械学習は主に予測を目的にした方法ということで、因果推論とは対立する部分が多いと思っていたのですが、母集団の異質性の問題に対して有用ということが知れたのはよかったです。

 

  • 教師あり/教師なし機械学習とはフォーマルに定義された用語ではない。多くの機械学習アルゴリズムは両者のタスクに使うことができる。他の名前として、予測的学習/描写(representation)学習というものもある。
  • Donoho(2017)は統計分析を生成的(generative)モデリングと予測的モデリングに分類している。古典的統計学は生成的モデリングに従うものであり、その目標は推論、すなわちアウトカムがどのようにインプットに関連しているかを理解することである。生成的モデリングは単純で解釈しやすいモデルをもたらすものの、しばしばモデルの不確実性と分析対象ではないサンプルにおけるパフォーマンスを無視してしまう。
  • 機械学習は予測的モデリングに従うものであり、その目標は予測、すなわち将来のインプットに対するアウトカムを予想することである。予測的モデリングは分析対象外のサンプルによくあてはまる複雑なモデルを採用するものの、インプットとアウトプットを結ぶメカニズムについて、ほとんど洞察をもたらさないブラックボックスを生み出す可能性がある。
  • 教師あり機械学習は分析内・分析外散布つの誤差を減らす理想的なバランスを求める。この目標はデータ分析の2つの落とし穴である過少適合と過剰適合を避ける上で役に立つ。
  • 正則化(regularization)によって、教師あり機械学習はノイズに対してあてはめることなく、潜在的なシグナルにあてはめるために十分に複雑な関数を効率的に探索する。
  • 教師あり機械学習において重要なステップは、モデル選択に使用するデータと、モデル評価に使用するデータを分離することである。理想的な設定は、2つではなく3つのデータセットを作ることである。すなわち、訓練データをモデルのあてはめに使用し、複数のモデルから選択するために検証(validation)データを別にしておき、そしてテストデータ(ホールドアウトデータ)を選択したモデルを一般化する際の誤りのために取っておく。理想的なデータ分割の一般的な基準はないものの、データの半分を訓練データのために、残りの4分の1ずつを検証とテストのために用いるという方法がある。
  • このデータ分割の方法には欠点もある。検証とテストのためにデータを確保することで、推定に使用するデータが少なくなり、過少適合のリスクが増加してしまう。折衷的な方法として、特にデータが小さいときには訓練データと検証データを一緒にして、k分割交差検証を用いるというものがある。
  • 社会科学者は特定の性質(不偏性や一致性)をともなった特定の推定値をもたらす統計モデルに慣れ親しんでいる。しかし教師あり機械学習 \hat{\beta}を復元するようにデザインされているのではなく、 \hat{Y}タスクと呼ばれるものを解くのに優れている。
  • 教師あり機械学習は、XとYの関係を理解するのが目下の関心ではなく、むしろ新規のデータにおけるYを予測するのにXを用いることに関心がある場合に、政策の予測に役立てることができる。
  • 教師あり機械学習のツールは、予測のタスクをともなう特定の因果推論の手続きにも役立つ。現在では実験データにおける下位母集団における処置効果の異質性を識別する上で教師あり機械学習が用いられている。
  • 観察データを用いた因果推論においては、傾向スコアの推定は予測のタスクをともなうために、教師あり機械学習が適している。伝統的なロジスティック回帰に代わるものとして、ブースティング、ニューラルネットワーク、回帰木が近年の研究では用いられている。
  • 欠落変数バイアスに対処する方法の一つは操作変数法である。この第一段階では予測タスクが含まれるため、教師あり機械学習のツールを用いることができる。
  • 教師なし機械学習は測定と発見に用いることができる。教師なし機械学習からのアウトプットは、後の分析や理論化を可能にするインプットになることが多い。
  • 仮説検証の際に、社会理論は少数の変数とそれぞれの変数の平均効果へと平らにならされる。ほとんどの理論を「時として真実である言明」(sometimes-true statements)を提示するものであることは無視されている。しかし、異なるメカニズムが同時に作動している可能性もある。機械学習は母集団の異質性を特徴化する新たなツールをもたらすものである。
  • 機械学習はあるインプットのアウトプットへの効果を推定するという従来的な問いへの戦略を改善するのみならず、新たな問いへの着想に役立つツールを提供する。例えば、一連のインプットがどの程度にアウトプットを予測できるか、こうして得られた予測がどの程度に観察されたアウトカムから逸脱しており、またそれはなぜなのか、あるインプットの潜在的な構造はなにか、その構造はどのように外的な要因と関連しているのか、といったものだえる。