Molina and Garip(2019)「社会学のための機械学習」

 

Molina, Mario and Filiz Garip. 2019. "Machine Learning for Sociology." Annual Review of Sociology 45: 27-45. 

 

 面白かったところを中心に。機械学習は主に予測を目的にした方法ということで、因果推論とは対立する部分が多いと思っていたのですが、母集団の異質性の問題に対して有用ということが知れたのはよかったです。

 

  • 教師あり/教師なし機械学習とはフォーマルに定義された用語ではない。多くの機械学習アルゴリズムは両者のタスクに使うことができる。他の名前として、予測的学習/描写(representation)学習というものもある。
  • Donoho(2017)は統計分析を生成的(generative)モデリングと予測的モデリングに分類している。古典的統計学は生成的モデリングに従うものであり、その目標は推論、すなわちアウトカムがどのようにインプットに関連しているかを理解することである。生成的モデリングは単純で解釈しやすいモデルをもたらすものの、しばしばモデルの不確実性と分析対象ではないサンプルにおけるパフォーマンスを無視してしまう。
  • 機械学習は予測的モデリングに従うものであり、その目標は予測、すなわち将来のインプットに対するアウトカムを予想することである。予測的モデリングは分析対象外のサンプルによくあてはまる複雑なモデルを採用するものの、インプットとアウトプットを結ぶメカニズムについて、ほとんど洞察をもたらさないブラックボックスを生み出す可能性がある。
  • 教師あり機械学習は分析内・分析外散布つの誤差を減らす理想的なバランスを求める。この目標はデータ分析の2つの落とし穴である過少適合と過剰適合を避ける上で役に立つ。
  • 正則化(regularization)によって、教師あり機械学習はノイズに対してあてはめることなく、潜在的なシグナルにあてはめるために十分に複雑な関数を効率的に探索する。
  • 教師あり機械学習において重要なステップは、モデル選択に使用するデータと、モデル評価に使用するデータを分離することである。理想的な設定は、2つではなく3つのデータセットを作ることである。すなわち、訓練データをモデルのあてはめに使用し、複数のモデルから選択するために検証(validation)データを別にしておき、そしてテストデータ(ホールドアウトデータ)を選択したモデルを一般化する際の誤りのために取っておく。理想的なデータ分割の一般的な基準はないものの、データの半分を訓練データのために、残りの4分の1ずつを検証とテストのために用いるという方法がある。
  • このデータ分割の方法には欠点もある。検証とテストのためにデータを確保することで、推定に使用するデータが少なくなり、過少適合のリスクが増加してしまう。折衷的な方法として、特にデータが小さいときには訓練データと検証データを一緒にして、k分割交差検証を用いるというものがある。
  • 社会科学者は特定の性質(不偏性や一致性)をともなった特定の推定値をもたらす統計モデルに慣れ親しんでいる。しかし教師あり機械学習 \hat{\beta}を復元するようにデザインされているのではなく、 \hat{Y}タスクと呼ばれるものを解くのに優れている。
  • 教師あり機械学習は、XとYの関係を理解するのが目下の関心ではなく、むしろ新規のデータにおけるYを予測するのにXを用いることに関心がある場合に、政策の予測に役立てることができる。
  • 教師あり機械学習のツールは、予測のタスクをともなう特定の因果推論の手続きにも役立つ。現在では実験データにおける下位母集団における処置効果の異質性を識別する上で教師あり機械学習が用いられている。
  • 観察データを用いた因果推論においては、傾向スコアの推定は予測のタスクをともなうために、教師あり機械学習が適している。伝統的なロジスティック回帰に代わるものとして、ブースティング、ニューラルネットワーク、回帰木が近年の研究では用いられている。
  • 欠落変数バイアスに対処する方法の一つは操作変数法である。この第一段階では予測タスクが含まれるため、教師あり機械学習のツールを用いることができる。
  • 教師なし機械学習は測定と発見に用いることができる。教師なし機械学習からのアウトプットは、後の分析や理論化を可能にするインプットになることが多い。
  • 仮説検証の際に、社会理論は少数の変数とそれぞれの変数の平均効果へと平らにならされる。ほとんどの理論を「時として真実である言明」(sometimes-true statements)を提示するものであることは無視されている。しかし、異なるメカニズムが同時に作動している可能性もある。機械学習は母集団の異質性を特徴化する新たなツールをもたらすものである。
  • 機械学習はあるインプットのアウトプットへの効果を推定するという従来的な問いへの戦略を改善するのみならず、新たな問いへの着想に役立つツールを提供する。例えば、一連のインプットがどの程度にアウトプットを予測できるか、こうして得られた予測がどの程度に観察されたアウトカムから逸脱しており、またそれはなぜなのか、あるインプットの潜在的な構造はなにか、その構造はどのように外的な要因と関連しているのか、といったものだえる。

 

「なぜ君は総理大臣になれないのか」

 

 

http://www.nazekimi.com/

  • 自宅近くの映画館(徒歩圏内)で公開が本日までだったので観てきました。小川淳也議員に対して17年間という長期に渡った取材に基づくドキュメンタリーです。最近ほとんど職場以外には外出していなかったのですが、入り口での検温、アルコールでの手指の消毒、席間のスペース確保、館内の換気と映画館もいろいろと対策をとっているのだなあと思いました。
  • 政治家を被写体としたドキュメンタリーだと、想田和弘監督の「選挙」を以前に観ました。想田監督の「観察映画」手法に基づいた「選挙」はナレーションや字幕がほぼないのに対して、本作ではそれらの要素がしばしば入れられます。10年以上前の映像を用いている場面では、当時の時代背景について理解を補うためにこうした情報があった方がよいという判断もあったのかもれません。また、「この人を応援したいと思うようになった」、「議員には向いてないのではないかと思うようになった」などの監督自身の思想を明確に打ち出したナレーションがあったのも印象的です。
  • 「なぜ君は総理大臣になれないのか」というタイトルの問いに対しては、(1)地盤がないために選挙区での当選回数が少なく、比例復活によって当選した議員は党内での発言力が弱い、(2)党利党略によって党内での出世を狙う本人の関心・意欲が弱いということが挙げられていました。この問いをタイトルに据えるのであれば、所属政党の他議員を取材する場面であったり、小川議員が(党利党略ではなく)自身の社会構想について論じたりする場面があってもよさそうだと思いました。2時間の映像の半分近くが希望の党から出馬した際の衆院選に割かれていたのですが、やや冗長にも思われました。
  • 想田監督の「選挙」を観たときにも思いましたが、プライベートと公的な生活が交錯する場面は、ドキュメンタリーを観ていて面白く感じられる時間ですね。本作だと、小川議員の長女・次女が街宣に付きそったり、有権者に電話をかけたりするシーンには惹きつけられます。
  • 社会保障を手厚くしようと主張していても増税(特に消費税)は積極的に主張できない政治家が多い中で、不利益の再分配について口にできるのはやはり誠実な姿勢が現れていると思います。本作の中でも井手先生が応援演説をしていましたが、評価されるのもわかります。

科研費による学会の年会費支払い

 

  • 以前の所属先では、個人研究費による学会の年会費支払いができたので、新しい勤務先でそれが可能か事務の方に質問したところ、「個人研究費ではできませんが、科研費からはできます」と言われて、思わず「えっ!?」と驚きました。
  • 学会の年会費は特に研究課題に関わる活動をしていなくてもかかるものなので、科研費からの支出はできないという理解でした。
  • 「最近規定が変わってできるようになりました」と言われて、学振のサイトで科研費FAQをみると、「当該学会の活動に参加することが、科研費の研究の遂行のために必要であるならば可能です」とたしかに記載されていました。
  • 個人的には嬉しい変更ではありますが、「課題遂行のために必要」という点が研究者個人の判断に任せられる場合には、いくつでも学会の年会費に適用できてしまうのでよいのかなとも思いました。

データに強くなる

 

  • マクロデータを扱っていると、G先生の授業に出ていた時のことをしばしば思い出します。
  • G先生の授業スタイルとして、「今日本に失業者って何人いるの?」、「失業者と無業者の違いは?」、「毎月勤労統計調査と労働力調査が示す労働時間は同じ?」といったことを学生にガンガン質問してくるのですね。公的統計を見る上で、定義を確認することや、比率だけではなく絶対数にも注目する重要性を学びました。G先生の初めの単著も、中高年男性の失業者が絶対数としてそれほど多くないことに気づき、若年雇用の問題に焦点を当てることになったというエピソードも紹介されていました。
  • G先生自身はデータへの習熟に関しては意識して取り組まれてきたそうで、「数学では周りの院生に絶対に敵わないと思ったから、データに徹底的に強くなろうと思った」ということでした。院生時代は暇さえあれば、就業構造基本調査の集計表を眺めていたということで、e-Statで確認できるようになった今でも、図書館に潜って紙の集計表を見るべきだともおっしゃられていました。

 

単数名詞としてのdata

 

 英文記事の見出しで、"data shows ..."となっており、「あれ、dataはdatumの複数形だからshowsとなるのではおかしいのでは?」と思いました。

 調べてみたところ、dataを単数扱いするのはだんだんと受け入れられているとのことでした。他にも、agendaはもともとagendumの複数形であったものの、現在では単数名詞として使用されるのが一般的になったということも勉強になりました。

 

クロード・スティール(2010=2020)『ステレオタイプの科学――「社会の刷り込み」は成果にどう影響し、わたしたちは何ができるのか』

 

 

  • どうも自分はマルチタスクが苦手で、つまり目の前の作業にかかりきりになってしまうことがよくあるので、授業準備と大学関係業務と研究を並行してどう進めていくのかという点で、まだまだ課題を感じます。
  • これも授業に関連して買った本ですが、定期的なインプットを続けられるようにしていきたいですね。

 

  • 原題のWhistling Vivaldiとは、ニューヨーク・タイムズのコラムニストであったブレント・ステープルズという人が若い頃に、道を歩いている時に自分が黒人男性であるということで脅威を持たれないように、ヴィヴァルディの曲を口笛で吹き、自分は高尚な白人文化を持っているように振る舞うことで、周囲の人々の緊張が解けていくのを感じたというエピソードに基づいているようです。
  • 人をある種の固定観念に基づいて見るときの鋳型である「ステレオタイプ」について、あるステレオタイプに自分が晒されるのではないかという「ステレオタイプ脅威」が人々の様々なパフォーマンスに影響するという社会心理学の実験結果をまとめたものになっています。
  • このステレオタイプ脅威とは、ある社会的アイデンティティを持つ人々が自らの望むことを実現する上で対処しなければならない状況という、「アイデンティティ付随条件」の1つとして捉えられ、これによってテストの成績の男女差や人種間の社会的分断をも説明する要因であるという主張されます。ただし、ステレオタイプ脅威とは状況依存的で、人々がステレオタイプ脅威を気にしなくてもよい状況を人為的に作り出すことで、パフォーマンスへのネガティヴな影響も抑えられるという証拠や、そこからのインプリケーションも示されます。
  • 様々な実験研究に関して、著者自身がどのような批判を受けてきたかなど、対立仮説を丁寧に退けていくプロセスが記述されており、非専門家を念頭に置いて書かれた本でありつつも、社会心理学の研究デザインについていろいろと学べる構成になっていました。

 

雑多なメモ

  • 黒人学生は、SATの成績が同レベルの白人学生に比べて、大学での成績が振るわないという事実
  • 数学のテストが始まる前に、「これから受けてもらうテストでは、女性の成績はいつも男性と同じです」という説明をくわえたグループでは、女子学生の点数は基礎学力が同程度の男子学生と差がなくなった
  • 自分が所属する集団に関するネガティヴなステレオタイプを追認するリスクがなくなることで、成績不振が消えた
  • ステレオタイプ脅威は、差別などの悪意が存在しなくても生じる可能性がある
  • 付随条件(contingencies)とは、行動主義心理学に由来する条件で随伴性とも呼ばれる→ある行動がどのように評価されるかが、その環境にいる人々の行動を規定するようになるという考え方
  • アイデンティティと関連する行動や結果を変えたいなら、そのアイデンティティの内的兆候を変えるのではなく、その内的兆候が適応している環境を変えることに力を注ぐべきである
  • アフリカ系アメリカ人政治学」の授業に出席する白人学生の心理状態に見られるように、ステレオタイプ脅威は状況次第で誰でも経験しうるものである。

 

 

ハドリー・ウィッカム&ギャレット・グロールマンド(2017=2017)『Rではじめるデータサイエンス』

 

Rではじめるデータサイエンス

Rではじめるデータサイエンス

 

 

  • 以前にも一度読んだのですが、あらためて一通り動かして、ようやくある程度は使えるようになってきました。dplyrでパイプ演算子を使うと非常に直感的でわかりやすいですね。
  • 本書の出版後にtidyrが更新されているようで、pivot_longer()の使い方についても少し調べました。
  • R Markdownで日本語を含むpdfを出力する設定に少々手惑いましたが、いちおうできるようになったので、授業の資料もこれで作っていきたいと思います。