2021-02-08

DiMaggio（2015）「計算的テキスト分析を社会科学に順応させる（あるいはその逆）」

論文

DiMaggio, Paul. 2015. "Adapting Computational Text Analysis to Social Science (and vice versa)." Big Data and Society 2(2): 1-5.

計算的テキスト分析（computational text analysis）の領域における社会学者とコンピューター科学者の違い
第1の違い：社会科学者は教師なしモデルを多く使用する傾向があるのに対して、データ科学者は教師ありモデルを使用する

近年のテキスト分析の主要な発展は、潜在的ディリクレ配分法などの教師なしアプローチに基づいているものの、ホールドアウト法を使用可能な教師ありモデルとは異なり、教師なしモデルは妥当性の検証がより難しい

第2の違い：機械学習 vs. 統計的説明

因果関係に慣習的に取り憑かれ、統計的有意性の検定に依拠する社会科学者に対して、コンピューター科学者は教師ありモデルを用いて結果に焦点をあてる
コンピューター科学者は統計的な妥当性よりもモデルのデザインにより注意を払うが、これはコンピュータ科学者はほとんどの社会科学者よりも新しいアルゴリズムをより素早く書くことができるというスキルセットの違いから来ている

第3の違い：コンピューター科学者は社会科学者よりも人間を信頼している

Alan Turing以来のコンピュター科学、とりわけ人工知能の分野においては人間により問題解決に取って代わることができるアルゴリズムを作ることが探求されてきた
自然言語処理、特に感情分析においては人間の評価プロセスを模倣するプログラムの作成が目指されてきた
これに対して社会科学者、少なくとも認知心理学の研究に注意を払う社会科学者は、人間の判断に深い懐疑を持っている
立場の違いが感情的な文脈のフレームに影響する場合、人間によるコーディングも、アルゴリズムによるものも、どちらも信頼性は低くなる

社会科学者の相対的な強みは（アルゴリズムの微調整ではなく）、データの事前処理にあるかもしれない
人間が何が得意であり、どのような場合にアルゴリズムによる解決が人間による判断より好ましいかを理解する必要がある

2021-02-06

Bürkner（2017）「brms――Stanを使用したベイジアン・マルチレベルモデルのためのRパッケージ」

論文

Bürkner, Paul-Christian. 2017. "brms: An R Package for Bayesian Multilevel Models Using Stan." Journal of Statistical Software. 80(1): 1-27.

　扱える事前分布の種類やモデリングのオプションが非常に多いのは圧倒されそうになりますが、基本的な使い方はlme4スタイルでとてもわかりやすそうです。

　事後分布の予測値などをどのように可視化できるかこの論文だけだと十分に紹介されていないので、こちらなどでより勉強したいところです。あと役立ちそうなのはこちらとかでしょうか。

2021-02-04

Rでパイプ演算子を使用してクロス集計

統計

　Rでなるべくtidyverseパッケージ（とのその関連）で統一してデータ分析をすることを考えたときに、クロス集計のやり方として、下のようなspread関数を使用する方法を比較的よく見ます（行方向に比率を集計）。

library(tidyverse)

data(mtcars)

mtcars %>%
group_by(am) %>%
count(gear) %>%
mutate(prop = n/sum(n)) %>%
select(-n) %>%
spread(gear, prop, fill = 0)

　あるいはjanitorパッケージを使用するというのもあるようです。

library(janitor)

mtcars %>%
tabyl(am, gear) %>%
adorn_percentages("row")

　しかし、table関数を使用する下記のようなやり方がシンプルでよいように思いました。

mtcars %>%
with(table(am, gear)) %>%
prop.table(margin = 1)

2021-01-27

宇野重規（2020）『民主主義とは何か』

読書

民主主義とは何か (講談社現代新書)

作者:宇野重規
発売日: 2020/10/21
メディア: Kindle版

　発売後わりとすぐに買っていたのですが、半分くらい読んで止まっていました。ここ2,3日で残りを読了しました。

　『保守主義とは何か』では、エドマンド・バークが参照点になっている関係上、フランス革命前後のヨーロッパの記述が分厚かった記憶がありますが、本書は民主主義に関する基本的な流れと論点を解説するというもので、古代ギリシアに多くのページが割かれています。

　扱われている個々の研究についてある程度は知識があっても、「民主主義」という角度から論じられることで、新しく見えてくるものもありました。たとえばロールズの『正義論』は原初状態は社会契約の概念に基づいており、民主主義とも潜在的にはもちろん関係してくるわけですが、あまりそのような点から考えたことがありませんでした。

民主主義の4つの危機

ポピュリズムの台頭
独裁的指導者の増加
第四次産業革命の影響
コロナ危機

多数決をめぐる問い

「民主主義とは多数決である」
「多数派によって抑圧されないように、少数派の意見が尊重されなければならない」

多数決にもとづく民主主義に対して、初期の最大の批判者はプラトン（ソクラテスは民衆裁判によって死刑になった）
アメリカ独立の指導者たちは民主政よりも共和政という言葉を好んでおり、「多数者の利益」よりも「公共の利益」が重視された

選挙をめぐる問い

「選挙を通じて国民の代表者を選ぶのが民主主義である」
「選挙だけが民主主義ではない」

「選挙の日にだけ国民が主権者になる」というルソーの議会制民主主義への批判
アメリカ東部のタウンシップを単位とした自治に民主主義の力を見出したトクヴィル

制度か理念か

「民主主義とは国の制度のことである」
「民主主義とは理念である」

民主主義と区別し、「ポリアーキー」（複数による支配）という言葉をつくり出したダール
「完全に無力な議会」と「政治教育のひとかけらも受けていない国民」を嘆き、強力な大統領によって打破しようとしたウェーバーの挫折
近代の民主主義をめぐる議論が立法権中心になってしまっていることを問題視し、執行権を民主的な統制の下に置くことを提唱したロザンヴァロン

2021-01-24

Halford and Savage（2017）「ビッグデータと社会学的に対話する――交響的社会科学とビッグデータ研究の未来」

論文

Halford, Susan and Mike Savage. 2017. "Speaking Sociologically with Big Data: Symphonic Social Science and the Future for Big Data Research." Sociology 51(6): 1132-48.

「ビッグデータ」とはもともと、従来のコンピュータの保管・分析能力を超えるデータセットを表すために作られた言葉であったが、現在では日常生活のデジタルトレースに内在する様々な性質を含むものになっている

社会学者によるビッグデータ分析への懐疑
Goldthorpe（2016）「ビッグデータが『知識資本主義』に対してどのような価値を持ちようとも、社会科学に対して持つ価値は、少なくとも現時点では非常に疑問の余地がある」

Pikettyの『21世紀の資本』、Putnamの『孤独なボウリング』、Wilkinson and Pickettの『平等社会』は、いずれもビッグデータを使用したものではないが、これらのアプローチは革新的な形によるデータの組み立てをしており、それをここでは「交響的社会科学」（symphonic social science）と呼ぶ
これらの著者たちは、社会学者が「社会学的想像力」と呼ぶものの際立った刷新を可能にするような、「全体像」の議論をしている

交響的アプローチとビッグデータ分析の類似性

（1）複数の、かつ多様な「発見された」データ源を別の目的で使用する、
（2）相関関係の協調
（3）視覚化の使用

交響的アプローチとビッグデータの重要な差異

（1）交響的社会科学は豊かな理論的認識と（2）野心的で多岐にわたる社会的問題に取り組むために注意深く選ばれたデータとを組み合わせる
（3）ビックデータ分析は、数時間の間における「リアルタイム分析」や特定のスーパーマーケットにおけ購買行動などのミクロなパターンに注目するのに対して、交響的社会科学は長期的なトレンドと多岐にわたる比較に注目する
（4）相関は因果に取って代わる（replace）のではなく、むしろ因果を排除し（displace）、因果的な主張は推測統計から社会学的な概念と理論へと切り替えられ、またこれらの概念と理論は繰り返されるモチーフと交響的なナラティブを結びつける
（5）ビッグデータ分析では可視化はデータを提示する上での技術政治的な方法として用いられるのに対して、交響的アプローチでは可視化は意図的な分析戦略として採用される

交響的社会科学における因果の主張

WikinsonとPickettの研究では、複数のデータを利用した線形回帰分析が繰り返し行われ、所得の不平等と特許の数、寿命などの29もの異なるトピックの関係が示されている
Pikettyも様々な国における富の集中の例を積み上げている
これらの著者たちは因果に関心がないわけではなく、むしろ因果を多くの実証例による精緻化（elaboration）と詳説（explication）によって立証しているのである
これらの著者たちは定量的研究の専門家であるものの、複雑な統計モデルを使用するのではなく、理論的な議論によって裏付けされた相関の証拠を繰り返すことで因果を主張している

2020-09-21

Molina and Garip（2019）「社会学のための機械学習」

論文

Molina, Mario and Filiz Garip. 2019. "Machine Learning for Sociology." Annual Review of Sociology 45: 27-45.

　面白かったところを中心に。機械学習は主に予測を目的にした方法ということで、因果推論とは対立する部分が多いと思っていたのですが、母集団の異質性の問題に対して有用ということが知れたのはよかったです。

教師あり／教師なし機械学習とはフォーマルに定義された用語ではない。多くの機械学習のアルゴリズムは両者のタスクに使うことができる。他の名前として、予測的学習／描写（representation）学習というものもある。
Donoho（2017）は統計分析を生成的（generative）モデリングと予測的モデリングに分類している。古典的統計学は生成的モデリングに従うものであり、その目標は推論、すなわちアウトカムがどのようにインプットに関連しているかを理解することである。生成的モデリングは単純で解釈しやすいモデルをもたらすものの、しばしばモデルの不確実性と分析対象ではないサンプルにおけるパフォーマンスを無視してしまう。
機械学習は予測的モデリングに従うものであり、その目標は予測、すなわち将来のインプットに対するアウトカムを予想することである。予測的モデリングは分析対象外のサンプルによくあてはまる複雑なモデルを採用するものの、インプットとアウトプットを結ぶメカニズムについて、ほとんど洞察をもたらさないブラックボックスを生み出す可能性がある。
教師あり機械学習は分析内・分析外散布つの誤差を減らす理想的なバランスを求める。この目標はデータ分析の2つの落とし穴である過少適合と過剰適合を避ける上で役に立つ。
正則化（regularization）によって、教師あり機械学習はノイズに対してあてはめることなく、潜在的なシグナルにあてはめるために十分に複雑な関数を効率的に探索する。
教師あり機械学習において重要なステップは、モデル選択に使用するデータと、モデル評価に使用するデータを分離することである。理想的な設定は、2つではなく3つのデータセットを作ることである。すなわち、訓練データをモデルのあてはめに使用し、複数のモデルから選択するために検証（validation）データを別にしておき、そしてテストデータ（ホールドアウトデータ）を選択したモデルを一般化する際の誤りのために取っておく。理想的なデータ分割の一般的な基準はないものの、データの半分を訓練データのために、残りの4分の1ずつを検証とテストのために用いるという方法がある。
このデータ分割の方法には欠点もある。検証とテストのためにデータを確保することで、推定に使用するデータが少なくなり、過少適合のリスクが増加してしまう。折衷的な方法として、特にデータが小さいときには訓練データと検証データを一緒にして、k分割交差検証を用いるというものがある。
社会科学者は特定の性質（不偏性や一致性）をともなった特定の推定値をもたらす統計モデルに慣れ親しんでいる。しかし教師あり機械学習は $\hat{\beta}$ を復元するようにデザインされているのではなく、 $\hat{Y}$ タスクと呼ばれるものを解くのに優れている。
教師あり機械学習は、XとYの関係を理解するのが目下の関心ではなく、むしろ新規のデータにおけるYを予測するのにXを用いることに関心がある場合に、政策の予測に役立てることができる。
教師あり機械学習のツールは、予測のタスクをともなう特定の因果推論の手続きにも役立つ。現在では実験データにおける下位母集団における処置効果の異質性を識別する上で教師あり機械学習が用いられている。
観察データを用いた因果推論においては、傾向スコアの推定は予測のタスクをともなうために、教師あり機械学習が適している。伝統的なロジスティック回帰に代わるものとして、ブースティング、ニューラルネットワーク、回帰木が近年の研究では用いられている。
欠落変数バイアスに対処する方法の一つは操作変数法である。この第一段階では予測タスクが含まれるため、教師あり機械学習のツールを用いることができる。
教師なし機械学習は測定と発見に用いることができる。教師なし機械学習からのアウトプットは、後の分析や理論化を可能にするインプットになることが多い。
仮説検証の際に、社会理論は少数の変数とそれぞれの変数の平均効果へと平らにならされる。ほとんどの理論を「時として真実である言明」（sometimes-true statements）を提示するものであることは無視されている。しかし、異なるメカニズムが同時に作動している可能性もある。機械学習は母集団の異質性を特徴化する新たなツールをもたらすものである。
機械学習はあるインプットのアウトプットへの効果を推定するという従来的な問いへの戦略を改善するのみならず、新たな問いへの着想に役立つツールを提供する。例えば、一連のインプットがどの程度にアウトプットを予測できるか、こうして得られた予測がどの程度に観察されたアウトカムから逸脱しており、またそれはなぜなのか、あるインプットの潜在的な構造はなにか、その構造はどのように外的な要因と関連しているのか、といったものだえる。

2020-08-13

「なぜ君は総理大臣になれないのか」

映画

http://www.nazekimi.com/

自宅近くの映画館（徒歩圏内）で公開が本日までだったので観てきました。小川淳也議員に対して17年間という長期に渡った取材に基づくドキュメンタリーです。最近ほとんど職場以外には外出していなかったのですが、入り口での検温、アルコールでの手指の消毒、席間のスペース確保、館内の換気と映画館もいろいろと対策をとっているのだなあと思いました。
政治家を被写体としたドキュメンタリーだと、想田和弘監督の「選挙」を以前に観ました。想田監督の「観察映画」手法に基づいた「選挙」はナレーションや字幕がほぼないのに対して、本作ではそれらの要素がしばしば入れられます。10年以上前の映像を用いている場面では、当時の時代背景について理解を補うためにこうした情報があった方がよいという判断もあったのかもれません。また、「この人を応援したいと思うようになった」、「議員には向いてないのではないかと思うようになった」などの監督自身の思想を明確に打ち出したナレーションがあったのも印象的です。
「なぜ君は総理大臣になれないのか」というタイトルの問いに対しては、（1）地盤がないために選挙区での当選回数が少なく、比例復活によって当選した議員は党内での発言力が弱い、（2）党利党略によって党内での出世を狙う本人の関心・意欲が弱いということが挙げられていました。この問いをタイトルに据えるのであれば、所属政党の他議員を取材する場面であったり、小川議員が（党利党略ではなく）自身の社会構想について論じたりする場面があってもよさそうだと思いました。2時間の映像の半分近くが希望の党から出馬した際の衆院選に割かれていたのですが、やや冗長にも思われました。
想田監督の「選挙」を観たときにも思いましたが、プライベートと公的な生活が交錯する場面は、ドキュメンタリーを観ていて面白く感じられる時間ですね。本作だと、小川議員の長女・次女が街宣に付きそったり、有権者に電話をかけたりするシーンには惹きつけられます。
社会保障を手厚くしようと主張していても増税（特に消費税）は積極的に主張できない政治家が多い中で、不利益の再分配について口にできるのはやはり誠実な姿勢が現れていると思います。本作の中でも井手先生が応援演説をしていましたが、評価されるのもわかります。