2021-04-26

Edelman et al.（2020）「計算社会科学と社会学」

論文

Edelman, Achim et al. 2020. "Computational Social Science and Sociology." Annual Review of Sociology 46: 61-81.

計算社会科学とはもともと、エージェント・ベースト・モデル、あるいは仮想的な集団において人間行動をシミュレーションするためにコンピュータを使用するものを指していた
この論文での定義：計算社会科学とは、ソーシャル・メディア、インターネット、あるいは行政記録などのデジタル化されたアーカイブから得られた大規模なデータセットに対してコンピュータ技術を適用し、人間行動の理論を発展させる学際的な分野である
計算社会科学が急速に浸透してきている社会学の分野：（a）社会ネットワークと集団形成、（b）集合行動と政治社会学、（c）知識社会学、（d）文化社会学、社会心理学、感情の社会学、（e）文化の生産、（f）経済社会学と組織研究、（g）人口学・人口研究
今後近い将来、計算社会科学の中でがもっとも有力な研究は、文化的な変化のような理論のマクロなレベルと、意思決定のミクロなレベルをつなげるタイプのものであろう
社会学者は、現実の社会的構成や自己成就的予言といった社会学理論の中心教義によって、新たな社会空間の研究をいかに発展させることができるのか、積極的に議論に加わるべきである
計算社会科学に広く統合されていない社会学の下位領域は多くあり、これらには人種とエスニシティ、犯罪、教育、不平等・社会階層、地域、性・ジェンダー、法、医療、歴史、宗教などが含まれる

↓も買いました

計算社会科学入門

作者:鳥海不二夫
発売日: 2021/01/27
メディア: 単行本

2021-02-08

DiMaggio（2015）「計算的テキスト分析を社会科学に順応させる（あるいはその逆）」

論文

DiMaggio, Paul. 2015. "Adapting Computational Text Analysis to Social Science (and vice versa)." Big Data and Society 2(2): 1-5.

計算的テキスト分析（computational text analysis）の領域における社会学者とコンピューター科学者の違い
第1の違い：社会科学者は教師なしモデルを多く使用する傾向があるのに対して、データ科学者は教師ありモデルを使用する

近年のテキスト分析の主要な発展は、潜在的ディリクレ配分法などの教師なしアプローチに基づいているものの、ホールドアウト法を使用可能な教師ありモデルとは異なり、教師なしモデルは妥当性の検証がより難しい

第2の違い：機械学習 vs. 統計的説明

因果関係に慣習的に取り憑かれ、統計的有意性の検定に依拠する社会科学者に対して、コンピューター科学者は教師ありモデルを用いて結果に焦点をあてる
コンピューター科学者は統計的な妥当性よりもモデルのデザインにより注意を払うが、これはコンピュータ科学者はほとんどの社会科学者よりも新しいアルゴリズムをより素早く書くことができるというスキルセットの違いから来ている

第3の違い：コンピューター科学者は社会科学者よりも人間を信頼している

Alan Turing以来のコンピュター科学、とりわけ人工知能の分野においては人間により問題解決に取って代わることができるアルゴリズムを作ることが探求されてきた
自然言語処理、特に感情分析においては人間の評価プロセスを模倣するプログラムの作成が目指されてきた
これに対して社会科学者、少なくとも認知心理学の研究に注意を払う社会科学者は、人間の判断に深い懐疑を持っている
立場の違いが感情的な文脈のフレームに影響する場合、人間によるコーディングも、アルゴリズムによるものも、どちらも信頼性は低くなる

社会科学者の相対的な強みは（アルゴリズムの微調整ではなく）、データの事前処理にあるかもしれない
人間が何が得意であり、どのような場合にアルゴリズムによる解決が人間による判断より好ましいかを理解する必要がある

2021-02-06

Bürkner（2017）「brms――Stanを使用したベイジアン・マルチレベルモデルのためのRパッケージ」

論文

Bürkner, Paul-Christian. 2017. "brms: An R Package for Bayesian Multilevel Models Using Stan." Journal of Statistical Software. 80(1): 1-27.

　扱える事前分布の種類やモデリングのオプションが非常に多いのは圧倒されそうになりますが、基本的な使い方はlme4スタイルでとてもわかりやすそうです。

　事後分布の予測値などをどのように可視化できるかこの論文だけだと十分に紹介されていないので、こちらなどでより勉強したいところです。あと役立ちそうなのはこちらとかでしょうか。

2021-02-04

Rでパイプ演算子を使用してクロス集計

統計

　Rでなるべくtidyverseパッケージ（とのその関連）で統一してデータ分析をすることを考えたときに、クロス集計のやり方として、下のようなspread関数を使用する方法を比較的よく見ます（行方向に比率を集計）。

library(tidyverse)

data(mtcars)

mtcars %>%
group_by(am) %>%
count(gear) %>%
mutate(prop = n/sum(n)) %>%
select(-n) %>%
spread(gear, prop, fill = 0)

　あるいはjanitorパッケージを使用するというのもあるようです。

library(janitor)

mtcars %>%
tabyl(am, gear) %>%
adorn_percentages("row")

　しかし、table関数を使用する下記のようなやり方がシンプルでよいように思いました。

mtcars %>%
with(table(am, gear)) %>%
prop.table(margin = 1)

2021-01-27

宇野重規（2020）『民主主義とは何か』

読書

民主主義とは何か (講談社現代新書)

作者:宇野重規
発売日: 2020/10/21
メディア: Kindle版

　発売後わりとすぐに買っていたのですが、半分くらい読んで止まっていました。ここ2,3日で残りを読了しました。

　『保守主義とは何か』では、エドマンド・バークが参照点になっている関係上、フランス革命前後のヨーロッパの記述が分厚かった記憶がありますが、本書は民主主義に関する基本的な流れと論点を解説するというもので、古代ギリシアに多くのページが割かれています。

　扱われている個々の研究についてある程度は知識があっても、「民主主義」という角度から論じられることで、新しく見えてくるものもありました。たとえばロールズの『正義論』は原初状態は社会契約の概念に基づいており、民主主義とも潜在的にはもちろん関係してくるわけですが、あまりそのような点から考えたことがありませんでした。

民主主義の4つの危機

ポピュリズムの台頭
独裁的指導者の増加
第四次産業革命の影響
コロナ危機

多数決をめぐる問い

「民主主義とは多数決である」
「多数派によって抑圧されないように、少数派の意見が尊重されなければならない」

多数決にもとづく民主主義に対して、初期の最大の批判者はプラトン（ソクラテスは民衆裁判によって死刑になった）
アメリカ独立の指導者たちは民主政よりも共和政という言葉を好んでおり、「多数者の利益」よりも「公共の利益」が重視された

選挙をめぐる問い

「選挙を通じて国民の代表者を選ぶのが民主主義である」
「選挙だけが民主主義ではない」

「選挙の日にだけ国民が主権者になる」というルソーの議会制民主主義への批判
アメリカ東部のタウンシップを単位とした自治に民主主義の力を見出したトクヴィル

制度か理念か

「民主主義とは国の制度のことである」
「民主主義とは理念である」

民主主義と区別し、「ポリアーキー」（複数による支配）という言葉をつくり出したダール
「完全に無力な議会」と「政治教育のひとかけらも受けていない国民」を嘆き、強力な大統領によって打破しようとしたウェーバーの挫折
近代の民主主義をめぐる議論が立法権中心になってしまっていることを問題視し、執行権を民主的な統制の下に置くことを提唱したロザンヴァロン

2021-01-24

Halford and Savage（2017）「ビッグデータと社会学的に対話する――交響的社会科学とビッグデータ研究の未来」

論文

Halford, Susan and Mike Savage. 2017. "Speaking Sociologically with Big Data: Symphonic Social Science and the Future for Big Data Research." Sociology 51(6): 1132-48.

「ビッグデータ」とはもともと、従来のコンピュータの保管・分析能力を超えるデータセットを表すために作られた言葉であったが、現在では日常生活のデジタルトレースに内在する様々な性質を含むものになっている

社会学者によるビッグデータ分析への懐疑
Goldthorpe（2016）「ビッグデータが『知識資本主義』に対してどのような価値を持ちようとも、社会科学に対して持つ価値は、少なくとも現時点では非常に疑問の余地がある」

Pikettyの『21世紀の資本』、Putnamの『孤独なボウリング』、Wilkinson and Pickettの『平等社会』は、いずれもビッグデータを使用したものではないが、これらのアプローチは革新的な形によるデータの組み立てをしており、それをここでは「交響的社会科学」（symphonic social science）と呼ぶ
これらの著者たちは、社会学者が「社会学的想像力」と呼ぶものの際立った刷新を可能にするような、「全体像」の議論をしている

交響的アプローチとビッグデータ分析の類似性

（1）複数の、かつ多様な「発見された」データ源を別の目的で使用する、
（2）相関関係の協調
（3）視覚化の使用

交響的アプローチとビッグデータの重要な差異

（1）交響的社会科学は豊かな理論的認識と（2）野心的で多岐にわたる社会的問題に取り組むために注意深く選ばれたデータとを組み合わせる
（3）ビックデータ分析は、数時間の間における「リアルタイム分析」や特定のスーパーマーケットにおけ購買行動などのミクロなパターンに注目するのに対して、交響的社会科学は長期的なトレンドと多岐にわたる比較に注目する
（4）相関は因果に取って代わる（replace）のではなく、むしろ因果を排除し（displace）、因果的な主張は推測統計から社会学的な概念と理論へと切り替えられ、またこれらの概念と理論は繰り返されるモチーフと交響的なナラティブを結びつける
（5）ビッグデータ分析では可視化はデータを提示する上での技術政治的な方法として用いられるのに対して、交響的アプローチでは可視化は意図的な分析戦略として採用される

交響的社会科学における因果の主張

WikinsonとPickettの研究では、複数のデータを利用した線形回帰分析が繰り返し行われ、所得の不平等と特許の数、寿命などの29もの異なるトピックの関係が示されている
Pikettyも様々な国における富の集中の例を積み上げている
これらの著者たちは因果に関心がないわけではなく、むしろ因果を多くの実証例による精緻化（elaboration）と詳説（explication）によって立証しているのである
これらの著者たちは定量的研究の専門家であるものの、複雑な統計モデルを使用するのではなく、理論的な議論によって裏付けされた相関の証拠を繰り返すことで因果を主張している

2020-09-21

Molina and Garip（2019）「社会学のための機械学習」

論文

Molina, Mario and Filiz Garip. 2019. "Machine Learning for Sociology." Annual Review of Sociology 45: 27-45.

　面白かったところを中心に。機械学習は主に予測を目的にした方法ということで、因果推論とは対立する部分が多いと思っていたのですが、母集団の異質性の問題に対して有用ということが知れたのはよかったです。

教師あり／教師なし機械学習とはフォーマルに定義された用語ではない。多くの機械学習のアルゴリズムは両者のタスクに使うことができる。他の名前として、予測的学習／描写（representation）学習というものもある。
Donoho（2017）は統計分析を生成的（generative）モデリングと予測的モデリングに分類している。古典的統計学は生成的モデリングに従うものであり、その目標は推論、すなわちアウトカムがどのようにインプットに関連しているかを理解することである。生成的モデリングは単純で解釈しやすいモデルをもたらすものの、しばしばモデルの不確実性と分析対象ではないサンプルにおけるパフォーマンスを無視してしまう。
機械学習は予測的モデリングに従うものであり、その目標は予測、すなわち将来のインプットに対するアウトカムを予想することである。予測的モデリングは分析対象外のサンプルによくあてはまる複雑なモデルを採用するものの、インプットとアウトプットを結ぶメカニズムについて、ほとんど洞察をもたらさないブラックボックスを生み出す可能性がある。
教師あり機械学習は分析内・分析外散布つの誤差を減らす理想的なバランスを求める。この目標はデータ分析の2つの落とし穴である過少適合と過剰適合を避ける上で役に立つ。
正則化（regularization）によって、教師あり機械学習はノイズに対してあてはめることなく、潜在的なシグナルにあてはめるために十分に複雑な関数を効率的に探索する。
教師あり機械学習において重要なステップは、モデル選択に使用するデータと、モデル評価に使用するデータを分離することである。理想的な設定は、2つではなく3つのデータセットを作ることである。すなわち、訓練データをモデルのあてはめに使用し、複数のモデルから選択するために検証（validation）データを別にしておき、そしてテストデータ（ホールドアウトデータ）を選択したモデルを一般化する際の誤りのために取っておく。理想的なデータ分割の一般的な基準はないものの、データの半分を訓練データのために、残りの4分の1ずつを検証とテストのために用いるという方法がある。
このデータ分割の方法には欠点もある。検証とテストのためにデータを確保することで、推定に使用するデータが少なくなり、過少適合のリスクが増加してしまう。折衷的な方法として、特にデータが小さいときには訓練データと検証データを一緒にして、k分割交差検証を用いるというものがある。
社会科学者は特定の性質（不偏性や一致性）をともなった特定の推定値をもたらす統計モデルに慣れ親しんでいる。しかし教師あり機械学習は $\hat{\beta}$ を復元するようにデザインされているのではなく、 $\hat{Y}$ タスクと呼ばれるものを解くのに優れている。
教師あり機械学習は、XとYの関係を理解するのが目下の関心ではなく、むしろ新規のデータにおけるYを予測するのにXを用いることに関心がある場合に、政策の予測に役立てることができる。
教師あり機械学習のツールは、予測のタスクをともなう特定の因果推論の手続きにも役立つ。現在では実験データにおける下位母集団における処置効果の異質性を識別する上で教師あり機械学習が用いられている。
観察データを用いた因果推論においては、傾向スコアの推定は予測のタスクをともなうために、教師あり機械学習が適している。伝統的なロジスティック回帰に代わるものとして、ブースティング、ニューラルネットワーク、回帰木が近年の研究では用いられている。
欠落変数バイアスに対処する方法の一つは操作変数法である。この第一段階では予測タスクが含まれるため、教師あり機械学習のツールを用いることができる。
教師なし機械学習は測定と発見に用いることができる。教師なし機械学習からのアウトプットは、後の分析や理論化を可能にするインプットになることが多い。
仮説検証の際に、社会理論は少数の変数とそれぞれの変数の平均効果へと平らにならされる。ほとんどの理論を「時として真実である言明」（sometimes-true statements）を提示するものであることは無視されている。しかし、異なるメカニズムが同時に作動している可能性もある。機械学習は母集団の異質性を特徴化する新たなツールをもたらすものである。
機械学習はあるインプットのアウトプットへの効果を推定するという従来的な問いへの戦略を改善するのみならず、新たな問いへの着想に役立つツールを提供する。例えば、一連のインプットがどの程度にアウトプットを予測できるか、こうして得られた予測がどの程度に観察されたアウトカムから逸脱しており、またそれはなぜなのか、あるインプットの潜在的な構造はなにか、その構造はどのように外的な要因と関連しているのか、といったものだえる。