Edelman et al.(2020)「計算社会科学と社会学」
Edelman, Achim et al. 2020. "Computational Social Science and Sociology." Annual Review of Sociology 46: 61-81.
-
計算社会科学とはもともと、エージェント・ベースト・モデル、あるいは仮想的な集団において人間行動をシミュレーションするためにコンピュータを使用するものを指していた
-
今後近い将来、計算社会科学の中でがもっとも有力な研究は、文化的な変化のような理論のマクロなレベルと、意思決定のミクロなレベルをつなげるタイプのものであろう
- ↓も買いました
DiMaggio(2015)「計算的テキスト分析を社会科学に順応させる(あるいはその逆)」
DiMaggio, Paul. 2015. "Adapting Computational Text Analysis to Social Science (and vice versa)." Big Data and Society 2(2): 1-5.
-
計算的テキスト分析(computational text analysis)の領域における社会学者とコンピューター科学者の違い
-
第1の違い:社会科学者は教師なしモデルを多く使用する傾向があるのに対して、データ科学者は教師ありモデルを使用する
-
近年のテキスト分析の主要な発展は、潜在的ディリクレ配分法などの教師なしアプローチに基づいているものの、ホールドアウト法を使用可能な教師ありモデルとは異なり、教師なしモデルは妥当性の検証がより難しい
-
第2の違い:機械学習 vs. 統計的説明
-
因果関係に慣習的に取り憑かれ、統計的有意性の検定に依拠する社会科学者に対して、コンピューター科学者は教師ありモデルを用いて結果に焦点をあてる
-
コンピューター科学者は統計的な妥当性よりもモデルのデザインにより注意を払うが、これはコンピュータ科学者はほとんどの社会科学者よりも新しいアルゴリズムをより素早く書くことができるというスキルセットの違いから来ている
-
第3の違い:コンピューター科学者は社会科学者よりも人間を信頼している
-
自然言語処理、特に感情分析においては人間の評価プロセスを模倣するプログラムの作成が目指されてきた
-
これに対して社会科学者、少なくとも認知心理学の研究に注意を払う社会科学者は、人間の判断に深い懐疑を持っている
-
立場の違いが感情的な文脈のフレームに影響する場合、人間によるコーディングも、アルゴリズムによるものも、どちらも信頼性は低くなる
-
社会科学者の相対的な強みは(アルゴリズムの微調整ではなく)、データの事前処理にあるかもしれない
-
人間が何が得意であり、どのような場合にアルゴリズムによる解決が人間による判断より好ましいかを理解する必要がある
Bürkner(2017)「brms――Stanを使用したベイジアン・マルチレベルモデルのためのRパッケージ」
Bürkner, Paul-Christian. 2017. "brms: An R Package for Bayesian Multilevel Models Using Stan." Journal of Statistical Software. 80(1): 1-27.
扱える事前分布の種類やモデリングのオプションが非常に多いのは圧倒されそうになりますが、基本的な使い方はlme4スタイルでとてもわかりやすそうです。
事後分布の予測値などをどのように可視化できるかこの論文だけだと十分に紹介されていないので、こちらなどでより勉強したいところです。あと役立ちそうなのはこちらとかでしょうか。
Rでパイプ演算子を使用してクロス集計
Rでなるべくtidyverseパッケージ(とのその関連)で統一してデータ分析をすることを考えたときに、クロス集計のやり方として、下のようなspread関数を使用する方法を比較的よく見ます(行方向に比率を集計)。
library(tidyverse)
data(mtcars)
mtcars %>%
group_by(am) %>%
count(gear) %>%
mutate(prop = n/sum(n)) %>%
select(-n) %>%
spread(gear, prop, fill = 0)
あるいはjanitorパッケージを使用するというのもあるようです。
library(janitor)
mtcars %>%
tabyl(am, gear) %>%
adorn_percentages("row")
しかし、table関数を使用する下記のようなやり方がシンプルでよいように思いました。
mtcars %>%
with(table(am, gear)) %>%
prop.table(margin = 1)
宇野重規(2020)『民主主義とは何か』
発売後わりとすぐに買っていたのですが、半分くらい読んで止まっていました。ここ2,3日で残りを読了しました。
『保守主義とは何か』では、エドマンド・バークが参照点になっている関係上、フランス革命前後のヨーロッパの記述が分厚かった記憶がありますが、本書は民主主義に関する基本的な流れと論点を解説するというもので、古代ギリシアに多くのページが割かれています。
扱われている個々の研究についてある程度は知識があっても、「民主主義」という角度から論じられることで、新しく見えてくるものもありました。たとえばロールズの『正義論』は原初状態は社会契約の概念に基づいており、民主主義とも潜在的にはもちろん関係してくるわけですが、あまりそのような点から考えたことがありませんでした。
- 多数決をめぐる問い
- 「民主主義とは多数決である」
- 「多数派によって抑圧されないように、少数派の意見が尊重されなければならない」
- 多数決にもとづく民主主義に対して、初期の最大の批判者はプラトン(ソクラテスは民衆裁判によって死刑になった)
- アメリカ独立の指導者たちは民主政よりも共和政という言葉を好んでおり、「多数者の利益」よりも「公共の利益」が重視された
- 選挙をめぐる問い
- 「選挙を通じて国民の代表者を選ぶのが民主主義である」
- 「選挙だけが民主主義ではない」
- 「選挙の日にだけ国民が主権者になる」というルソーの議会制民主主義への批判
- アメリカ東部のタウンシップを単位とした自治に民主主義の力を見出したトクヴィル
- 制度か理念か
- 「民主主義とは国の制度のことである」
- 「民主主義とは理念である」
- 民主主義と区別し、「ポリアーキー」(複数による支配)という言葉をつくり出したダール
- 「完全に無力な議会」と「政治教育のひとかけらも受けていない国民」を嘆き、強力な大統領によって打破しようとしたウェーバーの挫折
- 近代の民主主義をめぐる議論が立法権中心になってしまっていることを問題視し、執行権を民主的な統制の下に置くことを提唱したロザンヴァロン
Halford and Savage(2017)「ビッグデータと社会学的に対話する――交響的社会科学とビッグデータ研究の未来」
Halford, Susan and Mike Savage. 2017. "Speaking Sociologically with Big Data: Symphonic Social Science and the Future for Big Data Research." Sociology 51(6): 1132-48.
-
Goldthorpe(2016)「ビッグデータが『知識資本主義』に対してどのような価値を持ちようとも、社会科学に対して持つ価値は、少なくとも現時点では非常に疑問の余地がある」
-
交響的アプローチとビッグデータ分析の類似性
-
(1)複数の、かつ多様な「発見された」データ源を別の目的で使用する、
-
(2)相関関係の協調
-
(3)視覚化の使用
-
交響的アプローチとビッグデータの重要な差異
-
(1)交響的社会科学は豊かな理論的認識と(2)野心的で多岐にわたる社会的問題に取り組むために注意深く選ばれたデータとを組み合わせる
-
(3)ビックデータ分析は、数時間の間における「リアルタイム分析」や特定のスーパーマーケットにおけ購買行動などのミクロなパターンに注目するのに対して、交響的社会科学は長期的なトレンドと多岐にわたる比較に注目する
-
(4)相関は因果に取って代わる(replace)のではなく、むしろ因果を排除し(displace)、因果的な主張は推測統計から社会学的な概念と理論へと切り替えられ、またこれらの概念と理論は繰り返されるモチーフと交響的なナラティブを結びつける
-
(5)ビッグデータ分析では可視化はデータを提示する上での技術政治的な方法として用いられるのに対して、交響的アプローチでは可視化は意図的な分析戦略として採用される
-
交響的社会科学における因果の主張
-
WikinsonとPickettの研究では、複数のデータを利用した線形回帰分析が繰り返し行われ、所得の不平等と特許の数、寿命などの29もの異なるトピックの関係が示されている
-
Pikettyも様々な国における富の集中の例を積み上げている
-
これらの著者たちは因果に関心がないわけではなく、むしろ因果を多くの実証例による精緻化(elaboration)と詳説(explication)によって立証しているのである
-
これらの著者たちは定量的研究の専門家であるものの、複雑な統計モデルを使用するのではなく、理論的な議論によって裏付けされた相関の証拠を繰り返すことで因果を主張している
Molina and Garip(2019)「社会学のための機械学習」
Molina, Mario and Filiz Garip. 2019. "Machine Learning for Sociology." Annual Review of Sociology 45: 27-45.
面白かったところを中心に。機械学習は主に予測を目的にした方法ということで、因果推論とは対立する部分が多いと思っていたのですが、母集団の異質性の問題に対して有用ということが知れたのはよかったです。
-
教師あり機械学習は分析内・分析外散布つの誤差を減らす理想的なバランスを求める。この目標はデータ分析の2つの落とし穴である過少適合と過剰適合を避ける上で役に立つ。
-
このデータ分割の方法には欠点もある。検証とテストのためにデータを確保することで、推定に使用するデータが少なくなり、過少適合のリスクが増加してしまう。折衷的な方法として、特にデータが小さいときには訓練データと検証データを一緒にして、k分割交差検証を用いるというものがある。
-
社会科学者は特定の性質(不偏性や一致性)をともなった特定の推定値をもたらす統計モデルに慣れ親しんでいる。しかし教師あり機械学習はを復元するようにデザインされているのではなく、タスクと呼ばれるものを解くのに優れている。
-
教師あり機械学習は、XとYの関係を理解するのが目下の関心ではなく、むしろ新規のデータにおけるYを予測するのにXを用いることに関心がある場合に、政策の予測に役立てることができる。
-
観察データを用いた因果推論においては、傾向スコアの推定は予測のタスクをともなうために、教師あり機械学習が適している。伝統的なロジスティック回帰に代わるものとして、ブースティング、ニューラルネットワーク、回帰木が近年の研究では用いられている。
-
欠落変数バイアスに対処する方法の一つは操作変数法である。この第一段階では予測タスクが含まれるため、教師あり機械学習のツールを用いることができる。