Brigitte Le Roux & Henry Rouanet(2010=2021)『多重対応分析』

 

 

  • Sageの緑のシリーズから翻訳されたものになっています。
  • 訳注がかなり詳しく、翻訳する際の工夫、関連する概念、日本語の関連書籍などが紹介されていて勉強になりました。ただし、「原文の○○という語に対して△△という訳語あてた」ということも逐一訳注にするのは若干くどく感じられ、本文中にカッコ書きで補足するというような形の方が読みやすいように思いました。
  • 幾何学的データ解析」として多重対応分析を位置づけ、線形代数に基づいて基礎的な部分がかなり詳しく書かれています。「データ解析は,きちんと数理的に定式化すれば,結局のところ,固有ベクトルを求めるだけである.データ解析に関するすべての科学や手法は,対角化すべき行列を見つけることにすぎない」(p.2)。
  • 現実のデータを使用した例も豊富で、第何次元まで解釈すべきか、ある軸におけるグループごとの平均点の差はどれくらいであれば「注目すべき差」とみなすべきか、など実践的なアドバイスも見られます。
  • 基本的には多重対応分析を記述的手法(標本の大きさに依存しない)として位置づけつつも、5章では統計的推測へと拡張されます。実際の論文を見ても多重対応分析で何らかの検定を行うというのはあまり知らなかったのですが、著者としては幾何学的なデータ解析においても統計的推測を積極的に用いていくべきという考えのようです。

 

マイケル・サンデル(2020=2021)『実力も運のうち――能力主義は正義か?』

 

  • 途中まで原書で読んで止まっていたのですが、残りを訳書で読み終わりました。
  • 原題は、The Tyranny of Merit: What's Become of the Common Good? なので、かなり思い切った訳ですね。訳題の方が、本の中身をよりストレートに表しているでしょうか。あと、サンデルは日本では正義の講義で広く知られるようになったので、「正義」を訳題に入れたいという方針があったのかもしれません。
  • 特に面白かったのは、5章のハイエクロールズの対比と、7章の分配的正義と貢献的正義の区別。ハイエクロールズは市場と再分配のあり方については真逆といってもよいほどの違いがあるものの、どちらも市場における経済的報酬が功績と一致するという考え方を否定することでは共通しているというのが印象に残りました。
  • 6章では「能力の専制」を緩和するために、選抜システムの改革案が示されています。有名大学の選抜において、レガシー枠を廃止し、一定の学力を備えていればあとはくじ引きで決める(多様性を考慮する際など、場合によって特定のグループに対するくじの数を増やす)というもの。能力を選抜の絶対的な基準ではなくあくまで1つの基準とすることによって、勝者のおごりを抑えることができる。そもそも入試の段階で将来の成功の厳密な予測などできるはずがないから実際的な見地からも望ましく、入試の負担を軽減することで教育上のリソースを確保することもできる。
  • この6章の選抜システムに関する提案を読んで、矢野先生が『試験の時代の終焉』(1991)で論じていたこととほとんど同じじゃん、と思いました。矢野先生は野球というかなり能力が明確だと考えられている分野でさえ、ドラフトによる選抜がその後の成功をうまく予測できているわけではないことを分析していますが、サンデルも本書でノーラン・ライアンがドラフト12巡目で指名されたことを引き合いに出しています。あらためて矢野先生の慧眼に感服しました。
  • 解説は本田先生が書かれていて、メリトクラシーに関しては適切に解説されていると思います。しかし、やはりサンデルはロールズの平等主義的リベラリズム批判にルーツを持っており、たとえば「負荷なき自我」の概念が、本書ではリベラル派が自ら構想する社会システムを維持するための連帯意識を調達できていないことへの批判などにもつながってくるはずです。このあたりの理解を促す上で、政治哲学の先生による解説もあってもよかったのではないかと感じました。
  • 英語で責任(responsibility)というと、その主体は個人であるのが明らかなので、「自己責任」という言葉はおかしい、という話も聞いたことがありますが、原書では"individual responsibility"という表現が使われ、訳書では「自己責任」となっていますね。使われている箇所の意味としても、日本語のいわゆる「自己責任」に近いように見えます。

Möhring(2021)「国家間分析におけるマルチレベルモデルの代用としての固定効果アプローチ」

Möhring, Katja. 2021. "The Fixed Effects Approach as Alternative to Multilevel Models for Cross-national Analyses." SocArXiv. February 22. doi:10.31235/osf.io/3xw7v.

 

 パネルデータ分析の場合とくらべて、国家間のクロスセクション分析においては固定効果モデルはあまり使われないけれども、実際には有用だという論文です。ISSPを使用した再分配の支持が事例として示されており、そこでは固定効果かランダム効果かで実質的な結果の違いはありませんが、固定効果モデルも検証することで頑健性を確認する手段になるとのことです。

 

  • もともとマルチレベルモデルは教育研究の分野で生まれたものだが、そこで分析される生徒が学級・学校にネストされているデータとは異なり、異なる国家の中に個人が含まれるデータの場合には、レベル2である国はランダムサンプリングとはならない
  • 国際比較調査に含まれる国の数は11~31程度であることが多く、推定されるモデルの国レベルの自由度は小さくなる
  • Van der Meer et al.(2001)によれば、国レベルの係数推定値は、少数のはずれ値によって信頼のできないものになりやすい
  • マルチレベルモデルにおいては、マクロレベルの独立変数のみならず、ランダム効果の推定も国レベルの自由度に依存する
  • 研究者は通常、1つまたはごく少数のマクロレベル独立変数を入れるか、異なるマクロレベル変数を逐次的に検証している
  • 固定効果モデルであれば、国に固有の誤差項がモデルにおける他のすべての変数と独立であるという強い仮定に依存しない
  • 固定効果モデルにおいては、マクロレベル変数の調節効果(moderator effects)はクロスレベル交互作用によって推定できる
  • 固定効果モデルは一般的に、マルチベルモデルの結果の頑健性を検証する上で有用である 

Edelman et al.(2020)「計算社会科学と社会学」

 

Edelman, Achim et al. 2020. "Computational Social Science and Sociology." Annual Review of Sociology 46: 61-81.

  

  • 計算社会科学とはもともと、エージェント・ベースト・モデル、あるいは仮想的な集団において人間行動をシミュレーションするためにコンピュータを使用するものを指していた
  • この論文での定義:計算社会科学とは、ソーシャル・メディア、インターネット、あるいは行政記録などのデジタル化されたアーカイブから得られた大規模なデータセットに対してコンピュータ技術を適用し、人間行動の理論を発展させる学際的な分野である
  • 計算社会科学が急速に浸透してきている社会学の分野:(a)社会ネットワークと集団形成、(b)集合行動と政治社会学、(c)知識社会学、(d)文化社会学社会心理学、感情の社会学、(e)文化の生産、(f)経済社会学と組織研究、(g)人口学・人口研究
  • 今後近い将来、計算社会科学の中でがもっとも有力な研究は、文化的な変化のような理論のマクロなレベルと、意思決定のミクロなレベルをつなげるタイプのものであろう
  • 社会学者は、現実の社会的構成や自己成就的予言といった社会学理論の中心教義によって、新たな社会空間の研究をいかに発展させることができるのか、積極的に議論に加わるべきである
  • 計算社会科学に広く統合されていない社会学の下位領域は多くあり、これらには人種とエスニシティ、犯罪、教育、不平等・社会階層、地域、性・ジェンダー、法、医療、歴史、宗教などが含まれる

 

  • ↓も買いました 
計算社会科学入門

計算社会科学入門

 

 

DiMaggio(2015)「計算的テキスト分析を社会科学に順応させる(あるいはその逆)」

 

DiMaggio, Paul. 2015. "Adapting Computational Text Analysis to Social Science (and vice versa)." Big Data and Society 2(2): 1-5.  

 

  • 計算的テキスト分析(computational text analysis)の領域における社会学者とコンピューター科学者の違い
  • 第1の違い:社会科学者は教師なしモデルを多く使用する傾向があるのに対して、データ科学者は教師ありモデルを使用する
    • 近年のテキスト分析の主要な発展は、潜在的ディリクレ配分法などの教師なしアプローチに基づいているものの、ホールドアウト法を使用可能な教師ありモデルとは異なり、教師なしモデルは妥当性の検証がより難しい
  • 第2の違い:機械学習 vs. 統計的説明
    • 因果関係に慣習的に取り憑かれ、統計的有意性の検定に依拠する社会科学者に対して、コンピューター科学者は教師ありモデルを用いて結果に焦点をあてる
    • コンピューター科学者は統計的な妥当性よりもモデルのデザインにより注意を払うが、これはコンピュータ科学者はほとんどの社会科学者よりも新しいアルゴリズムをより素早く書くことができるというスキルセットの違いから来ている
  • 第3の違い:コンピューター科学者は社会科学者よりも人間を信頼している
    • Alan Turing以来のコンピュター科学、とりわけ人工知能の分野においては人間により問題解決に取って代わることができるアルゴリズムを作ることが探求されてきた
    • 自然言語処理、特に感情分析においては人間の評価プロセスを模倣するプログラムの作成が目指されてきた
    • これに対して社会科学者、少なくとも認知心理学の研究に注意を払う社会科学者は、人間の判断に深い懐疑を持っている
    • 立場の違いが感情的な文脈のフレームに影響する場合、人間によるコーディングも、アルゴリズムによるものも、どちらも信頼性は低くなる
  • 社会科学者の相対的な強みは(アルゴリズムの微調整ではなく)、データの事前処理にあるかもしれない
  • 人間が何が得意であり、どのような場合にアルゴリズムによる解決が人間による判断より好ましいかを理解する必要がある

Bürkner(2017)「brms――Stanを使用したベイジアン・マルチレベルモデルのためのRパッケージ」

 

Bürkner, Paul-Christian. 2017. "brms: An R Package for Bayesian Multilevel Models Using Stan." Journal of Statistical Software. 80(1): 1-27. 

 

 扱える事前分布の種類やモデリングのオプションが非常に多いのは圧倒されそうになりますが、基本的な使い方はlme4スタイルでとてもわかりやすそうです。

 事後分布の予測値などをどのように可視化できるかこの論文だけだと十分に紹介されていないので、こちらなどでより勉強したいところです。あと役立ちそうなのはこちらとかでしょうか。

Rでパイプ演算子を使用してクロス集計

 

 Rでなるべくtidyverseパッケージ(とのその関連)で統一してデータ分析をすることを考えたときに、クロス集計のやり方として、下のようなspread関数を使用する方法を比較的よく見ます(行方向に比率を集計)。 

library(tidyverse)

data(mtcars)

 

mtcars %>%
group_by(am) %>%
count(gear) %>%
mutate(prop = n/sum(n)) %>%
select(-n) %>%
spread(gear, prop, fill = 0)

 

 あるいはjanitorパッケージを使用するというのもあるようです。

library(janitor)

 

mtcars %>%
tabyl(am, gear) %>%
adorn_percentages("row")  

 

 しかし、table関数を使用する下記のようなやり方がシンプルでよいように思いました。

mtcars %>%
with(table(am, gear)) %>%
prop.table(margin = 1)