DiMaggio(2015)「計算的テキスト分析を社会科学に順応させる(あるいはその逆)」

 

DiMaggio, Paul. 2015. "Adapting Computational Text Analysis to Social Science (and vice versa)." Big Data and Society 2(2): 1-5.  

 

  • 計算的テキスト分析(computational text analysis)の領域における社会学者とコンピューター科学者の違い
  • 第1の違い:社会科学者は教師なしモデルを多く使用する傾向があるのに対して、データ科学者は教師ありモデルを使用する
    • 近年のテキスト分析の主要な発展は、潜在的ディリクレ配分法などの教師なしアプローチに基づいているものの、ホールドアウト法を使用可能な教師ありモデルとは異なり、教師なしモデルは妥当性の検証がより難しい
  • 第2の違い:機械学習 vs. 統計的説明
    • 因果関係に慣習的に取り憑かれ、統計的有意性の検定に依拠する社会科学者に対して、コンピューター科学者は教師ありモデルを用いて結果に焦点をあてる
    • コンピューター科学者は統計的な妥当性よりもモデルのデザインにより注意を払うが、これはコンピュータ科学者はほとんどの社会科学者よりも新しいアルゴリズムをより素早く書くことができるというスキルセットの違いから来ている
  • 第3の違い:コンピューター科学者は社会科学者よりも人間を信頼している
    • Alan Turing以来のコンピュター科学、とりわけ人工知能の分野においては人間により問題解決に取って代わることができるアルゴリズムを作ることが探求されてきた
    • 自然言語処理、特に感情分析においては人間の評価プロセスを模倣するプログラムの作成が目指されてきた
    • これに対して社会科学者、少なくとも認知心理学の研究に注意を払う社会科学者は、人間の判断に深い懐疑を持っている
    • 立場の違いが感情的な文脈のフレームに影響する場合、人間によるコーディングも、アルゴリズムによるものも、どちらも信頼性は低くなる
  • 社会科学者の相対的な強みは(アルゴリズムの微調整ではなく)、データの事前処理にあるかもしれない
  • 人間が何が得意であり、どのような場合にアルゴリズムによる解決が人間による判断より好ましいかを理解する必要がある