統計の誤用と確証バイアス

愚の論理: 寄与度」を読んでwikipedia:en:Misuse of statisticsを思い出してしまいました。単純にデータを眺めただけだと確かにいろいろな罠がありますからね。私も統計学演習の時間、まともな結果を出した後で、大気汚染物質の濃度と呼吸器系疾患の罹患率を重回帰分析にかけて、大気汚染物質の濃度が高い方が罹患率が低いという結果をあえて出して笑いをとったことがあります(苦笑)。まあ、多重共線性でそのようなおかしな結果が出てきたわけですが。他にも競馬のオッズ分析を発表した人とかいましたが。
このあたりは比較的初歩的な誤謬ですが、データに潜む罠はもう少し判別しにくいかもしれません。統計学の時間で、調査でやってはいけないことについて、逆説的な教えを受けました:

  • 有利な調査対象を得られそうな標本抽出法を選ぶ
  • 想定した結論を導けそうな調査票を構成する
  • なるべく有利な結果になるような調査手段で実施する
  • 想定していた結論に至りそうな検定手法を選択する
  • それでもだめなら、結果の解釈であえてミスリーディングするような記述を行う
  • 経済学部だと社会調査法の講義とか、社会調査実習とかで実際にデータを集めるコースとかは普通にはないのかな。

統計学、社会調査法を熟知していれば、このような方法で事前に想定していた結論を導くことが出来ると。マスメディア等で良く世論調査が発表されますが、少なくとも標本抽出法と調査票が載せられていない結果は、その結論についてはある程度割り引いて理解した方が良いでしょうね。
まあ、初めにロジックありきで出発すると、wikipedia:確証バイアスに陥ることが多いように見受けられますが。
経済学部には、統計学計量経済学の授業はありますが、社会調査法や社会調査実習とかはやらないのかな。発表されているデータがどれだけ信頼できるか(というか信頼できないか)分かって有益だと思うのですが。