EurekaMoments

新米エンジニアが一人前を目指す修行の日々を記していくブログです。

読書メモ_統計学が最強の学問である

背景・目的

車やロボットの自律移動技術や、今流行りの機械学習Deep Learningの技術を身に着けるには、統計学の知識が必要となります。しかしながら、自分は今まで統計学という学問をちゃんと勉強したことがなかったので、今回は下記の有名な書籍を読んで、統計学において大事なことをメモしてみました。

今回読んだ書籍

統計学が最強の学問である

統計学が最強の学問である

他の関連書籍

まだ読んだことがないのですが、これらも勉強になりそうですね。

学んだ事メモ

  • まずは、正しい判断に必要な最小十分なデータを扱う事

  • カイ二乗検定: 「意味のある偏り」か、それとも「誤差でもこれくらいの差は生じる」のかを確かめる解析手法

  • P値: 実際には何の差もないのに、誤差や偶然によってたまたまデータのような差が生じる確率(慣例的には5%以下)

  • 「目指すゴールを達成したもの」と「そうでないもの」の違いを比較する

  • データ取りの段階で条件を揃えてフェアな解析をする

  • 「どのようなデータを収集し解析するか」が重要

  • 統計学的な裏付けがないのにそれが絶対正しいと決めつけるのと同じくらい、統計学的な裏付けがないのにそれが絶対誤りだと決めつける事も愚かである

  • 「正解のない意思決定」について、正解がないのであればとりあえずランダムにきめてしまう

  • ランダム化には、「現実」「倫理」「感情」の3つの壁がある

  • 回帰分析によって得られた「もっともそれらしい予測式」を得られただけで満足してはいけない

  • 得られた回帰係数自体にバラツキが存在すると考える

  • 95%信頼区間: 「P値が5%以下になる真値としてあり得ない値」とはならない範囲。「ほぼこの範囲内に真値が存在すると考えて間違いない」と考える

読んだ感想

データを取るという段階から、自分がその後にどういう解析をしていくかを明確しておくことが重要だと感じました。統計的に解析をする以上は必要なデータの数も多くなりますが、集めるにはそれなりの時間やコストが掛かります。解析方法が明確になっていないと、場当たり的にデータの追加収集や最悪取り直しとなってしまうので気を付けなければいけないですね。