信頼区間について復習

2017年05月28日 00:00

SPSSやRで分析した場合、信頼区間は自動で算出してくれる。

しかも分析結果として報告する場合も、明記自体は指示されていてもその内容自体を説明することはまずない信頼区間…。

頻度主義における信頼区間 (Creditable interval)

例：日本人の平均身長は何cmか？

日本人の平均身長を仮に165cmとする（真値）。
ただし平均身長が165cmであること（真値）は（多くの場合）未知である。

どうやって平均身長を推定するか？

日本人は1億3千万もいるので、全員のデータを取ることは難しい。
そこで、とりあえず適当に100人ずつサンプリングする。
- 適当に抽出してきたこの100人のデータから、日本人の平均身長を推定する。

ただ、この100人はあくまでも限られたサンプルであって、必ずしも日本人の代表というわけではない。

（たまたま身長が高い or 低い人がサンプリングされたかも知れない…）

点推定と区間推定

限られた手元のデータから真値を推定するときには2通りのやり方がある。

点推定

「平均身長は165cmだ」のように、ピンポイントで真値を推定する。

区間推定

「平均身長は160cm ~ 170cmの間に含まれる」のように、推定値に幅を持たせる。

この推定の幅のことを「信頼区間」と呼ぶ。

ただし「手元のデータは日本人全体の一部」なので、幅をもたせたところでそれ自体に「ブレ」が生じている。

で、こうした「ブレ」がどれくらい問題かなー、という基準を決める必要がある。

この基準が信頼係数と呼ばれるもので、心理学の場合はその多くが95%に設定している。

余談だが、この95%自体はあまり根拠のある話ではないらしい。

信頼係数

信頼係数が95%というのは、言い換えると「これから求める信頼区間」が当たっている確率。

すなわち「この信頼区間の中に、ちゃんと真値が含まれている確率」ということである。

私は頭の弱い文系なので、この辺にきてやっと賢人達の信頼区間の説明が理解できる。。。

さっき収集した100人の日本人データから日本人の平均身長を推定する場合：

100人のデータにはブレがある（サンプリングに関わる色々な要因）ので、これを使って「平均身長は X cm だ！」とピンポイントに推定（点推定）するのは厳しい。
そこで「平均身長は X ~ Y cm （の間）だ！」のように、ある程度の幅を作って推定（区間推定）してやる。
- 幅＝「この幅（区間）の中に、真値が入っている！」

しかし、この100人のデータはあくまで「日本人の一部」なので、そこから推定される値にもブレが存在する。

つまり、「当たるも八卦、当たらぬも八卦」状態。

そんなのは困るので「これくらいの確率でこの区間推定は合っている（この区間に真値が含まれている）」という基準（信頼係数）を作ってやる。

多くの場合、95%が基準として使われる

「95%の確率で、この信頼区間の中に真値が含まれているよ！」

これを、世の中の賢人達は「100回同じ実験を繰り返したらそのうち95回の実験はちゃんと真値を含んだ区間推定をしている、という意味だよ」と端的に説明してくれている…私の頭が弱いだけか…。

じゃベイズ統計でいう信頼区間は？

こっちは非常に直感的。

ベイズ統計の場合、手元のデータ（100人分の平均身長）を使って、未知のパラメータ（日本人の平均身長）を推定する

推定されるのは「事後確率」の分布なので「日本人の身長が 160cm ~ 170cm の間に含まれている確率は95%である」と言える

確率分布を出しているので「その事象が起こる確率が何％か？」を直接見られる

信頼区間は確かにベイズの方が頻度主義よりもわかりやすいし直感的。

ただやっぱり頻度主義の方が一日の長があって、分析の手法が系統化されていて、SPSSみたいにしっかりしたGUIもあるし、Rでもいろんなパッケージや関数があるので学習しやすい環境が整っている。

実験計画の組み方から系統化されているから、モデルを自分で考えなくていいところは利点かなあ。

Stan (Rstan) のようにベイズ統計を実行できる環境も急速に開発されているし実際Rstanで分析する手法について最近色々な本も出ているので、日進月歩に勉強せねば。

がんばるぞう。