有意水準はなぜ慣例的に5%なのか?

検定の考え方でも記載しましたが、有意水準は5%が慣例的に使われています。これに関する納得できる説明は聞いたことがあるでしょうか?

主観的か客観的か?

主観的とは、「個々人の見方・感じ方」と考えてよいです。一方、客観的はその逆で、「特定の立場にとらわれない見方」です。さて、ここで下表を見てください。

5%は10%よりも起こりにくい客観的
5%は起こりにくい主観的

「5%は10%より起こりにくい」というのは、数値的に5<10ですから、誰が評価しても明らかです。一方、「5%は起こりにくい」というのは、どのような状況における5%なのかや、個々人の感じ方で変わります。すなわち、確率同士を比較して「どちらが起こりやすい/起こりにくい」というのは客観的ですが、確率そのものが「起こりやすい/起こりにくい」は主観的なのです。

有意水準5%が最初に提唱されたのは?

実は有意水準の5%に合理的な理由がある訳ではなく、R.A.Fisherという人が最初にそれを提唱したからです。その理由は、「5%に該当する標準正規分布の棄却限界値が約2で便利だから」というものです(正規分布は別記事で説明します)1

5%の解釈

しかし慣例的に使われている5%にもある程度納得したいので、ここではコイン投げの賭けを例に5%を解釈します。なお、5%は20回に1回の頻度なので、感覚的には「結構起こるんじゃない?」と感じるかと思いますが、下記の例では印象が異なると思います。

あなたは賭けをしていて、参加料は1投げ1万円、コインの表が出たら2万円をもらえるとします。コイン投げは6回行われますが、何回連続で裏を出されると「コインを投げている人がイカサマをしている」と感じますか?なお、「イカサマをしていない」場合、コインの表裏の出やすさは等しいと考えられますので、表と裏の出る確率はそれぞれ1/2=50%です。

1回目が裏1/2=50%
1, 2回目が裏1/2×1/2=25%
1, 2, 3回目が裏1/2×1/2×1/2=12.5%
1, 2, 3, 4回目が裏1/2×1/2×1/2×1/2=6.25%
1, 2, 3, 4, 5回目が裏1/2×1/2×1/2×1/2×1/2=3.125%
1, 2, 3, 4, 5, 6回目が裏1/2×1/2×1/2×1/2×1/2×1/2=1.5625%

いかがでしょうか?多くの人が、5回連続で裏が出ると、「さすがにイカサマをしているのでは?」と疑いませんか?なお、5%は4回連続で裏が出る確率(6.25%)と5回連続で裏が出る確率(3.125%)の間の確率です。

このように、そもそも「確率自体の解釈は主観的」ですから、多くの人が「起こりにくい」と感じる値を慣例的に使うことは理にかなっていると考えられないでしょうか?全く根拠なく5%を用いるよりも、このようなイメージを持っておけば納得して5%を使えます。

なお、p値の計算の別記事で述べますが、正確には「両側有意水準を用いる場合は5%、片側有意水準を用いる場合は2.5%」が慣例です。また、p値の正確な定義は「得られた結果かそれ以上に極端な結果が帰無仮説の下で起こる確率」ですので、実際には6回中5回連続で裏が出ても、両側有意水準5%の二項検定で帰無仮説(コインを投げている人はイカサマをしていない)は否定されません。ここでは、あくまで「5%は多くの人が疑いを持つ位の確率」ということを感じてもらうことを意図しています。

ひとまず、「5%というのは多くの人が疑いを持つ位の確率」と考えていただければと思います。

参考文献

  1. http://psychclassics.yorku.ca/Fisher/Methods/chap3.htm

有意水準はなぜ慣例的に5%なのか?” に対して2件のコメントがあります。

  1. 紙芝居屋 より:

    有意差がある、有意差がない というのは、すごく強烈な意味を持つのに、p値0.051では有意差が無く、0.04999では有意差があるって、とてもおかしい気がします。イカサマの話で例えてますが、ギリギリこれを受け入れるとしても、6.25% と 3.125ほど差があれば、まあ仕方ないかもですが、ある値より本の少し大きいか小さいかで、いろんなことの命運が変わるっておかしくないですか?
    ちなみに私は、5回連続裏は、偶然有り得ると感じてしまいます。感覚的には、10回かそれ近くないと、偶然じゃないとは思えない。逆に、3回連続でも、そうなりやすいのだと言われれば、偶然では無いかも。

    1. 大野浩太 より:

      気付くのが遅くなり返信が遅くなりました。コメントいただきありがとうございます。まず「ある値よりほんの少し大きいか小さいかで、いろんなことの命運が変わる」というのは、例えば大学の入試の点数のように何らかの基準を設定した場合はそこで命運が分かれてしまうものかなと思います(ただ、p値0.051や0.04999のようなギリギリの結果であった場合は、他の有効性や安全性等の評価を加味してOKとなるかもしれません)。有意水準については、5%が慣例的に決められたものだとしても、医薬品業界での薬の承認申請ではまだ5%への固執(+臨床的に意味のある結果+安全かどうか等の総合的判断もなされますが)は見られるかなと思うので、これがベイズ統計を検証的試験で使えない障壁になっている気はします。ただ、じゃあp値以外でどう評価すればよいか?という決定的な方法はまだないのと、他の評価軸があったとしても結局はどこかで線引きしての判断になるので、誰もが納得できる評価軸というのはなかなか難しいのではないかと感じています。
      最後に、「5回連続裏」の起こりやすいかどうかの感覚は主観なので、人によって異なります。イカサマの例で5%がどの程度か納得する人もいれば、紙芝居屋さんのように「そんなに有り得るの?」という人もいると思います。少なくとも、理論ではない実世界で使用する統計とその解釈については、数学等のように絶対にこうだ/こうでないという絶対的な判断がないため、常に多少なりともモヤっとした気分になるのかな…とは思いますが、疑問点やモヤっとしたことがあればお気軽にコメントいただければ幸いです。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です