検定の考え方・有意水準とp値

初学者だった頃、検定は本当に分かりにくいと言いますか、しっくりときませんでした。時間をかけて理解できましたが、統計的な概念の説明は基礎的なことでも似たような説明が多く、しっくりこないといつまでもしっくりこないという状態に陥ります。ここでは、できるだけ分かりやすく説明したいと思います。

検定とは、実際に得られた集団のデータから、その集団を含むもっと大きな集団（母集団）に関する仮説を検証する方法のことで、確率と背理法が用いられます。こう書くと、「何だか難しそうだな…」と思われそうですが、実際は難しくありません。

検定を理解するためには、背理法を理解し、それから確率的な背理法を理解する必要があります。

背理法

背理法は中学の数学で初めて出てきます。今でも覚えていますが、「\(\sqrt{2}\)が無理数であることを証明せよ」という問題だったと思います。このような問題で出てくるため、「背理法は難しい…」と萎縮してしまいますが、考え方は誰でも理解できます。

背理法は、証明したいことを直接証明することが困難な時に用います。「証明したいことの逆」を考えて、そこで矛盾（あり得ないこと）が起きたから、「証明したいことの逆」は間違っていて、「証明したいこと」が正しいと結論します。なお、矛盾を示せなかった場合、「証明したいことの逆」が正しいか正しくないかはわかりません。ただ単に矛盾を見つけられなかっただけです。

数学の例だと壁を感じるので、「蜘蛛は昆虫かどうか？」ということを例にします。実際には蜘蛛は昆虫ではなく虫ですが、昆虫の定義が明確なので、「昆虫かどうか？」を例にします。

証明したいことは「蜘蛛は昆虫ではない」です
証明したいことの逆は「蜘蛛は昆虫である」です
昆虫の定義は「足が6本」です（蜘蛛は8本あります）
足がなくなった蜘蛛、奇形の蜘蛛等は存在しないとします

「蜘蛛は昆虫である」と仮定すると、足が6本あるはずですよね？しかし、実際には足が8本あります。すると、「蜘蛛は昆虫である」という仮定と矛盾します。よって、「蜘蛛は昆虫である」と仮定したことが間違っており、「蜘蛛は昆虫ではない」が正しいことが示されます。

さて、そもそもなぜ背理法は数学で出てくるのでしょうか？それは、「現実の世界では、絶対に起こる／絶対に起こらない」というものがほぼないからです。蜘蛛の例で、「足がなくなった蜘蛛、奇形の蜘蛛等は存在しないとします」と条件をつけたのは、そのためです。もしたまたま足がなくなって6本になった蜘蛛ばかりを見つけた人がいたら、「あれ、蜘蛛は昆虫かも？」と思うかもしれませんね。

数学の世界はおかしなことが起こらないように綺麗に作られた世界ですが、現実の世界は違います。統計学はバラつきを扱う学問ですので、ほぼ全てのデータがバラつく現実世界を扱う学問と言えます。

検定における背理法（確率的背理法）

数学のような綺麗な世界で使える背理法は、そのままの形では現実世界で使えません。バラつきを考慮した背理法（確率的背理法）を用いる必要があります。その違いを下表に示しました。

	背理法	確率的背理法
証明したいこと	証明したいこと	対立仮説
証明したいことの逆	矛盾を導く仮定	帰無仮説
仮定の下での起こりにくさの基準	0%	有意水準
仮定の下での結果の確率	0%か100%（矛盾があるかないか）	p値
矛盾の判定	仮定の下での矛盾例の存在矛盾=起こる確率0% ※起こり得ないことが起こったかどうか	p値≦有意水準 ※起こりにくいことが起こったかどうか

検定で証明したいことの逆を帰無仮説と言い、通常、臨床研究では「全く差がない・全く効果がない」ということを帰無仮説とします。一方、証明したいことは対立仮説と言います。さて、通常の背理法では、「起こり得ないことが起こった」ことで矛盾とします。しかし、検定で用いる背理法では「起こりにくいことが起こった」ことで矛盾とします。「起こりにくい」というのは非常に主観的な表現ですが、「確率が何%よりも小さかったら起こりにくいか？」という基準が有意水準で、慣例的に5%とされています（この理由は別記事で説明します）。

p値は「得られた結果が帰無仮説の下で起こる確率」です（正確な表現ではありませんが、解釈上はこれで問題ありません。なお、正確な表現は「得られた結果かそれ以上に極端な結果が帰無仮説の下で起こる確率」です）。

このp値が有意水準以下である場合、「帰無仮説の下で起こりにくいことが起こった=矛盾」として、帰無仮説を否定するのが検定の考え方です。p値≦有意水準の時、「統計学的に有意」と言います。なお、「起こりにくいことがたまたま起こったんじゃないの？」とはみなしません。それを言い出すと、バラつく現実世界で何も判断することはできず、リスクゼロを目指す終わりなき戦いに突入するからです。

例として薬剤の効果を調べる状況を考えます。

降圧薬Aの効果をプラセボと比較したいとします。注目しているのはAがプラセボより効果があるかどうかです。研究の開始後と開始前の収縮期血圧の変化量（開始後-開始前）をみます。帰無仮説は「薬剤Aに全く効果はない、つまり血圧変化量の平均値の差（A-プラセボ）=0」です。なお、降圧薬は血圧を下げる薬ですので、変化量がマイナスであるほど血圧を下げる効果が高いということになります。

血圧変化量の平均値の差として-20 mmHgの大きな差がみられ、p≦有意水準となり、薬剤Aに効果がないという仮定の下で矛盾（起こりにくいこと）が生じました。よって、薬剤Aに全く効果はないという仮定と矛盾するため、薬剤Aには効果がある（対立仮説を採用）と判断します。

以上のように考えると、検定の考え方、有意水準やp値についての理解がスッキリしませんか？

検定において注意すべき点

検定を行う時に非常に重要なこととして、統計学的に有意な結果は臨床的に意味のある結果と同じではないということです。ここを理解しておらず、「統計学的に有意だから重要な結果だ！」と勘違いしている方がいます。この点については信頼区間の別記事で説明したいと思いますが、非常に重要なので、「統計学的に有意な結果は臨床的に意味のある結果と同じではない」と覚えてください。

また、「統計学的に有意でない場合（p>有意水準）、帰無仮説が正しい」と判断するのも誤用です。通常の背理法と同様、単に矛盾を示せなかっただけですので、帰無仮説に対する判断は何もできません。

昨今、p値があまりに誤用されるため、アメリカ統計協会が声明を出していますし、p値に代わる新しい指標を使うべきだとか、頻度論の統計ではなくベイズ統計を使えばいいという話もあります。しかし、個人的にはp値の使い方・解釈という人間側の問題であって、p値そのものの問題ではなく、その問題は新しい指標やベイズ統計を使っても全く同じく生じるものです。そのため、まずは広く正しく理解されるように、全ての統計家が分かりやすい発信を心がけることが重要であると考えています。

なお、検定とp値には、今まで述べたものも含め下記の注意すべき点があり、必要に応じて別記事で説明したいと思います。

統計学的に有意でない場合（p>有意水準）、帰無仮説が正しい訳ではない
- 背理法と同様、矛盾を示せなかっただけです
統計学的に有意だとしても、臨床的に意味のある結果ということを言える訳ではない
- 人数を増やすとどんなに小さな差でも統計学的に有意になります
- 信頼区間の別記事で説明します
統計学的に有意だとしても、真実は帰無仮説が正しいこともある
- 現実世界のデータはバラつくので、「帰無仮説が正しいのに、たまたま起こりにくいことが起こった」ということがあり得ます。「検定における背理法（確率的背理法）」で「起こりにくいことがたまたま起こったとはみなさない」と書きましたが、みなさない事により、真実と判断にズレが生じることがあり得ます
- 「帰無仮説が正しいのに統計学的に有意となる確率」をαエラーと言います
帰無仮説ではなく、それ以外の仮定が間違っている場合がある
- 例えば割合の検定に正確検定と正規近似に基づく検定がありますが、それぞれ異なったp値が得られます
- これは、帰無仮説は同じでも、p値を計算するための仮定に違いがあるためです
何度も検定を行った時の解釈上の問題がある
- 多重性の問題と言います