「宿題を家に忘れました」で入門する統計的仮説検定

はじめに

この記事では 宿題を家に忘れました を題材にして、統計的仮説検定について解説します。本記事の説明には以下の特長があります。

  • 仮説検定の考え方や手順を初心者にもわかりやすく説明します。
  • 仮説検定の説明にありがちな、確率分布を考慮した具体的な計算は登場しません。

仮説検定に関していろいろ勉強してみたが、計算を理解するのに必死で、仮説検定の本質が何なのかイマイチ分かってない人にオススメです。

「宿題やったんですけど家に忘れてきました」

あなたは学校の先生です。いつものように生徒に宿題を課しました。
そして宿題の提出日、ある生徒Aが白々しくこう言うわけです。

生徒A「宿題やったんですけど家に忘れてきました」

あなたは直感的にこう考えます。

仮説 H_1: 生徒Aはそもそも宿題をやってない
(※ 示したい主張を仮説 H_1 と名付けています。)

主張  H_1 の正しさをなんとか示したいですね。
そこで、あえて主張の否定形 H_0 について考えてみます。背理法みたいな感じです。

仮説 H_0: 生徒Aは本当に宿題をやっている

ここで「生徒Aが宿題をやったのにそれを家に忘れてくる確率は3%である」ことが推測されるとしましょう。生徒Aが本当に宿題をやった状況が100回あったとき、3回くらいは家に忘れるが97回くらいは学校に持ってくるだろうということです。 (この3%という数値は深く考えずに認めましょう。本来の統計的仮説検定では、この確率が確率分布やそのパラメータに基づいて計算されます。ただし、この3%という値はあくまで仮定した統計モデルから導かれる値であり、必ずしも現実を反映できているとは限りません。)

つまり、以下のことが言えるわけです。

仮説 H_0 が正しいとすると、3%の確率でしか起こらないことがいま起こっている

いまは「家に忘れる」というかなり珍しい状況が起こったので、以下のように考えるわけです。

仮説 H_0 を受け入れるのは厳しい。やはり仮説 H_1 が正しいだろう。

これで「仮説 H_1: 生徒Aはそもそも宿題をやってないに違いない」の妥当性が高いことを示せたわけです。

どうでしょうか?「宿題を家に忘れました」と言われたとき、普通に考える思考プロセスではなかったでしょうか? これこそが仮説検定の流れです。

仮説検定とは

上記の例を一般的な仮説検定の用語に当てはめていきましょう。
まずは、「仮説 H_1: 生徒Aはそもそも宿題をやってない」のような示したい主張を対立仮説と言います。それに対し、その否定形である「仮説 H_0: 生徒Aは本当に宿題をやっている」を帰無仮説と言います。

仮説検定のプロセスでは、帰無仮説を正しいと仮定したときに現在起こった状況が起こる珍しさを計算します。この珍しさを確率で表現したものが p値 です。上記の例では、「宿題をやった」と仮定したうえで、「宿題を学校に持ってきていない」が起こっている状況であり、それが起こる珍しさ(p値)が3%であったわけです。

p値が一定の基準より珍しいといえるとき、帰無仮説棄却されて、対立仮説が採択されることで、主張の妥当性が認められます。この「一定の基準」は有意水準と呼ばれ、一般には5%や1%が用いられます。実は、上記の例では有意水準として5%を想定していました。「宿題を家に忘れる」確率が3%であり、有意水準の5%より小さいので、この状況が十分に珍しいものであると言えるわけです。一方で、有意水準を1%とするのがスタンダードな業界であれば、上記の例の3%は十分に珍しいとは認められません。

ここでひとつ注意したいのが、p値が有意水準を下回らず帰無仮説が棄却されないからといって、帰無仮説が正しいと主張できるわけではないということです。
上記の例を、別の生徒について改めて考えてみましょう。普段から非常に忘れっぽい生徒Bがいたとします。生徒Bの場合は、宿題をやったのにそれを家に忘れてくる確率が10%であると考えられます。10回に1回くらいは宿題を家に忘れてくると予想されるわけです。このとき、生徒Aのときと同様の仮説検定のプロセスを進めると、帰無仮説「仮説 H_0: 生徒Bは本当に宿題をやっている」は棄却されません。10%という値が有意水準を上回るからです。しかしながら、ここで「生徒Bは本当に宿題をやっている」と積極的に主張してよいことにはなりません。生徒Bはやはり怪しいままなのです。いま起こった状況が十分に珍しいとはとはいえないだけであり「それが高い確率で起こる」とは限りません。いま起こった状況だけでは、帰無仮説を棄却するのに十分な根拠があるとは言えない、と解釈するのが正しい姿勢です。
p値や有意水準の扱いについて、研究者であってもよく誤用が見られることが知られています。統計的有意性と P 値に関する ASA 声明 のような声明が出るほどです。p値や仮説検定の結果からなにを主張してよいのか、そもそも p 値の導出に問題はなかったのか、など正しく扱う必要があります。

2種類の誤り

主張の根拠が確率的な事象に基づいている以上、導く結果が誤っている可能性があります。誤りには2種類あって、第一種過誤と第二種過誤と呼ばれています。

第一種過誤または偽陽性は、帰無仮説が正しいのに棄却してしまうことです。この誤りが発生する確率は有意水準に一致します。
上記の例では「仮説 H_0: 生徒Aは本当に宿題をやっている」が真実なのに、それを棄却してしまうことです。生徒Aからすると「本当に宿題やったのに、先生には宿題やってないと思われて悲しい」という状況です。生徒Aがふてくされてしまうので、先生としては望ましくない判断と言えます。有意水準を5%としたときの思考プロセスは「20回に1回も起こらないことが今起こっているのでおかしい」というものでした。当然20回に1回も起こらないようなことが実際に起こっている状況もありえます。これが第一種過誤が発生する状況です。これが起こる確率として5%は許容しなければなりません。 有意水準を1%にすれば100回に1回くらいにおさえられるので、やさしい先生と思われたければそうするのがよいでしょう。

第二種過誤または偽陰性は、対立仮説が正しいのに帰無仮説を棄却できないことです。
上記の例では「仮説 H_1: 生徒Aはそもそも宿題をやってない」が真実なのに、帰無仮説「仮説 H_0: 生徒Aは本当に宿題をやっている」を棄却できないような状況です。普段から忘れっぽい生徒Bは10回に1回くらいは宿題を家に忘れてくると思われているので、「宿題やったけど忘れた」とさえ言えば、宿題をやっていなくても先生に怒られずに済むわけです。生徒Bからするとラッキーですが、先生からすると適切な指導が出来ていないと言えます。先生としては生徒Bに、宿題と同じ問題をその場で解かせてみるとか、生徒Bの家に電話をかけて昨晩の様子を聞いてみるとか、より帰無仮説を否定する根拠が集まるような検定の設計にすべきでした。(ただし、帰無仮説が棄却されるまで検定の設定を変えながら頑張るというのは NG です。Data Dredging と呼ばれるイカサマです。一度でも帰無仮説が棄却できなかった時点であなたの負けです。)

さいごに

この記事の内容は、確率の計算を排除し、身近な「宿題を家に忘れました」という例を題材に統計的仮説検定の考え方を説明したものです。とくに仮説検定の流れを理解することに重点を置きました。一方で、実際にみなさんの目の前の対象について仮説検定を行うときは、やはり統計や確率に関して十分な理解を持っておくべきだと思います。なかなか難しいですが、正しい理解をもってデータを扱いましょう。

参考: