メインコンテンツへスキップ
  1. ブログ投稿/

統計 - 仮説検定 (1)

·1 分

この投稿は、pandasライブラリを活用して複数のデータを一つに統合する方法について説明するために作成されました。

統計学での仮説(Hypothesis)は、ある主張や推測を示す命題であり、母数に関する仮定/暫定的結論を意味します。

仮説の種類 #

仮説は以下のように二つの形式で表されます。

1. 帰無仮説 (Null Hypothesis, H0) #

帰無仮説、元の比較対象として変化や差がないことを示す仮説であり、ある種のデフォルトの仮説です。

検定方法によって帰無仮説の内容は異なります。例えば、「二つのグループの平均は同じである」という主張が帰無仮説として設定されることがあります。

2. 対立仮説 (Alternative Hypothesis, H1) #

対立仮説、 帰無仮説に対立する主張であり、標本を通じて確実な根拠を持って証明しようとする仮説です。例えば、「二つのグループの平均は異なる」という主張が対立仮説として設定されることがあります。

統計的検定を通じて与えられたデータを使用して帰無仮説を棄却するか、または棄却する根拠がないために帰無仮説を棄却できないと決定します。検定結果で対立仮説が真である確実な根拠を発見した場合、帰無仮説を棄却します。

統計学で主張したいこのような仮説の妥当性を検証するプロセスがまさに仮説検定です。

仮説検定 #

1. 仮説の設定 #

仮説検定の最初のステップは、調査したい問題に応じて帰無仮説(H0)と対立仮説(H1)を設定することです。

2. 標本分析 #

次に、全体母集団から一部を代表することができる標本を抽出します。この標本についてデータを収集し分析します。これにより、統計的分析に使用する資料を確保します。

3. 仮説の妥当性検証 #

収集したデータを使用して仮説を検証します。統計的手法を利用して帰無仮説を棄却するか、または棄却する根拠がないために帰無仮説を採用するかを決定します。これは有意水準と検定統計量を考慮して行われます。

有意水準 (Level of Significance)

有意水準は、主にα(alpha)で表され、実験または調査で帰無仮説を棄却する基準確率を示します。

一般的に使用される有意水準は0.05(5%)ですが、実験の性質や研究の特性に応じて0.01や0.10など他の値を使用することがあります。

検定統計量

検定統計量は、収集したデータと仮説がどの程度一致するかを測る指標であり、母数推定をするために必要な標本統計量です。検定統計量は仮説検定で重要な役割を果たし、帰無仮説の棄却の有無を決定するために使用されます。

仮説を検定する過程で、統計的な誤りが生じる可能性が常に存在し、これを仮説検定誤라고 합니다.

統計的過誤 #

1. 第一種過誤 #

第一種過誤は、帰無仮説が真のときに帰無仮説を棄却する誤りを指します。第一種の誤りが発生する原因は、統計的検定で有意水準(significance level)を設定することにあり、この水準で帰無仮説を棄却するときに偶然に生じます。

例) 実際には効果がないのに、効果があると誤って結論づける状況

2. 第二種過誤 #

第二種過誤は、対立仮説が真のときに帰無仮説を採用する誤りを指します。第二種の誤りが発生する原因は、検定力(power)が不足して実際に存在する効果を感知できないときに生じます。

例) 実際には効果があるのに、統計的検定でその効果を見つけられずに帰無仮説を採用する状況