お問い合わせログイン
お問い合わせログイン

帰無仮説を棄却するのに十分なデータが集まったでしょうか。SurveyMonkeyの計算ツールでp値を計算してみましょう。

ノートパソコンで作業をしている女性

Zスコアは、データポイントの平均値からの距離を標準偏差で示します。標準正規分布表またはソフトウェアで見つけます。
両側の差に対しては、両側検定を使用します。結果が大幅に低い、または高いことが予想される場合は、右片側検定または左片側検定を選択します。
結果を統計的に有意とみなす基準。通常は0.05に設定します。

p値 =  

0

結果は有意ではありません。p ≧ 

0.05

あなたが、分析や統計の世界に足を踏み入れた場面を想像してみてください。目の前に並ぶ数字やデータポイントにどのような意味があるのかを見極めようとする中、突然、p値という値に出くわしました。p値は、研究者たちが仮説検定や有意性の謎を解き明かすために使用する、秘密の暗号のようなものです。

p値は、主に仮説検定における意思決定を助けます。p値により、観測データが、帰無仮説を棄却して代替仮説を支持するのに十分かどうかを判断することができます。p値は、グループの比較や相関検定にも使用されます。

上記のSurveyMonkeyのp値計算ツールを使って答えを出していきましょう。

p値は、確率(probability)の値を指します。帰無仮説が真であると仮定したときの、結果の見込みを表す指標です。実質的な差がない(帰無仮説)と仮定したときに、その結果が起こりそうな確率を示します。

p値は、帰無仮説に対する証拠の強さを数値で表したものです。通常は、事前に決めた有意水準(0.05など)を基準とします。低いp値は、「この結果は偶然の産物ではない」ことを示します。つまり、帰無仮説を棄却し、自分の仮説が真であると判断してかまわない、という意味です。

p値は、調査時に帰無仮説を採択すべきか、棄却すべきかを判断する際に重要な役割を果たします。p値が必要になる調査項目の例としては、次のようなものが挙げられます。

  • 「男性と女性で顧客満足度に差があるか」
  • 「研修プログラムに対する満足度は、従業員満足度と関連しているか」

低いp値は、テストの対象であるグループ間に差があることを示唆します。また、変数間に予測可能な実際の関係があることも示しています。

それにしたがって、発見事項の重要性を解釈し、証拠の強さを関係者や同僚に伝えることが可能になります。

p値を計算するには、まず帰無仮説が真である場合にそのデータが得られる確率を調べます。次に、その確率を、選択した有意水準(通常は0.05)と比較し、結果が統計的に有意かどうかを判断します。

Zスコアからp値を計算するには、標準正規分布表でZスコアを調べます。あるいは、ソフトウェアを使って対応する確率を求めます。この確率は、帰無仮説の下でZスコアのように極端な値を観測する可能性の高さを表します。

p値は、次の式で求められます。

  • 片側Z検定(左側検定): p値 = P(Zスコア)
  • 片側Z検定(右側検定): p値 = 1 - P(Zスコア)
  • 両側Z検定: p値 = 2 × P(−|Zスコア|) または 2 - 2 × P(|Zスコア|)

Zスコアからp値を計算する手順は、次のとおりです。

  1. 問題を理解する: 手元にあるデータについて、そのような結果を得る可能性の高さを知りたいと考えているとします。また、帰無仮説が真である場合にもっと極端な結果が出る可能性についても調べたいです。
  2. Zスコアを求める: データのZスコアを計算することから始めます。Zスコアは、データポイントが平均からどれだけ離れているかを、標準偏差を単位として表した値です。Zスコアは、統計ソフト(R、SPSSなど)を使って計算するか、表(たとえばこちら)で調べます。 
  3. 方向性を決める: 片側検定(一方向への偏り)か、両側検定(両方向への偏り)かを選択します。差が有意に小さい、または有意に大きいと予想される場合は、左片側検定または右片側検定を行います。差が大きいか小さいかわからない場合は、両側検定を行います。
  4. Zスコアを調べる: 標準正規分布表、ソフトウェア、p値計算ツールのいずれかを使って累積確率を求めます。
  5. 上記のp値計算ツールを使ってp値を求めるか:
    • 片側検定の場合: Zスコアが正(右片側検定)の場合は、1から累積確率を引きます。Zスコアが負(左片側検定)の場合、累積確率をそのまま使います。
    • 両側検定の場合: 両裾を考慮するため、累積確率に2を掛けます。Zスコアが正の場合は、1から累積確率の2倍を引きます。
  6. p値を解釈する: p値が非常に小さい(通常は0.05未満を指す)場合、帰無仮説の下でこのようなデータが観測される可能性はほぼないことを意味し、したがってデータは統計的に有意であると考えられます。上記のp値計算ツールを使い、信頼水準にしたがってp値を解釈することもできます。

t値からp値を計算するには、まず、標本平均と母集団平均の差を表すt値を特定します。次に、t分布表またはソフトウェアを使って、そのt値が観測される確率を調べます。この確率は、帰無仮説の下でそのような標本結果が得られる可能性の高さを示します。

t値からp値を求める場合の計算式は、次のとおりです。

  • 片側t検定(左側検定): p値 = cdft,d(t値)
  • 片側t検定(右側検定)= 1 - cdft,d(t値)
  • 両側t検定: p値 = 2 × cdft,d(−|t値|) または p値 = 2 - 2 × cdft,d(|t値|)

上の式で、cdft,dは、自由度dのt分布の累積分布関数を表します。

t値からp値を計算する手順は、次のとおりです。

  1. 状況を理解する: 手元にある標本データについて、そのような結果を得る可能性の高さを知りたいと考えているとします。母集団との間に実質的な差はないと仮定しています。
  2. t値を計算する: t値は、標本平均と母集団平均の間にどれだけの差があるかを示します。
  3. 自由度を特定する: これは、標本サイズによって決まります。自由度がわかれば、t分布表で正しい確率を調べることができます。
  4. t分布表を確認する: 計算したt値を、表の中で探します。すると、母集団との間に実際には差がない場合に、違い(あるいはそれ以上の差)が観測される確率がわかります。
  5. 結果を解釈する: p値が非常に小さい場合、帰無仮説の下でそのような標本結果が観測される可能性はほぼないことを意味します。したがって、その標本結果は有意であると考えられます。

ピアソン相関係数のp値を求めるには、まず、計算した係数からt統計量を導き出します。次に、自由度(n - 2)のt分布を使って、該当するp値を求めます。

ピアソン相関係数からt統計量を求める計算式は、次のとおりです。

t統計量の計算式

上の式で:

  • r は、ピアソン相関係数。
  • n は、標本サイズ。 

t統計量が得られたら、t分布の累積分布関数を使ってp値を計算します。それには、自由度n - 2を使用します(nは標本サイズ)。

一般的な手順を以下に示します。

  1. 状況を理解する: 手元にある標本データについて、2つの変数の間に相関が見られるかどうかを知りたいと考えているとします。
  2. t統計量を計算する: 上記の計算式を使って、相関係数(r)をt統計量に変換します。
  3. 自由度を特定する: 自由度(df)を計算します。計算式は 𝑑𝑓 = n - 2 で、nは標本サイズです。
  4. p値を求める: t統計量と自由度がわかったら、t分布表または統計ソフトを使って、t統計量に該当するp値を特定します。
  5. 結果を解釈する: p値が、選択した有意水準(通常は0.05)より小さい場合は、帰無仮説を棄却し、2つの変数の間に統計的に有意な相関があると結論します。そうでない場合は、帰無仮説を棄却できません。

カイ2乗値からp値を計算するには、カイ2乗分布の自由度を特定します。次に、統計表またはソフトウェアを使って、観測されたカイ2乗値のような極端な値が得られる確率を調べます。

p値の計算式は、次のとおりです。

p値 =1− cdfχ² (xdf)

上の式で:

  • xは、カイ2乗統計量。
  • ​cdfχ²は、カイ2乗分布の累積分布関数。
  • dfは、自由度。

​カイ2乗分布は右に歪んだ分布であるため、1から累積確率を引きます。観測されたカイ2乗値の右側にある裾部分がp値に対応します。

カイ2乗値からp値を計算する手順は、次のとおりです。

  1. 状況を理解する: 手元にあるカテゴリカルデータについて、変数間に有意な連関があるかどうかを知りたいと考えているとします。
  2. カイ2乗値を計算します。
  3. 自由度(df)を特定する: 単純なカイ2乗検定の場合は、カテゴリーの数から1を引いた値が自由度になります。独立性のカイ2乗検定の場合は、(行数−1)×(列数−1) が自由度になります。
  4. p値を特定する: 統計表またはソフトウェアを使って、カイ2乗値と自由度に該当する累積確率を調べます。これは、カイ2乗分布曲線の下の面積のうち、カイ2乗値より右側の部分に該当します。
  5. 結果を解釈する: 求めたp値を、選択した有意水準(通常は0.05)と比較します。p値が有意水準より小さい場合は、帰無仮説を棄却し、変数間に有意な連関があると結論します。そうでない場合は、帰無仮説を棄却できません。

p値が0.05(または選択した有意水準)以下である場合は、結果が統計的に有意であることを示唆します。つまり、観測結果は、α水準において有意です。

これは、帰無仮説が真であると仮定した場合に極端な結果が得られる確率は非常に低い、ということを意味します。この確率は、通常5%未満です。

そのため、帰無仮説を棄却して代替仮説を支持します。これは、代替仮説の主張を裏付ける証拠があることを示します。

p値が0.05より大きい場合は、観測結果が、選択した有意水準において統計的に有意でないことを示唆します。言い換えれば、帰無仮説を棄却するに十分な証拠がありません。つまり、観測結果が帰無仮説の下で期待される結果と異なるとは結論できません。

p値が0.05だった場合に、仮説が真である確率が95%、偽である確率が5%であると解釈する人がいますが、これは誤解です。

p値は、帰無仮説が真であると仮定した場合に手持ちのデータが観測される可能性の高さを示すもので、仮説が真である確率や偽である確率を直接的に示す指標ではありません。

よくある誤解の一つは、p値を、効果の大きさ、または重要度と同意であるように考えることです。これにより、統計的有意性と実質的な有意性の違いがあいまいになってしまいます。

小さいp値は、観測結果が偶然生じたものとは考えにくいことを示唆します。しかし、それは効果の大きさを意味しません。また、効果の実質的な関連性を示すものでもありません。

たとえば、帰無仮説からの逸脱がほんのわずかで、実質的には有意とは言えない場合でも、データセットが大きければp値は統計的に有意なものになることがあります。また、実験で複数回にわたって有意な差が見られた場合でも、これは確率によるためであり、有意でない結果が観測されることがあります。

逆に、p値が大きいからと言って、必ずしも観測効果が重要でないという意味ではありません。大きなp値は、データに帰無仮説を棄却するだけの十分な証拠がないことを示します。 

観測結果の実質的な意味を正確に評価するためには、p値に加えて効果の大きさを調べることが大切です。効果の大きさは、観測された効果の規模を定量化する数値です。効果の大きさを知れば、結果を、研究テーマや応用といった広範なコンテキストの中に置くことができます。

このように正確に区別することで、統計的有意性が持つ現実的な意味を適切に導き出すことが可能になります。それが、情報に基づいた意思決定や調査結果の解釈につながります。

多重検定の問題は、同じデータセットを使い、有意水準を適切に調整することなく何度も仮説検定を実施したときに生じます。多重検定を行うと、偽陽性(第1種の過誤)が生まれる可能性が過度に高くなり、帰無仮説が誤って棄却されるおそれがあります。

独立した複数の検定が同時に実施されるケースを考えてみましょう。各検定の有意水準は低くても(たとえば0.05)、偶然によって有意な結果が少なくとも1回観測される累積確率は、高くなります。これは、検定の回数が多いことで生じる現象です。

統計の世界では、ボンフェローニ補正などの手法を使って帰無仮説が棄却される確率を抑えます。これらの対策により、全体的な偽陽性率を効果的に制御し、偽陽性率がすべての検定で指定の閾値を下回るようにすることができます。

結果の実質的な意味を、研究テーマや応用といった広いコンテキストの中で考えましょう。統計的に有意な結果を過大評価しないこと、有意でない結果を慎重に検討せずに却下しないことが大切です。

授業に新しい方法を導入したところ、生徒たちのテストの成績が統計的に有意に改善されたとしましょう。これは、従来の授業方法と比較した場合の改善です。

大切なのは、結果を深読みせず、効果の大きさなどの要因を検討することです。成績の改善度は、新しい授業方法の大規模な実施を正当化するのに十分なものでしょうか。この観測結果は、同様の条件で再度調査を行った場合に再現されるでしょうか。他にも考慮に入れるべき要因(コストなど)はあるでしょうか。

逆に、有意でない結果が出た場合には、標本サイズが小さすぎる、測定エラーがあった、など他の要因も考えられます。 

そのため、結論を出す前に、調査の設計やデータ品質、潜在的なバイアスの原因を厳しく評価することが重要です。

調査に含まれる全変数のp値を、有意か否かに関係なくレポートすることで、分析の全体像が明らかになり、読者が発見事項の堅牢性を判断できるようになります。

レポートにすべてのp値を含めれば、有意でない結果も含めた統計分析の全容を伝えることができます。この透明性により、読者は、発見事項が異なる変数や分析で一貫しているかどうか、信頼性が高いかどうかを評価できます。データ全体を、バイアスや歪みのない形で提示することで、調査の完全性も維持されます。

p値が小さいときは、解釈に注意が必要です。観測効果の大きさを示す指標としては正確ではない場合があるからです。

p値は、効果があっても標本サイズが大きい場合に小さくなり得る、ということを念頭に置きましょう。標本サイズが大きいと、統計的検出力が大きくなり、帰無仮説からの小さな逸脱も検出されてしまいがちです。

そのため、標本サイズが大きい調査で小さいp値が得られても、必ずしも効果が統計的・実質的に有意なわけではありません。

  • Zスコアとは何ですか。
  • t値とは何ですか。
  • ピアソン相関係数とは何ですか。
  • カイ2乗値とは何ですか。
Woman with red hair creating a survey on laptop

フィードバックを自分の職務や業種で活用するためのツールキットを開拓しましょう。

A man and woman looking at an article on their laptop, and writing information on sticky notes

400種類以上の専門家作成のカスタマイズ可能なアンケートテンプレート。SurveyMonkeyで優れたアンケートをすばやく作成・送信しましょう。

Smiling man with glasses using a laptop

SurveyMonkeyの新しい複数アンケート分析機能を使うと、アンケート結果を1つのビューにまとめて分析できます。

Woman reviewing information on her laptop

質問票でデータを集める方法を学び、会社の市場調査に役立てましょう。例やテンプレート、ユースケースをご紹介します。