2つの数値が明らかに違う場合でも、その差が統計的に有意なものかを判断するには、少し手間をかける必要があります。
たとえば、会社で顧客満足度アンケートを実施したとします。上司は、男性顧客によるNet Promoter Score©(NPS)が女性よりも低いかどうかを知りたいと考えています。
データを見ると、男性回答者の平均スコアは9、女性は12でした。ただ、9と12の差が有意かどうかは、どうすればわかるのでしょうか。そこで必要になるのがt検定です。
この記事では、t検定の定義や用途、使用例をご紹介し、結果の解釈方法をご説明します。
t検定は、2つの平均値の差が統計的に有意かどうかをt分布を用いて検定する統計手法であり、観測されたグループ間の差が真の差を反映したものか、偶然によるものかを判断するのに役立ちます。
t検定は、特別な計算式を使って平均を比較し、その差が統計的に有意かどうかを判断します。アンケートの分析において最も一般的なのは、2標本のt検定です。
1標本のt検定と対応のあるt検定の計算式では、次のような計算式を使用します。
1標本のt検定と対応のあるt検定は、どちらも、算出したt値をt分布の臨界値と比較して有意度を評価します。
t検定は、アンケート結果に見られる2つの平均の差が、ただ数値的に異なるだけではなく有意に異なるものなのかを知りたいときに使います。グループ平均を比較し、標本間の差を評価し、その差の統計的な有意度をp値や信頼水準に基づいて判断することができます。
アンケートで一般的な例:
t検定は、平均の差を調べたいときや、ベンチマーク比較をテストしたいとき、小さい標本サイズで仮説を検証したいときに有効であるため、アンケートの分析やA/Bテストなど、データに見られる差が真の差であることを証明したい場面で確実に力を発揮します。
t検定で信頼できる結果を得るためには、あらかじめデータが基本的な前提条件を満たしているかを確認する必要があります。
これらの基本条件をチェックすることで、観測された差がデータのノイズではなく実際の傾向であると確信できます。
アンケート調査では、一般に3種類のt検定が使われます。それぞれの用途をここでご紹介しましょう。
1標本t検定では、あるグループのデータの平均(下の例では、全体のCES)が指定の基準値と異なるかどうかを調べます。
例: 会社の現在のカスタマーエフォートスコア(CES)の平均は、4.2です。この4.2という値は、業界標準の5.0と有意に異なると言えるでしょうか。
2標本のt検定は、2つの独立したグループの平均が有意に異なるかどうかを調べます。グループの分散が大きく異なる場合や、標本サイズが不均衡な場合は、等分散を仮定しないWelchのt検定(多くのツールで利用可能)を使用しましょう。
例: 「会社のNPSは、男性客の方が女性客より低い」という仮説を立てました。男性回答者の平均NPSが9、女性が12の場合、9と12の差は統計的に有意と言えるでしょうか。
この検定では、1つのグループを対象に同じアンケートを2回実施し、1回目のアンケートと2回目のアンケートの間で平均が変化したかどうかを調べることができます。
例: 顧客のグループを対象に同じアンケートを2回実施しました。1回目は4月、そして2回目は会社の広告を見た後の5月です。顧客が広告を見た後、会社のNPSは変化したでしょうか。
t検定は、4つのステップで実施します。
ここでは、冒頭で紹介したNPSの例を使って、4つのステップを詳しく説明します。
「会社のNPSは、男性客の方が女性客より低い」という仮説を立てました。男性の平均NPSは9、女性が12です。この9と12の差が有意なものなのかどうかは、2標本のt検定で調べます。
では、手順とt検定の例を詳しく見ていきましょう。
t統計量の計算式は、t検定の種類によって異なります。この例では、2標本のt検定の計算式を使います。
皆さんがt検定を実施するときは、おそらくスプレッドシートや統計ソフト(ExcelやSPSSなど)を使うことでしょう。しかし、手計算で行う場合のために、他の2種類のt検定で使う計算式もご紹介します。
自由度とは、平均が何通りの異なる値を取り得るか、を示します。この例では、回答者グループから取得できるNPSスコアの数が自由度になります。t統計量と同様に、自由度の計算式も実施するt検定の種類によって異なります。
2標本t検定の自由度を計算するには、次の式を使用します。
臨界値とは、2つの数値の差を統計的に有意であるとみなす際のしきい値を指します。
この表によると、α水準が0.05、自由度が41の両側検定では、臨界値は2.02となります。ほとんどの場合に両側検定が使用される理由は、両側検定の方が片側検定より保守的だからです。
片側検定と両側検定の違いについて詳しくは、Khan Academyの動画をご覧ください。
t統計量が臨界値より大きい場合、2つの数値には有意な差があります。t統計量の方が小さい場合、2つの数値には、統計上、差がありません。
この例では、t統計量の絶対値である0.86は棄却値の2.02より大きくありません。そのため、男性のNPSスコアが女性に比べて有意に低いとは言えない、と結論できます。
t検定の結果を解釈するには、t値、p値、信頼区間を確認して、グループ間の差が実際の効果なのか、偶然の変動なのかを見極めます。これらの指標は、差の大きさ、証拠の強さ、結果の信頼性を示します。ここでは、Q&A形式で各指標の意味とt検定結果の分析方法を解説します。
t値は、グループ間の平均の差が、データ内のばらつきに対してどれほど大きいかを示します。t値の絶対値が大きい場合は、シグナル(実際の情報)がノイズ(偶然のばらつき)を上回っていることを示し、t値の絶対値が小さい場合は、差が偶然によることを意味します。
p値は、手元にある結果が、帰無仮説(実際の差はない)が正しい場合に偶然に観測される可能性を示します。通常は、0.05をしきい値とし、p値が0.05以下なら統計的に有意な差があり、p値が0.05より大きければその標本には有意な差がないと判断します。
信頼区間(CI)は、平均の真の差がどの範囲にあるかを示すもので、有意かどうかの判断を超えた情報を提供します。信頼区間がゼロをまたぐ場合、効果は決定的ではありません。ゼロをまたがない場合は、結果は、選んだ信頼水準において有意です。
意味のある差とは、統計的に有意で、かつ実際に重要な差を指します。効果の大きさの推定値と信頼区間を確認すれば、差の大きさや、それが意思決定において重要かどうかを把握することができます。
標本が大きいほど、データのばらつきが小さくなり、信頼区間も狭くなるので、真の差が発見しやすくなります。一方、標本サイズが小さいと、不確実性が高まり、境界に近い効果の解釈が難しくなります。
t検定の結果をわかりやすく要約するには、そのような比較を行った理由、検定からわかったこと、グループ間の差についてどれだけ確信できるかをまとめます。統計的な結果をわかりやすい言葉で説明し、元の仮説と結びつけ、結果からわかったことが今後の意思決定にどのように影響するかを強調します。
t検定の結果を要約するときは、次のポイントを押さえましょう:
いくつかの単純なミスを避けるだけで、アンケートデータのt検定から、よりクリアで信頼性の高い結果が得られます。
t検定は、2つの標本グループの平均に統計的に有意な差があるかどうかを判断する手法です。アンケートデータの分析時にt検定を使うと、データの信頼性を示すことができます。
SurveyMonkeyでは、組織の調査ニーズに合わせて、アンケートの作成・配信プロセスを効率化できます。ゼロから市場調査アンケートや質問票を作成するだけでなく、400以上の豊富なアンケートテンプレートから適したものを選んで利用することもできます。
アンケートデータの収集と分析を始めて、組織の成長につながる意思決定をサポートするために、今すぐ無料アカウントを作成しましょう。
NPS、Net Promoter、および Net Promoter Score は Satmetrix Systems, Inc.、Bain & Company、Fred Reichheld の登録商標です。



Hornblower社がSurveyMonkeyとパワフルなAIを使ってNPSデータを最大限活用し、顧客の洞察を収集して、顧客体験を改善している方法をご覧ください。






