グループ平均やアンケート結果、A/Bテストの結果に統計的に有意な差があるかどうかは、簡単なt検定で見極めることができます。

t検定のチャートを作成する女性

2つの数値が明らかに違う場合でも、その差が統計的に有意なものかを判断するには、少し手間をかける必要があります。

たとえば、会社で顧客満足度アンケートを実施したとします。上司は、男性顧客によるNet Promoter Score©(NPS)が女性よりも低いかどうかを知りたいと考えています。 

データを見ると、男性回答者の平均スコアは9、女性は12でした。ただ、9と12の差が有意かどうかは、どうすればわかるのでしょうか。そこで必要になるのがt検定です。

この記事では、t検定の定義や用途、使用例をご紹介し、結果の解釈方法をご説明します。

t検定は、2つの平均値の差が統計的に有意かどうかをt分布を用いて検定する統計手法であり、観測されたグループ間の差が真の差を反映したものか、偶然によるものかを判断するのに役立ちます。

統計的有意度の検定は、コンセプトテスト製品テストでよく行われます。コンセプトテストでは、A/Bテストを使って2つの広告案のどちらが優れているかを判断します。同様に、製品テストでは、新製品が市場に受け入れられるかどうかを調べます。 

t検定は、特別な計算式を使って平均を比較し、その差が統計的に有意かどうかを判断します。アンケートの分析において最も一般的なのは、2標本のt検定です。

t検定の計算式

1標本のt検定と対応のあるt検定の計算式では、次のような計算式を使用します。

1標本のt検定と対応のあるt検定

1標本のt検定と対応のあるt検定は、どちらも、算出したt値をt分布の臨界値と比較して有意度を評価します。

t検定は、アンケート結果に見られる2つの平均の差が、ただ数値的に異なるだけではなく有意に異なるものなのかを知りたいときに使います。グループ平均を比較し、標本間の差を評価し、その差の統計的な有意度をp値や信頼水準に基づいて判断することができます。

アンケートで一般的な例:

  • 2つのグループの比較。2標本のt検定(独立標本)を使って、男性と女性、新規顧客と常連客、異なる従業員グループといったセグメントの間で、回答に差があるかどうかを調べます。
  • コンセプトのテストや、処置群と対照群の比較。A/Bテストコンセプトテストでは、t検定を使って2つのバージョンのどちらが優れているかを調べることができます。
  • スコアの差の評価。Net Promoter Score®(NPS)顧客満足度スコア(CSAT)カスタマー エフォート スコア(CES)などの指標を比較し、あるグループの平均が他のグループに比べて統計的に有意な形で高い(または低い)かどうかを調べます。
  • 時間の経過による変化の確認。対応のあるt検定は、同じ回答者のスコアがイベント後や新機能の導入後、キャンペーンの実施後などにどのように変化したかを示します。

t検定は、平均の差を調べたいときや、ベンチマーク比較をテストしたいとき、小さい標本サイズで仮説を検証したいときに有効であるため、アンケートの分析やA/Bテストなど、データに見られる差が真の差であることを証明したい場面で確実に力を発揮します。

t検定で信頼できる結果を得るためには、あらかじめデータが基本的な前提条件を満たしているかを確認する必要があります。

  • 回答が独立している。1つひとつの回答が異なる人から提供されたもので、互いに影響を与えていないことを確認します。重複やデバイスの共有、隠れたクラスタリングは避けましょう。
  • 平均が正規分布にほぼ従っている。t検定は、標本平均の分布が正規分布に近い場合に最も有効です。通常は、各グループの標本サイズが30以上であればこの条件は満たされます。
  • 分散が妥当であること。2つのグループの分散が大きく異なる場合や、標本サイズが不均衡である場合は、標準的な2標本のt検定ではなくWelchのt検定を使用します。

これらの基本条件をチェックすることで、観測された差がデータのノイズではなく実際の傾向であると確信できます。

アンケート調査では、一般に3種類のt検定が使われます。それぞれの用途をここでご紹介しましょう。

1標本t検定では、あるグループのデータの平均(下の例では、全体のCES)が指定の基準値と異なるかどうかを調べます。

例: 会社の現在のカスタマーエフォートスコア(CES)の平均は、4.2です。この4.2という値は、業界標準の5.0と有意に異なると言えるでしょうか。

2標本のt検定は、2つの独立したグループの平均が有意に異なるかどうかを調べます。グループの分散が大きく異なる場合や、標本サイズが不均衡な場合は、等分散を仮定しないWelchのt検定(多くのツールで利用可能)を使用しましょう。

例: 「会社のNPSは、男性客の方が女性客より低い」という仮説を立てました。男性回答者の平均NPSが9、女性が12の場合、9と12の差は統計的に有意と言えるでしょうか。

この検定では、1つのグループを対象に同じアンケートを2回実施し、1回目のアンケートと2回目のアンケートの間で平均が変化したかどうかを調べることができます。

例: 顧客のグループを対象に同じアンケートを2回実施しました。1回目は4月、そして2回目は会社の広告を見た後の5月です。顧客が広告を見た後、会社のNPSは変化したでしょうか。

ノートパソコンでグラフを見る女性

t検定は、4つのステップで実施します。

ここでは、冒頭で紹介したNPSの例を使って、4つのステップを詳しく説明します。

「会社のNPSは、男性客の方が女性客より低い」という仮説を立てました。男性の平均NPSは9、女性が12です。この9と12の差が有意なものなのかどうかは、2標本のt検定で調べます。

では、手順とt検定の例を詳しく見ていきましょう。

t統計量の計算式は、t検定の種類によって異なります。この例では、2標本のt検定の計算式を使います。 

  • tは、t統計量
  • x₁は、男性の平均NPS → 9
  • x₂は、女性の平均NPS → 12
  • n₁は、NPS質問に回答した男性の数 → たとえば、20名
  • n₂は、女性回答者の数 → 23名
  • s₁は、男性のNPSの標準偏差 → たとえば、12.48
  • s₂は、女性のNPSの標準偏差 → たとえば、10.51
2標本のt検定の計算式

皆さんがt検定を実施するときは、おそらくスプレッドシートや統計ソフト(ExcelやSPSSなど)を使うことでしょう。しかし、手計算で行う場合のために、他の2種類のt検定で使う計算式もご紹介します。

1標本のt検定と対応のあるt検定

自由度とは、平均が何通りの異なる値を取り得るか、を示します。この例では、回答者グループから取得できるNPSスコアの数が自由度になります。t統計量と同様に、自由度の計算式も実施するt検定の種類によって異なります。

2標本t検定の自由度を計算するには、次の式を使用します。

自由度の計算式

臨界値とは、2つの数値の差を統計的に有意であるとみなす際のしきい値を指します。 

このによると、α水準が0.05、自由度が41の両側検定では、臨界値は2.02となります。ほとんどの場合に両側検定が使用される理由は、両側検定の方が片側検定より保守的だからです。 

片側検定と両側検定の違いについて詳しくは、Khan Academyの動画をご覧ください。

t統計量が臨界値より大きい場合、2つの数値には有意な差があります。t統計量の方が小さい場合、2つの数値には、統計上、差がありません。

この例では、t統計量の絶対値である0.86は棄却値の2.02より大きくありません。そのため、男性のNPSスコアが女性に比べて有意に低いとは言えない、と結論できます。

t検定の結果を解釈するには、t値、p値、信頼区間を確認して、グループ間の差が実際の効果なのか、偶然の変動なのかを見極めます。これらの指標は、差の大きさ、証拠の強さ、結果の信頼性を示します。ここでは、Q&A形式で各指標の意味とt検定結果の分析方法を解説します。

t値は、グループ間の平均の差が、データ内のばらつきに対してどれほど大きいかを示します。t値の絶対値が大きい場合は、シグナル(実際の情報)がノイズ(偶然のばらつき)を上回っていることを示し、t値の絶対値が小さい場合は、差が偶然によることを意味します。

p値は、手元にある結果が、帰無仮説(実際の差はない)が正しい場合に偶然に観測される可能性を示します。通常は、0.05をしきい値とし、p値が0.05以下なら統計的に有意な差があり、p値が0.05より大きければその標本には有意な差がないと判断します。

信頼区間(CI)は、平均の真の差がどの範囲にあるかを示すもので、有意かどうかの判断を超えた情報を提供します。信頼区間がゼロをまたぐ場合、効果は決定的ではありません。ゼロをまたがない場合は、結果は、選んだ信頼水準において有意です。

意味のある差とは、統計的に有意で、かつ実際に重要な差を指します。効果の大きさの推定値と信頼区間を確認すれば、差の大きさや、それが意思決定において重要かどうかを把握することができます。

標本が大きいほど、データのばらつきが小さくなり、信頼区間も狭くなるので、真の差が発見しやすくなります。一方、標本サイズが小さいと、不確実性が高まり、境界に近い効果の解釈が難しくなります。

t検定の結果をわかりやすく要約するには、そのような比較を行った理由、検定からわかったこと、グループ間の差についてどれだけ確信できるかをまとめます。統計的な結果をわかりやすい言葉で説明し、元の仮説と結びつけ、結果からわかったことが今後の意思決定にどのように影響するかを強調します。

t検定の結果を要約するときは、次のポイントを押さえましょう:

  1. 目的を明確にする。まず、t検定を行った理由と検定の目的を説明します。たとえば、「アンケート結果で2つのグループの間に見られた平均の差が統計的に有意な差であることを証明するために、t検定を使った」というように説明します。  
  2. 記述統計を示す。次に、評価対象である各グループの平均と標準偏差を紹介します。これらの値は、観察された差を理解するために必要な文脈情報となります。他に、各グループの標本サイズも文脈情報として有効です。 
  3. t検定の結果を示す。続いて、t値、自由度(df)、p値、信頼区間の分析結果(実施した場合)を提示します。 
  4. 発見事項を共有する。最後に、結果を伝えます。差が統計的に有意だったかどうか、またそれが仮説や調査課題にとって何を意味するのかを簡潔に説明します。
  5. 次のステップを提案する。調査結果が会社にとってどのような意味を持つのかを説明します。結果がビジネス上、どのような判断につながるか、次のステップを提示しましょう。

いくつかの単純なミスを避けるだけで、アンケートデータのt検定から、よりクリアで信頼性の高い結果が得られます。

  • 実際の差を確認せずに小さなp値を追求する。結果が「統計的に有意」であったとしても、グループ間の差が実際に取るに足らないものであれば、意味はありません。差の大きさと信頼区間を確認し、t検定の実施が有意義かどうかを判断しましょう。
  • 手法を調整しないまま多数のグループを比較する。セグメントや質問の数が多いと、偶然に差が生じやすくなります。ANOVAなど、幅の広い検定から始めるか、複数のt検定を行う場合は基礎的な補正を加えます。
  • A/Bテストを早く打ち切る。結果を何度も確認して、好ましいタイミングでテストを打ち切ってしまうと、誤った結論につながることがあります。事前に標本サイズや実施期間を決めておきましょう。
  • 不適切なデータにt検定を使う。ランク付けの質問や、偏った評価スケールを使った質問の場合、平均が代表的な値にならないため、t検定は適しません。データが均等に分散され、極端な歪みが生じていないことを確認しましょう。
  • 基本的な前提条件を無視する。t検定は、回答が独立していて、各グループの分散が大きく異ならない場合に最も有効です。グループの分散が大きく異なる場合は、より正確な結果を得るためにWelchのt検定を使いましょう。
  • t検定とANOVA(分散分析)の違い
  • Z検定とt検定の違い

t検定は、2つの標本グループの平均に統計的に有意な差があるかどうかを判断する手法です。アンケートデータの分析時にt検定を使うと、データの信頼性を示すことができます。 

SurveyMonkeyでは、組織の調査ニーズに合わせて、アンケートの作成・配信プロセスを効率化できます。ゼロから市場調査アンケートや質問票を作成するだけでなく、400以上の豊富なアンケートテンプレートから適したものを選んで利用することもできます。

アンケートデータの収集と分析を始めて、組織の成長につながる意思決定をサポートするために、今すぐ無料アカウントを作成しましょう

NPS、Net Promoter、および Net Promoter Score は Satmetrix Systems, Inc.、Bain & Company、Fred Reichheld の登録商標です。

ノートパソコンで調査結果を確認している、ヒジャブを着けた女性

SurveyMonkeyが仕事の効率化をお手伝いします。成功する戦略・製品・体験で影響力を最大化する方法をご覧ください。

ノートパソコンで記事を見ながら、付箋に情報を書き留めている男性と女性

深いインサイトが得られる効果的な質的調査質問の書き方を解説。質問のタイプや例、書き方のヒントもご紹介します。

眼鏡をかけてノートパソコンを見ている笑顔の男性

Hornblower社がSurveyMonkeyとパワフルなAIを使ってNPSデータを最大限活用し、顧客の洞察を収集して、顧客体験を改善している方法をご覧ください。

ノートパソコンで情報を確認している女性

職場のトレンド、ワークライフバランス、自宅勤務、リモートワークと出社勤務の違いに関する新たな調査