t検定とは？アンケート結果を確実に比較する

t検定とは？アンケート結果の分析ガイド

グループ平均やアンケート結果、A/Bテストの結果に統計的に有意な差があるかどうかは、簡単なt検定で見極めることができます。

始める

2つの数値が明らかに違う場合でも、その差が統計的に有意なものかを判断するには、少し手間をかける必要があります。

たとえば、会社で顧客満足度アンケートを実施したとします。上司は、男性顧客によるNet Promoter Score©（NPS）が女性よりも低いかどうかを知りたいと考えています。

データを見ると、男性回答者の平均スコアは9、女性は12でした。ただ、9と12の差が有意かどうかは、どうすればわかるのでしょうか。そこで必要になるのがt検定です。

この記事では、t検定の定義や用途、使用例をご紹介し、結果の解釈方法をご説明します。

t検定とは

t検定は、2つの平均値の差が統計的に有意かどうかをt分布を用いて検定する統計手法であり、観測されたグループ間の差が真の差を反映したものか、偶然によるものかを判断するのに役立ちます。

統計的有意度の検定は、コンセプトテストや製品テストでよく行われます。コンセプトテストでは、A/Bテストを使って2つの広告案のどちらが優れているかを判断します。同様に、製品テストでは、新製品が市場に受け入れられるかどうかを調べます。

t検定の計算式

t検定は、特別な計算式を使って平均を比較し、その差が統計的に有意かどうかを判断します。アンケートの分析において最も一般的なのは、2標本のt検定です。

1標本のt検定と対応のあるt検定の計算式では、次のような計算式を使用します。

1標本のt検定と対応のあるt検定は、どちらも、算出したt値をt分布の臨界値と比較して有意度を評価します。

t検定の用途

t検定は、アンケート結果に見られる2つの平均の差が、ただ数値的に異なるだけではなく有意に異なるものなのかを知りたいときに使います。グループ平均を比較し、標本間の差を評価し、その差の統計的な有意度をp値や信頼水準に基づいて判断することができます。

アンケートで一般的な例:

2つのグループの比較。2標本のt検定（独立標本）を使って、男性と女性、新規顧客と常連客、異なる従業員グループといったセグメントの間で、回答に差があるかどうかを調べます。
コンセプトのテストや、処置群と対照群の比較。A/Bテストやコンセプトテストでは、t検定を使って2つのバージョンのどちらが優れているかを調べることができます。
スコアの差の評価。Net Promoter Score®（NPS）、顧客満足度スコア（CSAT）、カスタマーエフォートスコア（CES）などの指標を比較し、あるグループの平均が他のグループに比べて統計的に有意な形で高い（または低い）かどうかを調べます。
時間の経過による変化の確認。対応のあるt検定は、同じ回答者のスコアがイベント後や新機能の導入後、キャンペーンの実施後などにどのように変化したかを示します。

t検定は、平均の差を調べたいときや、ベンチマーク比較をテストしたいとき、小さい標本サイズで仮説を検証したいときに有効であるため、アンケートの分析やA/Bテストなど、データに見られる差が真の差であることを証明したい場面で確実に力を発揮します。

t検定を行う前にチェックしたい前提条件

t検定で信頼できる結果を得るためには、あらかじめデータが基本的な前提条件を満たしているかを確認する必要があります。

回答が独立している。1つひとつの回答が異なる人から提供されたもので、互いに影響を与えていないことを確認します。重複やデバイスの共有、隠れたクラスタリングは避けましょう。
平均が正規分布にほぼ従っている。t検定は、標本平均の分布が正規分布に近い場合に最も有効です。通常は、各グループの標本サイズが30以上であればこの条件は満たされます。
分散が妥当であること。2つのグループの分散が大きく異なる場合や、標本サイズが不均衡である場合は、標準的な2標本のt検定ではなくWelchのt検定を使用します。

これらの基本条件をチェックすることで、観測された差がデータのノイズではなく実際の傾向であると確信できます。

代表的な3種類のt検定と使い分けのポイント

アンケート調査では、一般に3種類のt検定が使われます。それぞれの用途をここでご紹介しましょう。

1. 1標本のt検定

1標本t検定では、あるグループのデータの平均（下の例では、全体のCES）が指定の基準値と異なるかどうかを調べます。

例: 会社の現在のカスタマーエフォートスコア（CES）の平均は、4.2です。この4.2という値は、業界標準の5.0と有意に異なると言えるでしょうか。

2. 2標本のt検定

2標本のt検定は、2つの独立したグループの平均が有意に異なるかどうかを調べます。グループの分散が大きく異なる場合や、標本サイズが不均衡な場合は、等分散を仮定しないWelchのt検定（多くのツールで利用可能）を使用しましょう。

例: 「会社のNPSは、男性客の方が女性客より低い」という仮説を立てました。男性回答者の平均NPSが9、女性が12の場合、9と12の差は統計的に有意と言えるでしょうか。

3. 対応のあるt検定

この検定では、1つのグループを対象に同じアンケートを2回実施し、1回目のアンケートと2回目のアンケートの間で平均が変化したかどうかを調べることができます。

例: 顧客のグループを対象に同じアンケートを2回実施しました。1回目は4月、そして2回目は会社の広告を見た後の5月です。顧客が広告を見た後、会社のNPSは変化したでしょうか。

t検定の4つのステップと例

t検定は、4つのステップで実施します。

ここでは、冒頭で紹介したNPSの例を使って、4つのステップを詳しく説明します。

「会社のNPSは、男性客の方が女性客より低い」という仮説を立てました。男性の平均NPSは9、女性が12です。この9と12の差が有意なものなのかどうかは、2標本のt検定で調べます。

では、手順とt検定の例を詳しく見ていきましょう。

1. t統計量を計算する

t統計量の計算式は、t検定の種類によって異なります。この例では、2標本のt検定の計算式を使います。

tは、t統計量
x₁は、男性の平均NPS → 9
x₂は、女性の平均NPS → 12
n₁は、NPS質問に回答した男性の数 → たとえば、20名
n₂は、女性回答者の数 → 23名
s₁は、男性のNPSの標準偏差 → たとえば、12.48
s₂は、女性のNPSの標準偏差 → たとえば、10.51

皆さんがt検定を実施するときは、おそらくスプレッドシートや統計ソフト（ExcelやSPSSなど）を使うことでしょう。しかし、手計算で行う場合のために、他の2種類のt検定で使う計算式もご紹介します。

2. 自由度を計算する

自由度とは、平均が何通りの異なる値を取り得るか、を示します。この例では、回答者グループから取得できるNPSスコアの数が自由度になります。t統計量と同様に、自由度の計算式も実施するt検定の種類によって異なります。

2標本t検定の自由度を計算するには、次の式を使用します。

3. 臨界値を決める

臨界値とは、2つの数値の差を統計的に有意であるとみなす際のしきい値を指します。

この表によると、α水準が0.05、自由度が41の両側検定では、臨界値は2.02となります。ほとんどの場合に両側検定が使用される理由は、両側検定の方が片側検定より保守的だからです。

片側検定と両側検定の違いについて詳しくは、Khan Academyの動画をご覧ください。

4. t統計量の絶対値を臨界値と比較する

t統計量が臨界値より大きい場合、2つの数値には有意な差があります。t統計量の方が小さい場合、2つの数値には、統計上、差がありません。

この例では、t統計量の絶対値である0.86は棄却値の2.02より大きくありません。そのため、男性のNPSスコアが女性に比べて有意に低いとは言えない、と結論できます。

t検定の結果を解釈する方法

t検定の結果を解釈するには、t値、p値、信頼区間を確認して、グループ間の差が実際の効果なのか、偶然の変動なのかを見極めます。これらの指標は、差の大きさ、証拠の強さ、結果の信頼性を示します。ここでは、Q&A形式で各指標の意味とt検定結果の分析方法を解説します。

t値は何を意味しますか？

t値は、グループ間の平均の差が、データ内のばらつきに対してどれほど大きいかを示します。t値の絶対値が大きい場合は、シグナル（実際の情報）がノイズ（偶然のばらつき）を上回っていることを示し、t値の絶対値が小さい場合は、差が偶然によることを意味します。

アンケートの分析におけるp値とは？

p値は、手元にある結果が、帰無仮説（実際の差はない）が正しい場合に偶然に観測される可能性を示します。通常は、0.05をしきい値とし、p値が0.05以下なら統計的に有意な差があり、p値が0.05より大きければその標本には有意な差がないと判断します。

信頼区間とはどのようなもので、なぜ重要なのですか？

信頼区間（CI）は、平均の真の差がどの範囲にあるかを示すもので、有意かどうかの判断を超えた情報を提供します。信頼区間がゼロをまたぐ場合、効果は決定的ではありません。ゼロをまたがない場合は、結果は、選んだ信頼水準において有意です。

差に意味があるかは、どう判断できますか？

意味のある差とは、統計的に有意で、かつ実際に重要な差を指します。効果の大きさの推定値と信頼区間を確認すれば、差の大きさや、それが意思決定において重要かどうかを把握することができます。

標本サイズは、t検定の有意性にどう影響しますか？

標本が大きいほど、データのばらつきが小さくなり、信頼区間も狭くなるので、真の差が発見しやすくなります。一方、標本サイズが小さいと、不確実性が高まり、境界に近い効果の解釈が難しくなります。

t検定の結果を効果的に伝える

t検定の結果をわかりやすく要約するには、そのような比較を行った理由、検定からわかったこと、グループ間の差についてどれだけ確信できるかをまとめます。統計的な結果をわかりやすい言葉で説明し、元の仮説と結びつけ、結果からわかったことが今後の意思決定にどのように影響するかを強調します。

t検定の結果を要約するときは、次のポイントを押さえましょう:

目的を明確にする。まず、t検定を行った理由と検定の目的を説明します。たとえば、「アンケート結果で2つのグループの間に見られた平均の差が統計的に有意な差であることを証明するために、t検定を使った」というように説明します。
記述統計を示す。次に、評価対象である各グループの平均と標準偏差を紹介します。これらの値は、観察された差を理解するために必要な文脈情報となります。他に、各グループの標本サイズも文脈情報として有効です。
t検定の結果を示す。続いて、t値、自由度（df）、p値、信頼区間の分析結果（実施した場合）を提示します。
発見事項を共有する。最後に、結果を伝えます。差が統計的に有意だったかどうか、またそれが仮説や調査課題にとって何を意味するのかを簡潔に説明します。
次のステップを提案する。調査結果が会社にとってどのような意味を持つのかを説明します。結果がビジネス上、どのような判断につながるか、次のステップを提示しましょう。

アンケートでt検定を使うときに避けたいミス

いくつかの単純なミスを避けるだけで、アンケートデータのt検定から、よりクリアで信頼性の高い結果が得られます。

実際の差を確認せずに小さなp値を追求する。結果が「統計的に有意」であったとしても、グループ間の差が実際に取るに足らないものであれば、意味はありません。差の大きさと信頼区間を確認し、t検定の実施が有意義かどうかを判断しましょう。
手法を調整しないまま多数のグループを比較する。セグメントや質問の数が多いと、偶然に差が生じやすくなります。ANOVAなど、幅の広い検定から始めるか、複数のt検定を行う場合は基礎的な補正を加えます。
A/Bテストを早く打ち切る。結果を何度も確認して、好ましいタイミングでテストを打ち切ってしまうと、誤った結論につながることがあります。事前に標本サイズや実施期間を決めておきましょう。
不適切なデータにt検定を使う。ランク付けの質問や、偏った評価スケールを使った質問の場合、平均が代表的な値にならないため、t検定は適しません。データが均等に分散され、極端な歪みが生じていないことを確認しましょう。
基本的な前提条件を無視する。t検定は、回答が独立していて、各グループの分散が大きく異ならない場合に最も有効です。グループの分散が大きく異なる場合は、より正確な結果を得るためにWelchのt検定を使いましょう。

t検定に関するよくある質問

t検定とANOVA（分散分析）の違い
Z検定とt検定の違い
Z検定とt検定は、いずれも統計的有意性を判定しますが、Z検定は一般に標本サイズが大きい場合（n>30）に使用されます。これは、標本サイズが大きいと平均の分布が正規分布に近づくためです。Z検定は、標準正規分布を用いるため、標本が大きい場合に信頼性が高くなります。
Z検定とt検定のもう一つの違いは、Z検定では母集団の標準偏差（σ）が既知である必要がある点です。一方のt検定は、母集団の標準偏差がわからない場合に使い、標本の標準偏差（s）を使ってばらつきを推定します。t検定の方がより一般的なのは、実際のデータで母集団の標準偏差がわかっていることはほとんどないためです。