アンケートデータの分析方法

アンケート結果の収集を終え、データ分析プランも用意しました。さて次は、このデータを深掘りして分類・分析しましょう。

オンラインアンケートの結果が戻ってきました。統計的なアンケート結果を収集し、データ分析プランが整ったところで、手に入れたアンケート結果の計算を始めましょう。ここで、SurveyMonkeyのアンケート調査専門家が定量データを理解するために(定性データを理解するのとは対照的に)回答に目を通し、最も重要な問いとアンケートの目標に焦点を絞り、数字を噛み砕いて結論を導き出す様子をご紹介します。

  1. 最も重要な問いに注目する
  2. 結果のクロスタブ分析とフィルタリングを行う
  3. 数字を処理する
  4. 結論を引き出す

アンケート結果の計算に取り組む方法について、まずは、最も重要な問いの結果を分析する方法を見てみましょう。実証済みの問いを活用しましたか?確率抽出法を検討しましたか?最も重要な問いが何かを特定してから、アンケートの目標を設定することが大切です。

たとえば、教育に関する会議を開き、出席者にイベント後に記入してもらうフィードバックアンケートを配布した場合は、「出席者が会議全体をどのように評価しているか」が最も重要な問いになるでしょう。次に、その問いに関連したアンケート質問に対する回答を見てみます。

来年もこの会議に参加する予定ですか?

回答の選択肢
はい71%852
いいえ18%216
わからない11%132
合計1,200

回答を見ると、パーセンテージ(71%、18%)もあれば、数字(852、216)もあります。

パーセンテージは、特定の回答を記入した人の割合を示します。つまり、その質問に答えた人のうち、それぞれの回答を記入した人のパーセンテージです。アンケート回答者の71%(1200人中852人)が、来年もまた出席する予定でいます。

この表を見ると、18%が来年は出席しないと回答し、11%がわからないと回答していることもわかります。

アンケートの目標を設定し、分析プランを作成した際、どのサブグループを分析し、比較したいかを念頭に置かれたかと思います。さて、アンケートは予定どおりに進んだのでしょうか。たとえば、翌年の会議に関する質問で、教師や学生、事務員の回答を互いに比較したかったとします。それには、会議に関する質問の結果をサブグループごとに分けたクロスタブを作成して、回答率を掘り下げます。

はいいいえわからない合計
教師80%
320
7%
28
13%
52
400
事務員46%
184
40%
160
14%
56
400
学生86%
344
8%
32
6%
24
400
回答者合計8522161321,200

この表を見ると、学生の大部分(86%)と教師の大部分(80%)が来年また出席すると回答しています。しかし、会議に出席した事務員を見てみると様子が多少違うようで、来年も出席を予定している人は半分にも達しません(46%)。他の質問から、なぜこのような結果になったのかが理解できれば、事務員にとっての会議の質を改善し、また出席したいと考える人を増やすことも可能でしょう。

フィルターも、データのモデル化に役立つツールです。フィルタリングを行うと、特定の1つのサブグループだけに焦点を当て、他のサブグループを除外できます。ブグループ同士を比較するのではなく、1つのサブグループがその質問にどのように回答したかを調べることができます。たとえば、女性だけ(あるいは男性だけ)に焦点を当ててクロスタブをもう一度作成し、女性事務員、女性教師、女学生を比較します。結果を細かく分割するときに注意すべき点は、フィルターまたはクロスタブを適用するたびに、標本サイズが小さくなることです。統計的に有意な結果を出すためには、サンプルサイズ計算が役に立ちます。

会議のフィードバックアンケートに関して言えば、重要な質問の1つは、「会議全体にどの程度満足しましたか」というものです。結果を見ると、出席者の75%が会議に満足しています。これはかなり良い結果と言えるでしょう。でも、何らかの背景情報も欲しいですよね。何かと比較してみたらどうでしょう。去年と比べてどうなのか。他の会議と比べるとどうなのか。

たとえば、昨年の会議の後にもフィードバックアンケートを行い、同じ質問をしていたとします。その場合は、トレンド比較が可能になります。世論調査のプロは、あまり面白いジョークが言えない人が多いのですが、繰り返し聞くのは「トレンドはフレンド」というフレーズです。

昨年満足した人の割合が60%だったのなら、今年は15パーセンテージポイントも上がったことになります!何が満足度の向上につながったのでしょうか。アンケートの他の質問に対する回答からヒントが得られれば理想的です。

昨年のデータがない場合は、今年から毎年フィードバックを収集するようにしましょう。これを、ベンチマーク比較といいます。ベンチマーク、つまり基準となる数値を確立すれば、以降どのような変化があったのかを調べることができます。出席者の満足度だけでなく、他の質問についてもベンチマークを確立できます。それにより、毎年、会議の出席者の意見を追跡できるようになります。これを、時系列データ分析といいます。

異なるサブグループのデータを追跡することもできます。たとえば、満足した人の割合が学生と教師の間では増加しているのに、事務員では増加していないとしましょう。その場合は、事務員たちが他の質問にどう答えているかを調べ、なぜ他の出席者より満足度が低いのかを示すヒントを探します。

来年も出席したいと答えた人の数はわかっても、アンケートの回答が信頼できるものなのか、回答を参考にした上で今後の会議を準備していいものなのかは、確信できますか。データの品質に注意し、統計的有意性の要素を理解することが大切です。

「有意」というのは、意味がある、重要であるという意味です。アンケート分析や統計における「有意」は、「正確度を評価したもの」です。これこそ、アンケート分析で例の「プラスマイナス」が登場する場面です。具体的には、アンケート結果が特定の信頼水準において正確であり、偶然によって発生したものではないということを意味します。正確でない(統計的に有意でない)結果から推論を導き出すのは危険です。統計的有意性を評価する際、最初に考慮すべき要因は、標本の代表性です。つまり、アンケートに参加した人のグループが、結論を導き出す対象である母集団全体にどの程度「似ている」か、です。

会議に出席した人のうち、男性が占める割合は15%だったのに、アンケートに回答した出席者の90%が男性だったら、それは問題です。調査対象である母集団について多くのデータを用意しておけば、アンケートがそれに従っているとき、結果が正確であると確信することができます。少なくとも性別について言えば、この例でアンケート回答者の15%が男性であるとき、結果を信頼することができます。

アンケートの標本が、既知の母集団からランダムに選択したものであれば、統計的有意性は単純に計算できます。主要な因子は、標本サイズです。会議に出席した1,000人のうち、50人がアンケートに答えたとしましょう。50人というのは標本サイズとしては小さいため、許容誤差が大きくなります。つまり、結果にはあまり説得力がありません。

たとえばアンケートの回答者に対し、会議中に催された10のセッションのうち、いくつに出席したかを聞いたとしましょう。次のような結果になったとします。

12345678910合計評価平均
参加セッション数10%
100
0%
0
0%
0
5%
50
10%
100
26%
280
24%
240
19%
190
5%
50
1%
10
1,0006.1

その場合、平均を分析したいと考えるでしょう。ここでおさらいですが、一口に平均と言っても、統計では平均、中央値、最頻値の3つに区別されます。

上の表では、出席したセッション数の平均が6.1です。ここで計算した値は、皆さんになじみの深い「平均」です。平均の値は、数値を加算し、それを加算した数値の数で割ったものです。この例では、10人が1つのセッション、50人が4つのセッション、100人が5つのセッションなどに出席したと回答しました。そこで、人数とセッション数を掛け合わせたものを合計し、総人数で割ります。

中央値は、また別の概念です。中央値は、中央にある値、つまり50%の位置にある値を示します。上の表で言うと、その左側に500人、右側にも500人がいるようなセッション数を探します。この場合、中央値は6になります。中央値を使うと、データに悪影響を及ぼす可能性がある外れ値の影響を除去することができます。

3つ目の概念は最頻値です。最頻値とは、出現頻度が最も高い回答を指します。この例では、6という回答がそれです。260人の参加者が6つのセッションに出席したと答えていて、これは他のどのセッション数より多い回答です。

平均、中央値、最頻値は、リッカート尺度による回答からも計算できます。

アンケート結果についてレポートする場合は、データにどのようなストーリーがあるかを検討しましょう。

たとえば、会議に対する評価がいまひとつだったとします。何が問題だったのかを理解するため、掘り下げてみます。データを見ると、セッションやクラス、交流イベント、ホテルといった会議のほとんどの要素が出席者から高く評価されたことがわかります。しかし、出席者が何と言っても嫌ったのは、会議の開催場所に選ばれた都市でした。(1月の会議をシカゴで開催したら寒すぎて外に出られなかった、とか・・・。)すばらしい会議なのに場所の選択が最悪、というのもストーリーの一部なのです。冬の会議なら、マイアミやサンディエゴにした方がいいかも知れません。

データを分析し、レポートする際に考慮すべき点として、因果関係と相関関係が挙げられます。

アンケートデータ収集では、アンケートを使って特定の回答者から情報を集めます。アンケートデータ収集で、インタビューやフォーカスグループなどの他のデータ収集方法を置き換えたり、補完したりできます。アンケートによって収集したデータは、従業員エンゲージメントの向上や購入者の行動の理解、顧客体験の改善に役立ちます。

時系列データ分析(またはトレンド分析)では、特定の問いに対する答えを長期にわたって追跡します。ベンチマークが確立されたら、数値が推移するか、どのように推移するかを調べることができます。たとえば、会議に満足した人の割合が3年前は50%、2年前は55%、昨年は65%、今年は75%だったとしましょう。これは極めて良い傾向ですね!満足度の時系列データ分析が示しているのは、安定した上昇傾向です。

因果関係では、ある因子が別の因子に起因します。相関関係では、2つの変数が一緒に変動しますが、相互に影響したり、起因したりはしません。たとえば、ココアを飲む人の数と手袋をはめる人の数は、同じ時期に増加し、同じ時期に減少するので、相関しています。しかし、ココアが手袋に起因するのでも、手袋がココアに起因するのでもありません。実際は、どちらの因子も第三の因子である寒さに起因しています。寒さがココアの消費と手袋の着用に影響しているのです。寒さは独立変数で、ココアの消費と手袋の着用は従属変数です。会議のフィードバックアンケートの例で言うと、寒さが会議の開催地、ひいては会議全体に対する出席者の不満に影響したと考えられます。最後に、アンケートに含まれる変数の関係をさらに詳しく調べるには、回帰分析を実行するのがいいでしょう。

回帰分析は、データを可視化・分析する高度な手法で、2つ以上の変数の関係を調べることができます。回帰分析にはいろいろな種類があり、アンケートにどの手法が適しているかは、分析の対象である変数によって決まります。すべての回帰分析に共通しているのは、ある従属変数に1つまたは複数の独立変数が及ぼす影響を調べる、という点です。会議に関するアンケートで知りたいことは、会議に対する出席者の満足度に最も影響する因子はどれかということでしょう。セッションの数でしょうか。基調講演のスピーカーでしょうか。交流イベントでしょうか。それとも会場?回帰分析を行うと、会議のさまざまな属性に対する満足度が、全体の満足度に寄与するかどうか、寄与するのであればどの程度かを特定できます。

それが、次回の会議で何を変更すればよいかのヒントになります。たとえば、オープニングセッションの基調講演のために、高額な報酬を支払って一流のスピーカーを招待したとします。出席者は、このスピーカーと会議全体を高く評価しました。この2つの事実からは、優れた(高価な)基調講演スピーカーを招くことは会議を成功させるために重要であると考えられます。回帰分析を行えば、本当にそうなのかを判断することができます。回帰分析で、基調講演のスピーカーの人気が会議に対する満足度に大きく貢献することがわかったとしましょう。その場合、来年の基調講演にも優れたスピーカーを招待すべきでしょう。しかし回帰分析の結果、誰もがスピーカーを高く評価していながら、会議に対する満足度にはつながらないと判明したとします。その場合は、スピーカーの報酬に使ったお金を別のものに費やした方がいいかも知れません。時間をかけてアンケートデータを深く、慎重に分析すれば、回答を十分に活用した上で適切な決定を下すことができます。