アンケート調査における10の課題とその回避方法
回答バイアスは、アンケート調査が良いものになることを難しくする。以下のコツを参考にして、アンケート調査での主要な回答バイアス10個に対処し、アンケートデータを改善しよう。
ここ最近、何らかのアンケートに回答するように言われたことはなかっただろうか。おそらく2~3日以内にはあったのではないだろうか。
我々の調査によると、アンケートはUX実践者が最もよく利用する調査手法の1つだ。アンケート調査は、UXのさまざまな定量的な調査手法の中でも重要な位置を占めているが、「良質な」アンケート調査の実施は、多くの専門家が考えている以上に難しい。そして、欠陥のあるデータを収集する不適切なアンケートを作成するのはあまりにもたやすいことだ。
アンケート調査の限界
調査参加者が回答を選別できる
(新しいモバイルアプリでのページ移動のしやすさ・しにくさなど)行動がリアルタイムで見えるので、回答者が自分のやることをごまかしたり、選別したりすることができない観察的な手法とは異なり、アンケート回答は自己申告制だ。つまり、回答者はリサーチャーに情報を提供する前に、提出する内容のすべてについて選別が可能である。これが、どんなにうまく作成されていようと、アンケート調査の大きな限界といえる。なぜなら、リサーチャーが一般的に関心を持っているのは、実際に起こった現象であって、(意図的または非意図的に)検討済みの情報ではないからだ。提供する情報をユーザーが自分で決めることができる自己申告型の調査方法には、他にもインタビュー、フォーカスグループ、日記調査などがある。
アンケート調査ではリサーチャーによる深掘りができない
アンケート調査のもう1つの限界は、リサーチャーが深掘りをして、回答をよりよく理解することができないことだ。これは、回答者が、通常、リサーチャーのいないところでアンケートに答えることによる。仮に、リサーチャーが、回答者1人1人がアンケートに答えるところに立ち会うことが「できた」としても、そうすることで回答にバイアスがかかり、データに悪影響が出るだろう。さらに、アンケートの回答は、一般的に単純尺度での評価や多肢選択式の質問での選択である。したがって、「なぜ」そのような回答をしたのかは他に情報がないかぎりわからない(アナリティクスデータと共通する限界)。その上、回答者が追加でコメントを入力できるスペースを提供したとしても、こうしたオープンエンド型の回答は簡潔であったり、脈絡がなかったり、その欄自体が完全に飛ばされてしまうことが多い。
アンケート調査で収集できるのは態度データのみ
アンケート調査は、ユーザーがどのように考え、どのように感じるかを表す態度データを収集するものであり、彼らがどのように行動するかを示すものではない。そのため、ユーザビリティテストやアナリティクスといった、ユーザーの行動を正確に映し出す観察手法の代わりにはならない。アンケート調査は、回答者を作業フローから引き離して、実際に体験や行動を見せる代わりに、それらについて振り返ることを要求する。たとえば、アンケートでWebサイトの特定の機能にアクセスする頻度を尋ねたとしても、実際には、その機能にアクセスすると彼らが思う頻度を尋ねていることになる。行動についての質問というのは、人々がそうした行動を実際にどのように行っているかを正確に把握するのではなく、そうした行動に関するユーザーの認識や記憶を明らかにする。アンケート調査は、ユーザーが何を考え、どう感じているかを調べるために用いるようにし、何をするかについて知るためには利用しないようにしよう。
以下の、学校関連費用の管理と支払い用財務ダッシュボードについて、大学生に電子メールで送信されたアンケートについて考えてみよう。このアンケート調査の目的は、ダッシュボードのユーザビリティに関する知見を得ることだと思われる。しかし、残念ながら、このアンケートに回答した人たちは「明らかに」ダッシュボードを利用「していない」ようだ。さらに、ダッシュボードを利用した時期によっては、UIに関する記憶が不完全であったり、曖昧であったり、間違ったりすることだろう。その結果、このアンケートの回答によって、ダッシュボードの「ユーザビリティ」を正確に反映することは不可能だ。調査目的がユーザビリティや探しやすさ、気づきやすさなどの行動指標を検討することであれば、ユーザーテストなどの観察手法を用いて調べる必要がある。アンケートデータは、パフォーマンスベースのデータを補完するために利用することは可能だ。しかし、それ単独でシステムのユーザビリティを包括的に評価することはできない。
優れたアンケートの開発には時間がかかり、何度も反復を行うことになるが、アンケート調査は他の多くの調査手法と比較すれば、短時間で安価に実施できるものだ。これが、アンケート調査がこれほどまでに普及した理由だ。アンケート調査は、ユーザーが何を考え、どう感じているかを調査する際に、定量的データと定性的なデータの両方を大量に収集するのに便利だ。ただし、良いデータを収集するには、アンケートは内的にも外的にも妥当であるようにしっかりと作成する必要がある。アンケートが適切に作成されていないと、役に立たないデータができてしまうことになる。
以下の10項目は、アンケート調査においてよく目にする、調査参加者が自分の本当の考えや気持ちを偽りがちな傾向について説明したものだ。こうした傾向の影響を完全に緩和することは不可能だが、その影響を軽減するためにできることはたくさんある。
1. 想起バイアス
人は、過去の物事を正確に覚えていると思いがちだが、実際には、時間が経つにつれて細かいことはほとんど忘れてしまうし、物事に対する感情も気づかないうちに変化している。特定の出来事や体験に焦点を当て、その事後に実施するアンケート調査では、不完全な記憶が大きな課題となる。一方、観察法は、体験が起こっている最中に知見を収集するので、アンケート調査のような想起バイアスに悩まされることはない。人は、直近の出来事や頻繁に考えていること、強い感情を伴うことについての詳細をもっとも容易に思い出すことができるものだ。
予防のコツ:
調査に関連する出来事が発生したあとにできるだけ早く参加者にアンケートを配布する。たとえば、ユーザーがある特定のサービスに加入した理由を尋ねるアンケート調査の場合、加入した理由の記憶ができるだけ新鮮なうちに、加入をトリガーとしてアンケートを送るようにする。一度に大量の購読者にアンケートを送信できるまで、待つ必要はないということだ。
(ただし、このコツに従ったとしても、ユーザーがすぐにアンケートに回答してくれるとは限らない)
もっといいのは、アンケート調査をユーザビリティテストのような観察型のユーザー調査手法と組み合わせて利用することだ。たとえば、あるWebサイトのテストを終えたユーザーにSUSのようなアンケートを提示するとよい。そうすれば、彼らが質問に答える際、先の体験の記憶はまだ新鮮だろう。さらに、アンケート調査から得られる態度データによって、成功率やタスク時間など、他のパフォーマンスベースの指標を補完することもできる。
2. 直近バイアス
人は、ずっと前の出来事よりも、最近の出来事に重きを置く傾向がある。アンケートで「全体的な」体験や意見について聞かれても、ユーザーは、その間の感情の精神的平均を正確に取るのではなく、最近感じていたことを基に回答する可能性が高い。
予防のコツ:
最近の体験「と」以前の体験の両方について尋ねる。調査課題が複数の時点における意見や態度に焦点を当てたものであれば、まず直近の感情を把握し、その感情が時間とともにどのように変化したかを考えてもらうように意図的に誘導する。
アンケート調査ではなく、長期的な手法(日記調査など)を利用する。調査課題がさまざまな時点におけるユーザーの態度や感情を調査するものである場合、その時点ごとに回答してもらうようにし、最近の出来事に偏る可能性が高い、最後に行う1回のアンケートに頼らないようにする。
3. 社会的望ましさのバイアス
人は、社会的な規範に従い、社会的に望ましい方法で自分を表現したいという気持ちが強い。そのため、参加者は(意識的または無意識的に)社会的に受け入れられそうな回答に近づけようと、自分の答えを歪めてしまうことがある。たとえば、環境の持続可能性が社会的にますます重視されるようになってきていることを受け、自分の生活においてそれがいかに重要かを過度に強調したり、特定の嗜好品が社会的に蔑視されている場合、それをどれだけ好きかということを抑え気味に伝えたりする可能性がある。
予防のコツ:
機密保持(リサーチャーは回答者が誰であるかを知っているが、それを他者に言わない)または回答の匿名性(リサーチャーですら回答者が誰であるかを知らない)を強調する。自分の回答が自分の身元と関連づけられることはないと参加者を安心させることで、彼らが率直で正直な回答を気兼ねなくできるようにする。
間接的な質問を用いる。この方法を使えば、回答者はより正直に答えることができ、社会規範に合わせる必要性をそれほど強く感じずに済む。たとえば、特定の政治家候補についての気持ちを調査するアンケートでは、その候補と似たような政治的見解を持つ候補についても質問する。また、ある問題について、親しい友人や同僚がどう感じているかを尋ねるのもよい。このような場合に関連するデータを収集するためにオープンエンドな回答が必要なことも多いが、調査課題への回答が不十分になるというリスクはある。
4. 権威バイアス
人は自分を否定的にとらえられることを嫌う。アンケート回答者は、機会があれば、自分をより魅力的に、賢く、成功したように見せようとして、回答を歪曲する傾向がある。一般的には、収入を切り上げたり、暴力や虐待などの否定的な行為を控えめに言ったりする(あるいは完全に否定する)ものだ。アンケート調査は自己申告方式の手法であるため、回答者は必ずしも自分の本当の意見や行動を正確に伝えてくれるとは限らない。
予防のコツ:
正確な数値が必要ない場合は、回答の選択肢を範囲で表示する。自分の本当の答えを含む範囲を選択できるようにしたほうが、直接、申告してもらうよりも正確な答えになる可能性が高いからだ。たとえば、年齢や収入の範囲を提示すると、回答者は年齢や給与を直接入力しなくてもよくなり、歪曲が生じにくくなる。多くの場合、範囲が広くなるほど、正直に回答してもらえる可能性も高まる(例:65~80歳 対 66~70歳、71~75歳、76~80歳)。
調査にとって重要なセンシティブなデータについては、他のデータソースを利用する。多くの場合、リサーチャーは、他の入手可能な情報源からこうしたデータを収集するよりも、アンケートの一環として参加者に自分自身に関する情報を報告してもらう方が手軽だと思っている。しかし、収入、体重、実績などのデリケートなデータは、可能であれば、他の情報源から収集した方がより正確になる。
5. 黙従バイアス
人は、記述文に対して、反対よりも賛成をする傾向がある。たとえば、「(この会社は)高品質な製品を提供している」という記述文に賛成か反対かを尋ねると、どの企業でも、「そう思わない」よりも「そう思う」を選択する人の割合が多くなる傾向がある。このような賛成するという傾向は、他人に親切にしたいという自然な欲求によるものであることが多く、また、精神的なエネルギーを節約するための手っ取り早い方法としても機能している。さらに、反対する強い理由がないので、疑わしきは罰せずということにしておく場合もあり、その結果、一般的に、回答者は賛成するのである。こうした黙従バイアスのせいで、リサーチャーが誤って肯定的な結論に達してしまう恐れもある。
予防のコツ:
記述文に対して賛成や反対の回答を求めるのではなく、直接的なオープンエンド型の質問をする。ただ「そう思う」を選びさえすればいい、というわかりやすい方法がないと、人は自分の本当の気持ちを答える可能性が高くなるからだ。
リッカート尺度ではなく、SD法を利用する。SD法も、参加者に評価を求めるものであることには変わりはないが、質問の性質に応じた連続体として、選択肢を提供するからだ。一般に、SD法には、「そう思う」という明確な選択肢は存在していない。
逆転項目を入れる。回答者は、複数の似たような記述文に連続して賛成か反対かを記入するとき、肯定的な回答をまとめてパッと選択しがちだ。しかし、参加者が回答していく記述文や質問の焦点を交互に変えることで、彼らが個々の項目を意識的に読んで回答していたかどうかを示す指標にすることができる。たとえば、肯定的な記述文 (例:「(この会社は)私の利益を一番に考えている」)に連続して賛否を答えてもらう代わりに、否定的な記述文(例:「(この会社は)意図的に顧客をだまそうとしている」)を混ぜるとよい。ただし、項目の焦点の逆転は、同じような回答の文がたくさん並んでいる場合にのみ、控えめに行うようにしよう。逆転させることで、回答に必要な認知負荷が全体的に増加するし、回答や回答のコーディング時にエラーが発生する確率も増すからだ。
6. 順序効果
クローズド型のアンケート質問(多肢選択式や複数選択式など)では、回答の選択肢を提示する順番が、どの選択肢が最も選ばれやすいかに影響する。初頭効果と新近効果により、リストの最初と最後に近い選択肢は選択されやすい傾向にある。(初頭効果とは、回答者は条件を満たしそうな最初の選択肢を選ぶ傾向があることをいう。新近効果とは、リストの最後の選択肢、つまり「直近に見た」選択肢が最も記憶に新しく、そのため、最も選択されやすいことをいう)。
アンケートの質問の表示順も回答にバイアスをかける可能性がある。質問の順番のせいで、意図せずにアンケート調査の目的を明らかにしてしまったり、回答者に自分の回答に一貫性を持たせるプレッシャーを与えることもあるし、アンケート疲れで最後のほうの質問がおろそかになったりする可能性もある。
予防のコツ:
選択肢を意味のある並びにする。選択肢を(アルファベット順、年代順、場所順、時間順、カテゴリー順など)意味のある順序に並べると、回答者は、自分に当てはまる選択肢をすばやく特定できるようになり、先頭や末尾の選択肢をただ選ぶということをしなくなる。これは、慣例的に特定の順序に並べることになっている、長い選択肢のリストには特に当てはまる。
回答の選択肢の順序をランダムにする。回答の選択肢に明確な意味がない場合、その順序をランダムにすることで、各選択肢がリストの先頭または末尾に来る確率を等しくすることができる。たとえば、さまざまな色の選択肢は順序をランダムにするとよいが、年齢層はランダムにはできない。
可能であれば、ランダムに質問する。アンケートの質問の順番が重要でない場合、最初の質問が後に続く質問の回答に一貫して影響を及ぼすことを避けるために、参加者ごとにさまざまな順番で質問を提示することを検討しよう。また、質問を別のページに表示して、交絡の可能性を回避することもできる(編注:交絡とは、「結果変数」とそれを説明する「独立変数」の両方に相関する変数があること)。
7. そのときの気分や感情のバイアス
その時点での回答者の感情的な状態というのも、アンケートへの回答の仕方(や回答するかどうか)に影響する。焦っていたり、疲れていたり、無気力だったりすると、意味のある回答はおろか、そもそもアンケートを開始してくれないこともあるだろう。アンケートを配布するタイミングを決める際の最大の目的は、回答率を最大化することだ。したがって、回答対象者の大半が忙しそうな時間帯(例:勤務開始時)や、そのカスタマージャーニーにおいて複雑な問題に取り組んでいる段階でアンケートを配信するのは賢明ではない(体験のこうした複雑な部分について調べるには、アンケート調査の代わりに日記調査を実施するとよい)。
この最初の難関だけでなく、すべてのアンケート調査がそうであるように、アンケート調査に参加する人は、そのときの気分で回答する。場合によっては、アンケートの内容自体が特定の気分を誘発することもあるし(最近のネガティブな体験について尋ねるような場合)、その一方で、中立的な内容のアンケートもある。観察法とは異なり、アンケート調査は回答者の気分をとらえることができない(たとえそれについての質問があったとしても!)。そのため、そうした情報を分析や結論に反映させることは不可能だ。これが、アンケートデータを、現実を完全に反映したものと見なすことができない理由の1つである。しかし、定量的な調査結果の統計的有意差と信頼区間を計算することにより、こうしたばらつきを考慮に入れることは可能である。
アンケート調査が全体の印象を把握するためのものである場合、参加者がリラックスし、集中して、明瞭に考えることができるのであれば、アンケートに答えてもらう正確なタイミングは重要ではない。一方、参加者の現在の気分が収集するデータの重要な要素であるものもある(たとえば、System Usability Scale (SUS)やSingle Ease Questionnaire (SEQ)など)。これらの質問紙は、テスト全体や1つのタスクが完了した瞬間のユーザーの反応を把握することを目的としているため、該当する気分が残っている間に回答する必要がある。
予防のコツ:
思考発話法によるテストを実施して、アンケート調査によって回答者がどういう気持ちになるのかを把握する。数人の参加者にアンケートに答えてもらい、質問によってどういう気持ちになるのかを共有してもらう。この方法は、アンケートの内容が強い感情的な反応を引き起こす可能性がある場合(たとえば、困難な体験や論争の的になっているトピックについてアンケート調査を行う場合など)、特に有効である。
ある特定の気分でアンケート調査に参加するように参加者を促す。メールや通知にポップアップ表示されるシンプルなネットプロモータースコア(NPS)では、このやり方は非現実的だが、もっと長く、重要なアンケート調査の場合、特に謝礼を支払うことになっている場合は、参加者にリラックスして集中できる時間を確保するように促すのは有益だ。
カスタマージャーニーマップを活用し、アンケートの配布のタイミングを特定する。漁師が網を打つ最適な時間や位置を知るために獲る魚について調べるように、リサーチャーもアンケートを配布する時間や方法について意識的に考える必要がある。カスタマージャーニーのデータは、組織とやりとりするユーザーのその時々の気分を理解するのに役に立つ。とはいえ、それぞれの参加者の個人的な生活状況を予測する方法は、当然ながら存在しない。
8. 中心化傾向バイアス
人は、評価尺度で極端な回答をすることをためらう傾向がある。アンケートの回答者が尺度で回答を選択するよう求められた場合、その尺度が何段階であっても、回答者の答えは中央に寄ることが多い。
(たとえそのような回答がふさわしい状況であったとしても)回答者は極端な選択をためらうので、サンプルサイズが大きいと、一般に、評価尺度のデータはある程度正規分布することになる。選択肢の数が奇数の回答尺度には、必然的に中間点が存在するわけだが、そこには「どちらでもない」や「賛成でも反対でもない」といったラベルが貼られることが多い。この中間の選択肢も正当な回答ではある。しかし、提示された記述文に対する真の回答を形成する労力を割きたくない回答者にとっては、これらは格好の「逃げ道」になる。
予防のコツ:
参加者の意見がどちらか一方に傾くように、回答の選択肢を偶数にする。中立的な回答が多いと、リサーチャーにとっては結局あまり役に立たないからだ。もし分析中に中立の選択肢が必要になった場合は、真ん中の2つの選択肢を合計すればよい。
回答尺度は、意味がわかるかぎり、できるだけ少なくする。回答尺度の段階数は、その質問内容に対して、選択肢同士が論理的に区別でき、それぞれの意味が成立する数に留める。単に段階を多くしても(7段階以上など)、微妙なニュアンスが伝わる有益なデータを取得できる保証はないからだ。たとえば、9段階評価の「非常に強くそう思う」と「強くそう思う」といった、回答の選択肢同士の違いはあまり意味がない。なぜなら、大半のトピックについて、参加者がこのような具体的な感情を持つとは考えにくいからである。ほとんどの場合、4または6段階評価を採用することをお勧めする。この段階数であれば、回答するのも分析するのも容易だし、意味のある違いをほぼとらえることもできるからだ。
9. 要求特性
どのような種類の調査であれ、参加者はリサーチャーの狙いと目標を認識すると、それに応じて行動や反応を変える可能性が高い。参加者は、調査の成り行きに影響を与えるために特定の方法で回答をすることさえある。これは、特定のやり方で回答をすることが個人的に有益である場合には特にそうだ。たとえば、いわゆるプロの参加者は、調査参加者募集のスクリーナー(これもアンケートの一種である)に対して、自分がその調査に適しているかどうかにかかわらず、参加者として選ばれる可能性を高めるような回答をしようとする可能性がある。
アンケートの配布元や関連団体、アンケート調査の目的などに何らかの不満があると、極端な、あるいは事実とは異なる回答を意図的にする参加者もいる。
また、(特にブランドロイヤルティが高く、アンケートの配布元の会社に対して好感を持っている)参加者は、「役に立つ」ことをしたいという善意から、リサーチャーが求めていそうな回答を提供しようとすることもある。こうしたことは、回答者がリサーチャーと個人的なつながりがある場合にも起こりがちだ。だからこそ、優れたアンケート調査のためには、同僚や友人ではなく、実際のユーザーを募集することが重要なのである。
予防のコツ:
アンケート調査の真の目的を隠す。メールや通知、アンケートのタイトルや説明など導入のための資料には、アンケート調査の目的について詳しく書きすぎないようにしよう。さらに、調査の目的にとって重要な回答選択肢やアンケートの質問は、他のもっともらしいが重要度の低い選択肢や質問の間に配置して目立たないようにするとよい。
さまざまなタイプのユーザーにアンケートを配布する。肯定的な体験も否定的な体験も経験しているユーザーや、ブランドをよく知っているユーザーにも知らないユーザーにもアンケートを配布することで、上記のような要求特性を相殺できることが期待できる。
10. ランダム回答バイアス
アンケート回答者は、質問に対する答えがわからないと、概して推測で答えてしまう。これは問題である。なぜなら、推測による回答は正確なデータではないので、特定することが不可能だからだ。たとえば、購入前にその製品の調査にどれくらいの時間を費やしたかを尋ねるアンケート調査の場合、回答者の、特に数日あるいは数週間かけて調べた人は、そのときにかかった時間を正確に把握する方法がないため、ただ単に推測で答えてしてしまう可能性が高い。
また、回答者は、疲れているときや、謝礼をもらうためにとにかくアンケートを終わらせたいときにも、推測をしたり、適当な選択肢を選んだりすることがある。
予防のコツ:
答えがわからない人のために、代わりの回答を用意する。アンケートの質問がクローズド型の場合、「なし」「その他」「該当なし」などの選択肢が用意されていない限り、回答者は自分に当てはまる有効な回答がないことを示すことができない。ただし、すべての回答者が有効な回答をしてくれそうな場合は、各質問にこのような選択肢を用意する必要はない。このような選択肢は、回答者が質問について十分に検討しないまま回答することを放棄する格好の手段となるからだ(これは、評価尺度の真ん中に「中立点」を設けてはならないもう1つの理由でもある)。
逆転項目を入れる。思いつきで答える回答者は、類似したタイプの質問すべてに対して、同じ選択肢を選ぶことがよくある。逆転項目を入れると、参加者が質問を読まずにさっさと答えたり、でたらめに答えたりしたときに、それを見分ける役に立つ。ただし、繰り返しになるが、この方法は控えめに使うようにし、同じタイプの回答がたくさん並んでいる場合にのみ採用するとよい。
アンケートは短くする。回答者が飽きたり疲れたりして、推測をするようになったとすると、それは単にアンケートが長すぎるということだ。
結論
適切にデザインされたアンケート調査は、迅速かつ安価に貴重な知見を大量に収集することができるが、どんなに優れたアンケートであっても、その回答にはバイアスが生じる。大規模な集団についての我々の知識の多くは、アンケート調査によって集められたものだ。しかしながら、UXに関する貴重な知見を得たり、デジタルデザインを改善したりする上で、アンケート調査が必ずしも適切な手法であるとは限らない。すべてのアンケートデータは、批判的な目で分析する必要があり、単純にそれを真実として受け入れるべきではないのである。
さらに詳しくは、我々の1日トレーニングコース「Survey Design and Execution」にて。
参考文献
Davies, R. S. (2020). Designing Surveys for Evaluations and Research. EdTech Books. https://edtechbooks.org/designing_surveys