分析時にユーザビリティデータを評価するための6つの観点

表面的な印象と真の知見を区別するために、ユーザビリティ調査結果を、信憑性・一貫性・繰り返し・自発性・適切性・交絡要因の観点から分析しよう。

定性的なユーザビリティテストでは、行動データ(パフォーマンスデータ)と態度データ(主観的データ)の2種類のデータが得られる。分析の際には、調査設計や参加者募集に関する情報などの追加要因を考慮しながら、この2種類のデータを統合する必要がある。

データポイントを額面どおりに受け取れない理由

次の例を考えてみよう。

比較機能の有用性を評価することを目的に、プロトタイプのユーザビリティテストを進行しているとする。プロトタイプでのタスクを完了した後、5人中4人のユーザーがこの機能を好意的に評価し、今後使うだろうと答えた。

この説明を読むと、その機能はテストで良好な結果を示しており、デザイン変更は必要ないと思ってしまっても無理はない。だが、もし次のようなことがあったとしたらどうだろうか:

  • 実際にその機能を使った参加者は1人だけで、その1人も操作に苦労していた。
  • 肯定的なフィードバックは、ファシリテーターがその比較機能を好きかどうかを尋ねてはじめて得られた。
  • テスト終了時の、操作が簡単だった点、難しかった点を尋ねるフォローアップ質問では、比較機能についての言及はまったくなかった。
  • 適切な製品を見つけるよう求められた際、どの参加者もすぐに1つを選択してしまい、他の選択肢を検討することをしなかった。

これで、比較機能の有用性に対する評価は変わるだろうか。おそらく変わるはずだ!

時として、ユーザーの言うことと彼らが行うことは矛盾する。さらに、セッションのある時点でユーザーが言ったことが、彼らがその後、セッション内で言ったことと矛盾することもある!

だからこそ、ユーザビリティテストのデータを分析する際には、それぞれのデータポイントを、他のデータポイントとの関係の中で評価し、さらに参加者の募集方針や調査設計、ファシリテーション時の出来事についての情報と組み合わせて考える必要がある。

これが、ユーザビリティテストの分析をAIに任せられない理由の1つである。現在のところ、AIツールはテストの録画を処理したり「視聴」したりすることができないため、コンテキストを把握できない。また、誘導尋問をしてしまったり、ある参加者が適切な参加者ではなかったことを判断できるほどの知能もない。

定性データの関連性を評価する6つの観点

定性データ分析で検討する各データポイントは、その正確性と関連性を評価するために、6つの重要な観点、つまり、レンズを通して検討する必要がある。

  1. 信憑性(Authenticity)
  2. 一貫性(Consistency)
  3. 繰り返し(Repetition)
  4. 自発性(Spontaneity)
  5. 適切性(Appropriateness)
  6. 交絡要因(Confounds)
ユーザビリティテストデータを評価するための6つの観点を記載した図。
定性的なユーザビリティテスト調査で収集したデータポイントの評価には、6つの観点(信憑性・一貫性・繰り返し・自発性・適切性・交絡要因)を用いることができる。

また、それらを覚えやすくするために、次のような記憶法も考案した。

All Curious Researchers Stop and Analyze Carefully.
(好奇心旺盛なリサーチャーは皆立ち止まって慎重に分析する)

信憑性

この観点は、コメントや行動がどれだけ自然だったかを指す。参加者が何かを好きだとコメントしたとき、それは本心だったのか。我々は心を読むことはできないが、参加者の発言の仕方や行動の様子に注意を払うことで、その真意を見極めることはできる。

  • 参加者は、セッションのファシリテーターに気に入られようとしていなかったか。
  • 参加者は、機能やデザインについてコメントせざるをえないと感じていなかったか。

信憑性が欠けるコメントや行動の理由はさまざまだ。調査の構成に影響を受けていた、不適切な参加者やプロの調査参加者だった、「見られている」という意識から行動を変えていたなどが考えられる。

一貫性

この観点は、あるデータポイント(発言であれ行動であれ)が他のデータポイントとどの程度一貫しているかを指す。たとえば:

  • 参加者は、別の時点で述べたフィードバックと矛盾した発言をしていなかったか。
  • 参加者のコメントは、行動と一致していたか。

一例として、参加者がそのタスクは容易だったと言っても、行動は別のことを示していることがある。実際には、苦戦し、ミスをし、何度もやり直していたのである。こうした不一致は、参加者がリサーチャーに対して礼儀正しく振舞おうとしたり、難しかったことを認めたがらなかったりする場合に生じる。ユーザビリティテストで行動データと言語データが一致しないときは、人々が何を言っているかよりも、何をしているかに注意を払うようにしよう。

繰り返し

この観点は、1回のセッション内や参加者間で、あるコメントや行動がどのくらいの頻度で現れるかを評価する。繰り返される行動は、その根底にあるパターン・傾向・メンタルモデルを浮かび上がらせる。また、繰り返されるコメントは、多くの場合、本音に基づく強い感情や態度を反映している。

たとえば:

  • 繰り返しのコメント:参加者がある機能について好きだと何度も述べる場合、その感想は本物であるとより確信できる。
  • 繰り返されるエラー:複数の参加者が同じエラーをしている、あるいは同じセッション内で同じエラーが繰り返し発生する場合、それは真のユーザビリティ問題であることを強く示す指標である。

自発性

この観点は、参加者のコメントや行動がファシリテーターによって何らかのかたちで誘導されたものかどうかを指す。行動やコメントがプライミングなしに自発的に出てきた場合、そのフィードバックや行動は本物であるとより確信できる。

プライミングには注意が必要だ。参加者の自発的な行動を歪める可能性があるからだ。たとえば:

  • 調査の目的を早すぎる段階で明かしてしまう(セッションの導入部分や、ユーザビリティテストのタスクの中で直接明らかにするなど)。
  • 質問や会話の中で、UI要素や機能に言及する

適切性

この観点は、参加者とタスクが調査の目的と適合していたかに関するものである。検討すべき主な問いは次のとおりである:

  • 参加者はターゲットユーザーを代表していたか。
  • 参加者サンプルはターゲットユーザー層の特性を適切に反映していたか。
  • タスクは現実的で公平だったか、つまり、参加者に通常行わないことを求めていなかったか。

交絡要因

この最後の観点は、調査設計の要素のうち、意図せず参加者の行動に影響し、結果を歪めてしまう可能性のある点に注目する。よくある問題には次のようなものがある:

  • 順序効果:あるタスクを完了したことが、その後のタスクへの取り組み方に影響しなかったか。たとえば、テストに反復的なタスクが多く含まれていた場合、参加者は終盤にかけて飽きたり、疲れたりして、パフォーマンスに影響が出る可能性がある。
  • 複雑なタスク指示:タスクの説明が明確でない(長すぎる、専門的すぎる、平易な言葉で書かれていない)場合、製品のデザイン自体は適切でも、参加者が作業を完了させるのに苦労する可能性がある。

結論

ユーザビリティテストでは、単一のデータポイントだけで全体を語ることはできない。各データポイントは、批判的かつコンテキストを踏まえて検討する必要がある。すなわち、ユーザーの発言・行動・調査の実施方法のすべてが、我々が導き出す知見をかたちづくるということだ。6つの観点(信憑性・一貫性・繰り返し・自発性・適切性・交絡要因)を用いて、表面的なシグナルに惑わされることなく、信頼できる知見を導き出そう。