ユーザー調査の証拠の説得力

多様な調査という幅広い基盤から導き出されたユーザビリティ上の発見は、多数のユーザーを基盤にした要因が1つしかない発見よりも信頼性が高い。

ユーザビリティ調査等のユーザー調査からの提言を信頼してよいのはどういうときなのか。

この疑問が生じる状況とは主に以下の2つである:

  • 自分で行う調査を計画するとき。プロジェクトに与える影響を最大限にするように、調査資金の優先順位をつける必要がある。そうすることで利益の高いデザインを導き出す確率が高まる。
  • 外部で行われた調査を解釈するとき。重要なのは他者による調査結果がどの程度信頼できるものなのかを知ることだ。つまり、自分のところのデザインについての判断を外部の調査に基づいて行っても大丈夫なのか。調査結果が対立するとき、どの調査を信頼すればよいのか。

幸いにも、どちらの状況でも答えはほぼ同じだ。信頼すべき調査とは投資すべき調査と同じ、つまり、幅広く多様な基盤から結論を導き出す調査、である。

この2つの状況における主な違いとは、ROIを考慮することによって自分のところの調査にかかる資金を減らせることにある。間違いなく正しいかを確認するためのサンプルサイズ等にかかる費用無駄なものだからである。したがって、調査からの提言が、例えば、統計的分析によると10%の確率で間違っていることが示されたとしても、それを実行に移したほうがよい。90%の確率を持つ正しいデザインにするほうが、目標の見えない状態でデザインしたり、調査による恩恵を受けていないデザインをしたりするよりはましだからである。

(間違ってもらっては困るが、もし自分たちで行う調査に完璧を求めると、調査自体がまったくできなくなってしまう。すべての細かいデザイン決定に関する調査まで網羅する予算は誰にもないからだ。したがって、唯一の現実的な選択とは、調査をしないか、ほどほどの内容の調査の調査を行うかしかない(日本語版なし)、たとえ、調査としては不完全であろうとも、だ。多少なりともデータが取れる選択肢を選ぼう。推測で決めるよりはずっとましだからである)。

数字には説得力がある?

調査の証拠の説得力を判断するとき、たいていの人が考慮する要素の1つが、通称Nとして知られているサンプルサイズである。これは何人の人がその調査に参加したかをさす。また、もう1つの判断材料としては、pと呼ばれることが多い統計的有意差のレベルもある。

しかしながら、調査結果に関して言えば、大きなNあるいは小さなp有効性の指標としてはむちゃくちゃなものである。

そう、統計的な有意差は正確に算出することが可能だ。しかし、そこからわかることは、それほど重要でないものだけ、つまり、まったく同じ実験をもう一度行うことによって、どのくらいの確率で同じ結果が得られるか、だけである。

極めて重要なことだが、その実験が正しく行われたのかどうか、あるいはあなた方の抱えるデザイン上の課題について何か予測をしてくれるものなのかどうかは、ここからは何もわからない。そして、この2つの論点は調査結果を信頼できるかどうかを決定する際には不可欠なものである。

統計的に有意な調査結果は以下の3点の重要な問題に対して弱点を持つ:

正しくないやり方で調査が行われた。ほぼすべてのユーザビリティ調査には弱点がある。最も一般的なのは、話しすぎることによって、参加者にバイアスをかけてしまうことである。調査設計自体がお粗末な場合もある。例えば、多くのアイトラッキング調査では被験者に単に静止画のスクリーンショットを見せ、彼らがその画像のどこに目を配っているかを記録するだけだ。しかし、人々の1つの画像に対する見方は、通常のウェブサイトでのナビゲーション中に遭遇した一連の画面に対する見方とはまったく違う。方法論が不適切だったり、完全に間違っていたりすると、同じ(間違った)調査を2度目に行ったとき、同じ(間違った)結果を得る可能性が高いかどうかが問題にならなくなるのは明らかである。

調査が一般化できない。ほぼすべての学術研究ではテスト参加者として大学生を使っている。つまり、たまたま学生向けのサイトのデザインをしているのでない限り、結果があなた方のターゲットオーディエンスには当てはまらない可能性もある。調査において、顧客に類似したプロフィールを持つユーザーをリクルートしたとしても、タスクの種類やデザインのスタイルがあなた方のものとは違うということもありうる。ユーザビリティとはコンテクストへの依存度が高いものである。したがって、あるユーザーやタスクには適切でも、別の人が何か他のことをしようとすると悲惨になる可能性もある。

調査が偶然うまくいった。調査によってはその結果がp<.05のレベルで統計的に有意、つまり、結果が偶然の一致である確率が5%しかない、というものもあるだろう。それはとてもいいことのように思える。世界中で毎日20件以上のユーザビリティ調査が実施されていることを知るまでならだが。しかしながら、公表バイアスというものを考えると、あなたが伝え聞いたのが、風変わりな結果となった1件の調査についてのみだったということもあるだろう。つまり、真理に到達している他の19件(以上)の調査は公表するにはおもしろくないというわけだ。そうした調査によって確認される内容とは我々が既に知っていることだからである(ユーザビリティ上の発見は長期間にわたってほとんど変わらない)。

調査の多様性

単一の調査の中で厳格に用いられる大きなNよりは、さまざまな状況を対象にしている調査を信頼するほうが良い。もし、結果が幅広い基盤から導き出されるなら、それを一般化して、その調査の要因(study stimuli)となった事柄だけでなく、あなた方独自の状況に適用できる可能性も上がるからである。

ユーザビリティ調査はさまざまな方法で多様化されるべきである:

  • ユーザー: 消費者、ビジネスプロフェッショナル、経営者、コンピュータの専門家、医師、子どもティーンエイジャー大学生高齢者等、多くのグループを対象にテストを行おう。
  • スキル: 熟練したユーザー、知能指数の高いエリート、コンピュータについてはほとんど何も知らない人識字能力の低いユーザー等を対象にテストを行おう。また、障害を持つユーザーも対象に入れよう。
  • タスク: 買い物や健康管理についての情報収集、ニュースのチェック、投資等、人々がオンラインで行うタスクのリストは枚挙にいとまがない。例えば、人々がどうやって検索しているのかを知りたいのなら、1つの事柄をどのように検索するのかを単に聞くことはやめよう。
  • テスト対象の企業あるいはサイト: 大規模なサイトか小規模なサイトか。有名ブランドのサイトか、無名企業のサイトか。
  • 技術的なプラットフォーム: テキストのみのUIか、GUIか。モバイルなのか、タブレットなのか。3Dか。
  • 長期的な調査10~20年前の調査と現在の調査の結果を比較しよう。もし結果が同じなら、将来に対しても当てはまるだろう。
  • 国際性複数の国でテストしよう。
  • 方法論: ユーザーテストやアイトラッキング、ダイアリー調査、フィールド調査等のさまざまな異なった方法のユーザー調査のやり方を通して、調査結果を三角測量しよう。

最後になるが、社内での利用向けに、プロジェクトのライフサイクルの全段階での調査も実施すべきある。すなわち、すべてのデザインを完成させる前に、初期段階ではプロトタイプを利用して、途中では反復による改良を行い、また、製品の発売後にも調査を行うべきである。

さまざまな種類の調査を実施すれば、大勢のユーザーをテストしていくという目標を最終的には達成することになる。例えば、Nielsen Norman Groupはこれまでに2,048人のユーザーを1対1のユーザビリティセッションでテストしてきている。しかし、さらに重要なのは、我々がこうした人々を対象にしてテストを行ったのが、北アメリカ、ヨーロッパ、アジア、オーストラリア、中東にわたる14か国の1,524のウェブサイトとイントラネットであることだ。こうした幅広い多様性が前提となり、我々の発見はテストの状況を超えた範囲にまであてはまる可能性が非常に高いのである。

自分のところで行う調査に資金を配分するときには、たくさんの小さな調査にまで予算がいきわたるようにしよう。外部で行われた調査を解釈するときには、自分たちの状況にまでは一般化できない、大勢のユーザーに1つのことをさせているソースよりも、さまざまな調査を実施しているソースのほうに信頼を置こう。

さらに詳しく

関連記事

Original image by: Jared Tarbell

公開:2013年5月1日(原文:2013年4月14日)
著者:Jakob Nielsen
原文:Strength of User Research Evidence

分類キーワード: