ユーザビリティ定量調査

ユーザビリティの定量調査には定性調査(こちらの方がよい洞察が得られることが多い)の4倍のコストがかかるが、それだけの価値を発揮する場合もある。とりわけ、管理職の人々がデザインの進捗状況を追跡し、製品の出荷時期を判断する材料として役立つ点は重要だ。

ユーザビリティは測定可能だが、そんなことはめったにやらない。なぜだろう?定量調査は高くつくので、ただでさえ乏しいユーザビリティ資源の使い方としてはふさわしくないからだ。

ユーザビリティに十分な予算を投入している企業は、まだ数少ない。予算が少ないとすれば、定量測定はやめにして、もっと手軽な定性的手法に目を向けるべきだ。こちらの方が、対費用効果ははるかに大きい。一般的にいって、デザインを改善する上では、数字より洞察の方が役に立つ。

しかし、ユーザビリティ予算が潤沢になる可能性もないわけではない。私は最近、いくつかのプロジェクトを通じて、異なった企業で公式のユーザビリティ定量調査を確立しようと努めてきた。各組織でユーザビリティへの投資額が増大するに従って、実際の測定値を集積しようという動きが出てくるのは、次のステップとしてごく自然な流れであるし、利点もあるはずだ。ユーザビリティの測定がもたらすメリットは、一般にいって次のようなものになる。

  • 各リリース間での進捗状況を把握する。方法論に磨きをかけようと思うなら、自らの現状を知らないで済ますわけにはいかない。
  • 自らの競争力を把握する。他社より優れているのか、劣っているのか?よいところ、悪いところはどこなのか?
  • 立ち上げ前の最終決定をする。このデザインなら、疑いを知らないこの世の中に発表しても大丈夫か?
  • デザイン管理職や上級管理職のボーナス査定基準にする。例えば、開発プロジェクトリーダーのボーナス額を、その製品に関する顧客サポートへの電話や電子メールが年間どれくらいあったかで決定する。

いかにして測定するか

ユーザビリティ測定基準を決めるのは簡単だが、データの収集が難しい。通常、ユーザビリティは、一定のテストタスクをユーザがどれくらい効率よく達成できたかという相対値で測定する。もっとも基本的な基準としては、次のようなものが挙げられる。

  • タスク達成にかかった時間
  • エラー率、それに
  • ユーザの主観的満足度

もっと細かい測定値を集めることも可能だ。例えば、ユーザが理想的なナビゲーション経路をたどった回数と逆戻りした回数のパーセンテージといったものである。

初心者ユーザと熟練ユーザの両方で、ユーザビリティを測定してもよい。真の熟練ユーザと言えるほどのユーザがいるウェブサイトはめったにない。どんなサイトであれ、細かなことまでくわしく学べるほど長時間、ひとつのサイトで過ごすユーザはほとんどいないからだ。このことを考えると、ほとんどのサイトは、初心者ユーザを調査するのがもっとも得るところが大きい。YahooやAmazonといったサイトは例外である。こういったサイトには非常に熱心でロイアリティの高いユーザがいるので、熟練ユーザの調査からも得るところがあるはずだ。

イントラネット、エクストラネット、ウェブ・アプリケーションは、従来のソフトウェア・デザインと同じで、できることなら熟練ユーザがいて欲しいものである。よって、公開ウェブサイトで通常多数派を占める初心者ユーザよりも、熟練ユーザを調査する方が重要だ。

定性的ユーザテストでは、3人から5人のユーザをテストすれば十分だ。5人目のユーザテストが終われば、めぼしい洞察はほとんど全部得られる。後はデスクに戻ってデザインの改善に取り組むのが一番だ。そうすれば、またテストができる。6人以上のユーザテストは資源の無駄使いであり、その結果、デザインの見直し回数は減り、最終的なデザイン品質は低下してしまう。

残念ながら、ユーザビリティ定量調査をするなら、テストの対象ユーザは5人以上必要だ。結果に関してそれなりに絞り込まれた信頼区間を得るためには、通常、各デザインごとに20ユーザでテストするようにお勧めする。よって、定量的ユーザビリティ調査の実施には、定性的調査の約4倍の費用がかかるということになる。単純な調査の方が得るところは大きいわけで、このことを考えると、よほどプロジェクトの予算が潤沢でない限り、通常、定量調査はお勧めできない。

2つのデザインを比較する

定量調査結果の実例として、最近、Macromediaが発表したFlashサイトのユーザビリティ調査を見てみよう。この調査の狙いは、Flashは必ずしも悪いとは限らないことを証明することにある。基本的には、Macromediaがあるデザインを取り上げて、これを一連のユーザビリティ・ガイドラインに照らして再デザインし、両バージョンを一群のユーザにテストしてもらうという手順だ。その結果は以下の通り。

もとのデザイン 再デザイン
タスク1 12秒 6秒
タスク2 75秒 15秒
タスク3 9秒 8秒
タスク4 140秒 40秒
満足度* 44.75 74.50

* 12(全面的に不満)から84(全面的に満足)までの指標で測定

ユーザビリティ調査で、ユーザに数秒で達成できるような単純なタスクを与えることはめったにない。普通、ユーザには、数分はかかるもっと目的指向のタスクをやってもらった方がいい。今私が取り組んでいるプロジェクトでは、ひとつのタスクが30分以上に及ぶことも珍しくない(当然ながら、そのサイトには改善すべき点が山のようにあるわけだ)。

あらゆる面で再デザインの方が元のデザインよりいい得点を上げているのだから、新しいデザインの方が古いものより優れているという点では疑問の余地はない。新しいデザインを採用して、できるだけ早く立ち上げるというのが唯一の賢明な行動だろう。だが、多くの場合、これほどはっきりした結果は出てこない。その際に重要になるのは、どれだけデザインが良くなったかを、もっとくわしく見ることである。

成果の測定

今回の事例では、タスク達成時間の測定値に2通りの見方がある。

  • 4つのタスク全部にかかった時間を足し合わせると、各デザインごとに「何かをするのにユーザはどれくらいかかったか」を示すひとつの数字が得られる。これなら、改善度の計算は簡単だ。元のデザインでは、一連のタスクに236秒かかっている。新しいデザインでは69秒だ。よってその改善度は242%となる。サイト訪問者が、4つのタスクすべてを順次実行するのが普通だというのなら、このアプローチには意味がある。言い換えると、各テストタスクが実際に、ユーザの興味の単位となる単一の大きなタスクのサブタスクであるのなら、ということだ。
  • タスク時間を足し合わせるのは簡単だが、一連のタスクの実行頻度にばらつきがある場合は、これは間違いの元にもなりうる。例えば、どのユーザも共通してタスク3はよく行なうが、その他のタスクはめったに行なわないとしよう。そうなると、新しいデザインは、古いものよりごくわずか改善されたに過ぎない。タスク処理能力での242%向上など、足下にも及ばない。タスクの実行頻度にばらつきがあるなら、各タスクごとに改善度を算出すべきである。
    • タスク1:相対スコア200%(100%向上)
    • タスク2:相対スコア500%(400%向上)
    • タスク3:相対スコア113%(13%向上)
    • タスク4:相対スコア350%(250%向上)

    これら4つのスコアの幾何平均を取って、タスク時間での全体の改善度を150%とすることもできる。

より一般的な算術平均ではなく、幾何平均をお勧めするのには理由がある。第一に、大きな数字ひとつで結果を曲げたくはないから。第二に、幾何平均なら測定値の中に負の値(すなわち、最初のデザインを100%として、第二のデザインの得点がそれ以下の場合)が混じっていてもうまく説明できるからである。

2種類の基準がからむ単純な例で考えてみよう。片方の基準では新しいデザインのユーザビリティは2倍になっているが、他方の基準では古いものの半分に落ちている。この2種類の測定値(200%と50%)を算術平均すると、新しいデザインのスコアは125%という結論になる。言い換えると、新しいデザインは、古いものに比べて25%の改善ということだ。言うまでもなく、こんな結論は納得できない。

幾何平均ならもっといい解答が得られる。一般に、N個の数値の幾何平均は、各数値の積のN乗根となる。今の例で言うと、2.0に0.5をかけ、この平方根を取る。結果は1.0(すなわち100%)となり、基準値と比較して、新しいデザインのユーザビリティは変化なしということになる。

幾何平均を取るにあたって、タスクごとにウエイトのかけかたを変えておくことも可能だが、この例の場合は、タスクの相対的な頻度や重要性に関して何もわからないので、ウエイトはすべて同じと見なしている。

結果の要約

測定値が集まったら、この数字を元にして、あなたのデザインのユーザビリティについての全般的な結論を出すこともできる。だが、効率
vs. 満足度の相対的な重要性を、まずは考慮しておくべきだ。Macoromediaの例では、新しいデザインに対するユーザの主観的満足度は、以前のデザインに比べて66%増加している。ビジネス指向のウェブサイト、あるいは頻繁な利用が見込まれるウェブサイト(例えば株式市況)では、嗜好性よりも効率性を重視すべきかもしれない。エンタテイメント・サイト、あるいは1回だけしか使わないサイトでは嗜好性を重視すべきだろう。総括を出す前に、私ならエラー率と、できれば追加のユーザビリティ特性を2、3考慮したい。だが、その他の条件がすべて等しいなら、私は通常、すべてのユーザビリティ測定に同じウエイトを置く。よって、Macromediaの例で言えば、一連の得点の幾何平均は(2.50×1.66)の平方根=2.04となる。言い換えると、新しいデザインの得点は、対象標準(以前のデザイン)の基準値100%に対して204%ということになる。

よって、新しいデザインは、以前より104%高いユーザビリティを備えている

私にとっては、この結果は別段驚くに値しない。再デザインの結果、ユーザビリティが2倍向上するのは普通だ。事実、システマチックなユーザビリティ・プロセス抜きで作られたウェブサイトを再デザインすると、さらに大幅なユーザビリティの向上が実測されることも珍しくない。しかしながら、まず最初に注目しなければならない数字は予算である。これが十分にないことには、ユーザビリティ向上戦略において、定量調査を取り入れるわけにはいかない。

2001年1月21日

公開:2001年1月21日(原文:2001年1月21日)
著者:Jakob Nielsen
原文:Usability Metrics

分類キーワード: