ユーザー満足度 vs. パフォーマンス指標
ユーザーが一般に好むのは、すぐに使える使いやすいデザインである。しかし、満足度と客観的ユーザビリティ指標の相関は100%ではない。
ユーザーが好きなのはユーザビリティに優れたシステムか? ばかげたことを聞くと思うだろう。しかし、調査結果からわかるのは、詳細に見ていくとこの話は少しややこしい、ということである。
答えをばらすと、そう、ユーザーは70%の確率でユーザビリティ指標が最高のデザインを選んでいる。しかし、100%ではない。
嗜好の評価
その質問に客観的に答えるには、細かいところまでみていく必要がある。私の行ったユーザーの嗜好の評価は次のようなシンプルな質問を基にしている: このウェブサイト(あるいはアプリケーションやイントラネット等)の利用に、7段階評価でどのくらい満足しましたか? 全ユーザーのスコアを平均すると、平均満足度の評価基準になる。
大いに気をつけなければならないのは、満足度についての(非常に短い)質問票を与えるのは、常に、テストユーザーにデザインの利用を試したもらった後で、ということだ。それらがどの程度良いと思うかを聞くのに画面をいくつか見せるだけというのはまったく妥当でない。ユーザーインタフェースを本物のタスクを実行するために実際に利用していないと、そのシステムを実際に利用したときにどの程度満足できるかは予測できないからである。(そして、結局のところ、肝心なのは実際に利用するということであり、調査で人々がどう言っているかではない)。
シンプルにユーザーに質問することで嗜好を評価することから、この指標は本質的に主観的なものである。とはいえ、それが評価尺度であることには違いない。今回の質問は、この主観的評価尺度と、システムのユーザビリティというより客観的な評価尺度との間に存在しうる関係を取り巻くものなのである。
パフォーマンスの評価
ユーザビリティの定義に戻ると、複数の評価可能な品質特性があり、それらが結合して我々が「ユーザビリティ」と呼んでいる より大きな概念が形作られている。
1つは上記の主観的満足度だ。そして、それ以外のより客観的な基準として、作業時間や成功率、ユーザーのエラーがある。
客観的なパフォーマンス評価指標を算出するため、我々は基本的にはユーザーに代表的なタスクを実行してもらい、それにどのくらいの時間がかかるか(そして、そもそもそのタスクができたのかどうか)を記録している。
ユーザビリティについてのシンプルな洞察を集めるより、定量的尺度を集めるほうが難易度は高い。そのため、我々は調査すべてにそれを盛り込んでいるわけではない。Nielsen Norman Groupで体系的にテストした1,733個のサイトとアプリのうち、良質な定量的そして主観的評価指標が得られたのは298個のデザインだった。
客観的指標と主観的指標の比較
以下のグラフが示すのは、主観的指標と客観的指標の双方を測定した298個のデザインにおける両者の組み合わせ結果である。各点が1つのウェブサイト、あるいはアプリケーション、イントラネットを指している。
X軸が示すのは、速さやエラーといった客観的パフォーマンス評価指標において、ユーザーがそのデザインでどのくらいのパフォーマンスを示したかである。我々は、生の数字を再コード化して、統一システムに置き換え、かなり異なるシステム同士の比較ができるようにした。結局のところ、タスクの実行に5分かかるデザインが良いのか悪いのかは、代わりのデザインでユーザーがどのくらいの速さでタスクを行えるかによって決まる。そのため、各システムの標準偏差が他デザインの平均に対してどのくらいになるかを算出した。また、グラフ内でのスコアが大きいほど、ユーザビリティが良いことを常に表すことも確認した。したがって、例えば、ユーザーのエラーに関しては、数字が小さいほど良いので、平均エラー率を1単位下回るときの標準偏差は+1というスコアとして表れることになる。
Y軸が示すのは、主観的満足度調査で、ユーザーが各デザインに対し、どのくらい好ましいという評価をしたかである。この評価指標をX軸と比較できるようにするため、こちらもその生のスコアを標準偏差の値に変換した。
したがって、縦軸より右にある点が表すのはユーザーパフォーマンスが平均より良かったデザインであり、左にある点が表すのはユーザーパフォーマンスが平均より悪かったデザインである。
同様に、横軸より上にある点が表すのは、平均より良いとユーザーに思われたデザインであり、横軸より下にある点が表すのは、満足度の点で平均より劣るとユーザーに評価されたデザインである。
パフォーマンスと嗜好の相関
赤い線はこの2種類のユーザビリティ指標間の最適回帰である。2者の間には強い相関があることが明らかで、相関係数はr = .53である。
言い換えると、デザインを利用するのが容易であればあるほど、満足度調査の評価は良くなる傾向にある。しかし、その相関は完璧な1.0ではないので、そこにはまだ何かする余地はある。
主観的満足度における矛盾とは客観的指標と主観的指標が時に相反することだ。しかし、そういうことは頻繁にあるわけではない。例えばここでは70%の点は予想される象限の中にある:
- 右上: ユーザーパフォーマンスが平均より上で、平均よりも好まれたデザイン。
- 左下: ユーザーパフォーマンスが平均より下で、平均よりも好まれなかったデザイン。
矛盾しているのは予想外の象限内にある30%の点である:
- 左上: ユーザーパフォーマンスは平均より下だが、平均よりも好まれたデザイン。
- 右下: ユーザーパフォーマンスは平均より上だが、平均よりも好まれなかったデザイン。
しかしながら、そこには大きな矛盾はない。つまり、ユーザーパフォーマンスが平均より非常に良いのに、デザインがすごく嫌われていたり、ユーザーパフォーマンスが非常に悪いのに、デザインがすごく好まれているような例は存在しない。(こうした大きな矛盾があれば、各々、グラフの左上か右下の隅に点として表れただろう)。
ここで我々が見つけたのは、小さな矛盾だけである。ユーザーパフォーマンスはちょっと良かったけど、デザインがやや嫌われていたり、ユーザーパフォーマンスはちょっと悪かったけど、なんだかんだ言ってデザインはやや好まれたといった事例である。
(グラフ内の点を数えた人なら、ちょっとした仕掛けがあることに気づくだろう。グラフにある点は298個で、それはNielsen Norman Groupが、主観的および客観的両方のユーザビリティ指標を測定した298件の調査を表している。しかし、30%という矛盾は315件の事例分析から推定されたものである。つまり、その315件にはパフォーマンスと嗜好の関係が一致したのかしなかったのかを見極めることは可能だったが、グラフに点をプロットするに足るデータまでは持っていなかった残り17件も含まれている)。
満足度とパフォーマンス評価指標、両方を考慮しよう
今回のデータ分析から実務に持ち帰れる事柄は2つである:
- パフォーマンスと満足度のスコアには強い相関がある。したがって、デザインをより使いやすくすれば、ユーザーにもっと好まれることだろう。
- パフォーマンスと満足度は異なったユーザビリティ指標である。したがって、デザインプロセスにおいては両方を考慮すべきであり、定量的ユーザビリティ調査をするなら、両方を測定すべきである。