ユーザビリティ調査では何人でテストするのか

例外を除くと、その答えは5人である。テスト参加者をもっと多く使うことに賛成する意見の大半は間違っている。しかし、中には、より大きな規模のほうがいいテストもあれば、小さいほうがいいものもある。

How Many Test Users in a Usability Study?
by Nielsen Norman Group
on June 4, 2012
日本語版2012年6月26日公開

欲しい数字が1つなら、答えはシンプルだ。ユーザビリティ調査では5人のユーザーでテストしよう。その結果、もっと多数のテスト参加者を使って得られるのとほぼ同数のユーザビリティ上の問題を見つけられるだろう。

1989年に「ディスカウントユーザビリティエンジニアリング」を奨励し始めて以来、この答えは変わっていない。テストしているのが、ウェブサイト、イントラネット、PCアプリケーション、モバイルアプリなど、何なのかは関係ない。ユーザーを5人使えば、ユーザーテストの費用便益比はたいていの場合、ほぼ最大になるからである。

しかしながら、ヒューマンファクターのどんな問題でもそうであるように、そこには例外がある：

（洞察ではなく、統計データを得ることが目的の）定量調査：統計的に有意な数字を得るためには、少なくとも20人のユーザーでテストしよう。厳密な信頼区間のためにはさらに多くのユーザーが必要である。
カードソーティング：少なくとも15人のユーザーでテストしよう。
アイトラッキング：しっかりとしたヒートマップにしたいなら、39人のユーザーでテストしよう。

しかしながら、こうした例外にはあまり惑わされなくてもよい。圧倒的多数のユーザー調査は定性的なものであるべきだからだ。つまり、そこでの目的はデザインの推進力となる洞察を集めることであって、PowerPointで人々を感心させるための数字を集めることではない。

小規模なテストを支持する主な論拠はシンプルに投資対効果（ROI）である。調査参加者が追加されるごとにテストのコストは増加するが、調査からの発見の数はすぐに収穫逓減ポイント（訳注：< 経済用語>入力の増加が出力の増加に結びつかなくなっていくポイント）に達してしまうからである。同じ調査を5人より多い人数で実施しても利益はほとんど増えない。したがって、N数が大きくなるほどROIは転げ落ちていく。

では、予算がたっぷりあるなら？　そう、調査ごとのユーザー数を増やすのではなく、調査の回数を追加することにそれは使えばよい。

哀しいかな、企業のほとんどはテストの規模を大きくしたがる。ユーザビリティウィークカンファレンス中に、私は217人の参加者を対象に彼らの会社の調査実務についてアンケートを行った。ユーザーテスト1回ごとのテスト参加者は11人というのがそこでの平均回答だった。推奨人数の倍以上だ。少ないN数でのユーザビリティ調査のメリットをもっと説明する必要があるのは明らかである。

テスト参加者を増やすことへの（説得力のない）論拠

「大規模なウェブサイトには何百万人もユーザーがいる」。しかし、それはサンプルサイズには関係ない。実施していたのが定量調査であっても、だ。世論調査で、誰がピッツバーグの市長に選ばれることになるのか、と、誰がフランスの大統領に選ばれることになるのか、を調べるには同数の回答者が必要である。統計的サンプリングの分散はサンプルのサイズによって決定されるものであり、そのサンプルを引っ張ってきた母集団のサイズで決まるものではないからだ。ユーザーテストでは、どのデザイン要素が使いやすいか使いにくいかを調べるために、我々はウェブサイトの機能性を重視する。デザイン要素の質の評価では何人の人がそれを使うかは関係ないのである。（逆に、デザインの課題を修正するかどうかについては、どのくらいの人が利用するかを必ず考慮すべきである。ユーザーのほとんどいない機能を改善するのは労力を費やすに値しない可能性もある。したがって、ユーザーが何百万人もいる機能のコーディングを直すほうに労力は費やすべきである）。

「大規模なウェブサイトには何百もの機能がある」。これは、少数の機能に焦点を当てた、内容の異なるテストを数回実施することへの論拠であって、テストごとのユーザー数を増やすことへの論拠ではない。気の毒なユーザーがへとへとに疲れるまで、手に負えないほどの数のタスクを依頼することはできないからである。そう、機能の豊富なデザインには全体としてもっと多くのユーザーが必要となる。しかし、こうしたユーザーは調査課題の一部に焦点を当てた様々な調査に分散させる必要がある。

「ターゲット層がいろいろである」。これはより大人数のユーザーでテストするための正当な理由になりうる。ターゲットグループごとの代表的なユーザーが必要とされるからである。しかしながら、異なったユーザーが完璧に異なる行動を実際にとるときに限り、この論拠は有効である。我々のプロジェクトから例を挙げると以下のようなものがある：

医者と患者の両方を対象にした医療サイト、および、
ものを出品することも落札することもできるオークションサイト

ユーザーとそのタスクがこうも違うと、ターゲット層ごとに新規のテストを実施することが不可欠だろう。そして、グループごとに5人程度のユーザーが必要となる。一般には、各グループ3～4人のユーザーで切り抜けることも可能だ。ユーザーエクスペリエンスは2つのグループ間で幾分重複することになるからである。例えば、初心者と中級レベル、ベテランの投資家をターゲットにしている金融サイトが対象なら、各回3人、計9人のユーザーでテストすればよい。そのサイトのユーザビリティを評価するのに合計15人のユーザーは必要ないだろう。

「そのサイトは儲けが非常に大きいので、どんな小さなユーザビリティ上の問題も容認できない」。裕福な会社がユーザビリティにたくさん費用をかけるというROIの例はもちろんある。一つ一つの品質改善に「多すぎる」お金を使っても、そのユーザーインタフェースを通して動いている資金が莫大なため、それ以上の見返りが得られるからである。しかしながら、最も付加価値の高いデザインプロジェクトでも、各調査の規模を小さく保って、調査の実施回数を増やし、安価なプロジェクトでは予算的に無理な回数の調査を実施することで、ROIは最適化され続けるだろう。

基本的な考え方は、次のバージョンをデザインし、テストしていく反復デザインプロセスを用いている限り、デザイン中の1バージョンでユーザビリティ上の問題をそのままにしておいても問題はない、というものである。今、修正されてないものはすべて、次に修正されることになるからである。修正しなければならないことがたくさんあるなら、単に反復を多数計画すればよい。反復を追加することによって、最終結果は、毎回多くのユーザーでテストするより、質の高い（そして、結果的にビジネス価値の高い）ものになるだろう。

83のケーススタディ

以下のグラフはNielsen Norman Groupが最近行った83件のユーザビリティコンサルティングプロジェクトをまとめたものである。1つのドットはユーザビリティ調査1件を指し、テストしたユーザーの数と、クライアントに報告したユーザビリティ上の発見の数を示している。（グラフに含まれているのは「通常の」定性調査のみである。しかし、我々は競合調査やベンチマーク測定も行っているし、ここには出ていない種類の調査も実施している）。

小さな相関はあるが、それは本当にごく小さい。こうした多数のプロジェクトを見ても、テストするユーザーを増やすとより多くの洞察がはっきり得られるという結果にはならなかった。

では、N数の少ないテストの優位性が調査結果から示されたと、私は確かに信じているのに、そもそもなぜユーザー数の多い調査を我々は実施したのか。理由は3つある：

何人かのクライアントは社内での信頼性のため、より規模の大きな調査を希望した。調査のスポンサーがユーザビリティを理解していない役員に調査結果を報告するとき、テストしたユーザーが多いほど、提言は容易に受け入れられるからである。（経営陣が自分のところの従業員を信頼していれば、多額の費用が節約できたのだが）。
いくつかのデザインプロジェクトにはターゲット層が複数あり、起こりうる（あるいは少なくとも推測される）行動の違いがユーザーを追加する費用を払うにあたるほど大きかった。
最後になるが、これらがコンサルティングプロジェクトだったことはユーザーを多少増やすための理由になりうる。だからこそ、我々は8人程度のユーザーで調査をすることが多い。ROIは利益と費用の比率を指す。コンサルタントを雇うと、実際の費用は純粋な料金よりも高くなる。というのも、クライアントは、コンサルタントを見つけて、プロジェクトについて交渉することにも時間を使わければならないからだ。投資する額が増えれば増えるほど、より大きな利益が欲しくなるものである。

最後の点は「何人のユーザーか」という問いに対する真の答えが5人よりもずっと少なくなりうる理由も説明している。オーバーヘッドが非常に低いアジャイルスタイルのUXプロセスを採用しているなら、調査ごとの投資は取るに足らないものになるため、費用便益比はより小さな利益で最適化されるからである。（1回の調査によって得られる利益が少ないことによって、最終的に大きな利益になるというのは直感的にはおかしいと思うかもしれない。しかし、こういうことは起こりうる。オーバーヘッドを小さくすることで、調査の実施回数を増やせるようになり、小さな利益が数多く積み足されて、大きな数字になるからである）。

本当にオーバーヘッドの低いプロジェクトでは、1回の調査でわずか2人のユーザーでテストすることが最善であることは多い。それ以外の調査では8人のユーザー、あるいは時にはそれ以上の数のユーザーのほうがいいこともあるだろう。しかしながら、たいていのプロジェクトでは絶対確実な数字、1回のユーザビリティテストに5人、というのを守るのがいいだろう。

5ユーザーでテストすれば十分な理由(ニールセン博士のAlertbox)

キーワード　

ユーザビリティテスト

ユーザビリティ調査では何人でテストするのか

テスト参加者を増やすことへの（説得力のない）論拠

83のケーススタディ

関連記事

イードが提供する
「ユーザビリティ評価」サービス

テスト参加者を増やすことへの（説得力のない）論拠

83のケーススタディ

関連記事

イードが提供する「ユーザビリティ評価」サービス

関連記事

イードが提供する
「ユーザビリティ評価」サービス