カードソーティング:
何人のユーザでテストすべきか

カードソーティングでテストするユーザ数を増やしていくと収穫は低減するが、従来のユーザビリティテストと比較して 3 倍の人数のユーザでテストするべきだ。

ウェブサイトやイントラネットのデザインにおける最も困難な課題は、情報アーキテクチャの構築だ。何をどこに置くか。典型的な間違いのひとつに、自分の視点を基準に情報空間を構築してしまうことだ。こうすると、多くの場合は社内の部署や、情報提供者別にウェブサイトを分けてしまうことになる。

単に自社の組織図を反映させるのではなく、ユーザの視点を反映した情報アーキテクチャを構築するほうが、ユーザビリティの最適化をよりよく行える。私たちが行ったイントラネット調査の結果から、最も大きな生産性の向上のいくつかは、従業員のワークフローを反映するようにイントラネットを再構築したときに起きていることがわかった。そして、eコマースの場合は、ユーザが思った通りのカテゴリで商品が見つかるように配置したとき、売り上げが上がった。

よい結果ばかり紹介したが、ユーザの視点に立った情報空間と各アイテムの行き先をどのようにして調べればよいのだろう。このようなメンタルモデルを調べる代表的な手法がカードソーティングだ。

  1. 主な項目の名前(できれば簡単な説明も)をカードに書く。そう、紙のカードにだ。
  2. カードをシャッフルして、その束をユーザに渡す。(標準的なテスト協力者の選抜方法に関する標準勧告が適用される。例えば、協力者は標準的なユーザ層を反映したユーザでなければいけない等。)
  3. 各ユーザに、同じ場所にあるべきものが一緒になるように、各カードを分類してもらう。グループの数や、各グループのカード数に制限はない。
  4. もうひと手間加えるならば、ユーザに各グループを、さらに大枠のグループにまとめてもらい、各グループに名前を付けてもらおう。名前を付けてもらうステップは、ナビゲーションのラベル、リンク、見出し、検索エンジンの最適化のためのアイデアを与えてくれる。

カードソーティングはテクノロジーとは無縁の手法だ。そのため、この 1995 年に行ったカードソーティングの写真は、今日行われているそれと全く同じ光景だ。

研究調査

Fidelity Investments は、ヒューマン・インターフェース・デザイン上級副社長の Thomas S. Tullis 博士が率いる、世界で最も優秀な部類に入るユーザビリティ・チームを持っている。Tullis は最近、Larry Wood とともに、カードソーティングにおけるユーザ数の増減に伴うトレードオフ曲線について発表した。

まず彼らは 168 人のユーザでテストを行い、とても強固な結果を得た。そして彼らは、その全データからランダムに抽出したサブセットを使って、ユーザ数が少ない場合のカードソートの結果をシミュレーションした。例えば、20 人のテストではどのような結果が出るかを調べるには、168 人の中からランダムに 20 人のユーザを選び、そのカードソーティングのデータだけを分析するといった具合だ。そのようなサンプリングをいくつも行うことによって、異なるユーザ数で、平均するとどのような結果が出るのかを推定することができたのだ。

カードソーティングから導かれる主要な定量的データは、様々なアイテムの組み合わせに対するユーザの評価の類似性を測定した 1 組の類似度スコアである。もし、全てのユーザが特定の 2 枚のカードを同じグループに入れていれば、その 2 枚のカードに書かれた 2 つの項目には 100% の類似性があるといえることになる。もし半分のユーザが特定の 2 枚のカードを同じグループに入れて、残りの半分のユーザは異なるグループに入れたとすれば、その 2 枚のカードに書かれた 2 つの項目には 50% の類似性があることになる。

たくさんのユーザで行った類似度スコアとどれくらい相関関係があるかを見ることにより、少ないユーザで行ったカードソーティングの結果を評価できる。(相関関係は -1 から +1 で表される。相関係数が 1 の場合は 2 つのデータ間に完全な正の相関関係がある。0の場合は無相関で、相関係数がマイナスの場合は負の相関関係があることになる。)

何人のユーザが必要か

ほとんどのユーザビリティテストで、私は 5 人のユーザでテストすることを勧めている。それだけの人数をテストすれば大半のことがわかるからだ。しかし、カードソーティングの場合、 5 人で行ったテスト結果と全ユーザの結果の相関係数は 0.75 しかない。これでは十分とは言えない。

相関係数が 0.90 に達するには、15 人のユーザでテストしなくてはいけない。0.90 は、これ以上やらなくてもよいと思える数字だ。15 人以上でテストすると収穫低減が始まり、相関係数はほとんど上がらなくなる。30 人でテストすると、相関係数は 0.95 だ。確かに精度は上がっているが、倍の費用をかける価値はないだろう。30 人を超えると、ほとんど改善は見られなくなってくる。相関係数 0.98 に到達するには、60 人もの人々をテストしなくてはならず、これは全く無駄である。

Tullis と Wood は 20 から 30 人でカードソーティングを行うことを勧めている。しかし、彼らのデータに基づいて、私は 15 人を勧める

私が少ない人数を勧める理由はこうだ。私の考えでは、相関係数 0.90 ( 15 人)、または 0.93 ( 20 人)は、現実的な目的には十分だと思うからだ。大金がかかった、巨大で予算が潤沢なプロジェクトであれば、30 人でテストして相関関係 0.95 を目指すこともあるだろう(例えば 100,000 人の従業員が使うイントラネットや、5 億ドルの収益が見込めるeコマース・サイトだ)。しかし、ほとんどのプロジェクトでは、ユーザ調査に使える予算には限りがある。残り 15 人分の予算は、デザイン改善のために必要な 3 回の定性的なユーザビリティテストにまわしたほうがよいだろう。

私はまた、カードソーティングの数値的な類似度スコアだけに頼った情報構造の設計は勧めない。何をどこに置くべきかを考えるとき、テストを行った際に得られる定性的な洞察も十分考慮するべきだ。カードソーティングの最大の価値は、カードを分けている最中のユーザのコメントに耳を傾けることから得られる。同じグループにそのカードを入れたという純粋な事実だけでなく、なぜユーザが特定のカードを同じグループに入れたのかを知ることによって、メンタルモデルのより深い洞察が得られるのだ。

なぜカードソーティングには多くのユーザが必要なのか

ほとんどのユーザビリティテストでは、5 人のユーザで十分だということがわかっている。なぜカードソーティングでは同じレベルの洞察を得るために 3 倍もの人が必要になるのだろうか。それは、この 2 つの手法には大きな違いがあるからだ。

  • ユーザテストは評価手法だ。デザインが既にあり、それが人間の性質とユーザのニーズに合致しているかどうかを調べるためのものだ。人の能力(専門知識、理解力、コンピュータの操作能力)には差がある。しかし、もし特定のデザイン要素が問題を起こしているならば、数人テストを行っただけでそれは見つかる。ローエンドのユーザは、ハイエンドのユーザよりも深刻な状態を経験するかもしれない。しかし、測定テストを行っているのでなければ、それがどれほど困難だったかというのは問題にはならない(そのようなテストは、もっと多くのユーザを必要とする)。知るべきことは、そのデザイン要素は人間の役に立っていないので変更すべきだということだ。
  • カードソーティングは生成手法だ。まだデザインが存在しない状態で、人々が特定の物事をどのように思考するのかを調べるのが目的だ。同じコンセプトを説明するとしても、人々のメンタルモデルやボキャブラリは多岐にわたる。そのため、ユーザが好む構造を把握して、ユーザ間の違いをどのように調整するかを決定するためには、ある程度、多数のユーザからデータを集めなくてはいけないのだ。

もし既にウェブサイトやイントラネットがあるのであれば、ユーザを数人テストするだけで、情報アーキテクチャに問題があるかどうかがわかる。新たにゼロから構築を行うときは、もっと多くの人からデータを集めなくてはいけない。

幸運にも手法を組み合わせることが可能だ。最初に、デザインの方向性を決めるために生成的テストを行う。次にデザインのドラフトを作成する。出来ればペーパープロトタイプを使う。そしてデザインの改善のために評価的テストを行う。ユーザビリティ評価は早くて安いので、複数回行うことができる。また、最初に行った生成的テストから導き出した発見の裏付けも行える。だから、カードソーティングの相関係数を 0.02 上乗せするために、リソースを使ってしまわないほうがよいのだ。小さな間違いは、ユーザテストを繰り返し行う過程で見つかるはずだ。それは 2 倍、3 倍の規模のカードソーティングを行うよりも低予算で済む。

この研究の弱点

Fidelity の研究には明らかに 2 つの弱点がある。

  • これは、1 つの研究結果に過ぎない。複数の企業からのデータが欲しいところだ。
  • 純粋に定量的な分析しか行っていない。類似度スコアの統計的な分析だけに着目し、ユーザのコメントなどの定性的なデータを無視している。

この 2 つの弱点は致命的なものではない。私はこの研究をウェブユーザビリティの分野に多大に貢献する、画期的なものだと見ている。しかし、この弱点があるので、他の誰かが違う情報空間上で同じ研究を行い、統計的なデータと共に定性的なデータも分析して、裏付けを行ってくれると助かる。実社会にインパクトのある研究論題を探している大学院生にとって、よい修士論文プロジェクトではないだろうか(誰かやってみる気はないかい?)。

もっと裏付けデータがあった方がよいが、私はFidelity の研究成果が正しいと確信している。私自身が過去何年にもわたって行ってきた無数のカードソーティングの結果と矛盾していないからだ。私は、常々カードソーティングには従来のユーザビリティテストよりも多くのユーザが必要だと言ってきた。予算が厳しかったり、リクルートが非常に困難な時には最低 12 人でもよい結果が得られたこともあるが、普通は 15 人くらいを勧めてきたのだ。

定量調査が上手くいかず、間違った方向に進んでしまうことは多い。だから、定性調査で既に明らかになっていることと矛盾するような、単独の定量調査を見た場合は、その調査は多分間違いだと見なして、無視するほうが懸命だ。しかし、定量調査が既に分かっていることを証明している時は、それは正しい場合が多い。理想より少ないデータに基づいているとしても、その新しい数値は、おおよその推定値として使用することができるのだ。

従って、現時点で推奨するのは、ほとんどのプロジェクトのカードソーティングでは 15 人のユーザをテストし、予算が豊富な大規模なプロジェクトの場合は 30 人をテストすることだ。

参考文献

Tullis, T., and Wood, L. (2004), “How Many Users Are Enough for a Card-Sorting Study?” Proceedings UPA・004 (Minneapolis, MN, June 7-11, 2004).

2004年7月19日