定量調査の危険性

数字にこだわりすぎると、ユーザビリティ調査の方向性を見失ってしまう。統計分析に目を奪われるからだが、それらは不正確だったり、偏りがあったり、間違いがあったり、対象が狭すぎたりすることが多いものだ。

【訳者注釈】今回のAlertboxでは、統計学的な議論に関してニールセン博士の意図が明確でない箇所が複数ありましたが、なるべく原文に従って翻訳しています。

ユーザ調査には主に2種類ある。定量調査(統計)と定性調査(洞察)だ。定量調査にはその良さがあるが、定性調査は最良の結果を最も経済的に出せる。さらに、定量調査はサンプリングの対象が狭すぎることが多く、直接的な誤解が起きることがある。

定量調査の利点は明白だ。複雑なシチュエーションを、飲み込みやすく議論しやすい一つの数値に集約してくれる。わたし自身、このコミュニケーション上の明快さを有効に活用している。例えば、ウェブサイトを使うことは健常者と比べて、身体障碍者には 206%使いにくいことや、高齢者には 122%使いにくいことを伝えるときだ。

もちろん、集計値だけを見て入念に行われたユーザビリティ研究の結果を要約してしまうのは、書けば 273 ページかかる詳細説明をおこたることになる。なぜウェブサイトがこの人たちにとって使いにくいのか、それに対して何をすべきなのか、だ。

しかし、数値は別のことを語る:

  • 高齢者よりも障碍を持つユーザの方が状況はずっと厳しいということだ。なぜなら、高齢者の数は障碍者よりもはるかに多く、特に裕福なユーザ層の一部をなしているため、サイト側としては、障碍者よりも高齢者への配慮に、より多くのリソースを割かざるをえなかったとも考えられる。数字を知ることで、不足がちなリソースをどう分配するか、組織は意識的に判断できるようになる。
  • 問題が小さくないことを物語っている。障碍者にとって、ウェブが 5%、ほかのユーザより使いにくかったなら、ほとんどの人は「それがどうしたというのだ、自分でどうにかしろ。」というだろう。しかし、多くの人たちにとって 206%という差別を行っている事実は耐え難いものだ。

数値は異なるデザインの比較と、時間を追った計測を可能にする。10 年後、もしウェブが若年層に比べて、高齢者にとって 50%しか使いにくくなかった場合、私たちは大した進歩を遂げたといえる。

数値信仰にご用心

他の人が行った調査のレポートを読むと、定性調査の結果のほうが定量調査の結果よりも確かで信頼に値すると感じることが普通だ。統計分析が洞察による分析よりも科学的、または信頼性が高いと思うのは危険な間違いだ。実際には、ほとんどの統計分析は定性調査よりも信頼性が低い。デザイン調査は医学とは似つかぬものだ。今までの科学の分野でもっとも類似するのは民俗学だ。

ユーザ・インターフェイスとユーザビリティはとても文脈的なものだ。そして、その有効性は人間行動の幅広い理解に依存する。たいていの場合、デザイナはいくつかのデザイン・ガイドラインを組み合わせて、その妥協点を見つけなければならない。そのためには、推奨事項の背後にある原理と原則について、多少なりとも理解しておく必要があるだろう。ひとつの公式で正確に定義できるほど明確な問題は、実際のデザイン・プロジェクトには関係のないものが多い。

定性の洞察ではなく、数値にこだわった多くのユーザビリティ調査が失敗に終わっている。定量調査には、次に挙げるように、それ固有のリスクがある。

無作為な結果

研究者はよく数値的な結果が「統計的に有意」であるかを確認するために統計分析を行う。慣習として、ランダム性を示す有意確率が5%未満である場合、その結論は有意であるとみなす。

これは筋の通ったことに見えるが、もし研究者たちが純粋に定量調査だけに頼った場合、「有意」とされた結果のうち、20個に1個はランダムである可能性があることを意味している。

幸運にも、良い研究者は(特にユーザ・インターフェイスの分野では)、純粋な定量調査だけに頼ることはない。したがって、レポートを出すときには普通、統計値以外に洞察があるのだが、それは間違えた結果をトーンダウンはするが、完全に排除するには至らない。

逆のことも言える。重要な結果であっても、実験のデザインによっては統計的に重要でないという結論が出てしまうことがある。おそらくその調査は、重要な(かつ発生頻度の低い)発見をしたというには、参加者の数が充分ではなかったのだ。だから、定量調査で有意でないと示されたからといって、その結果を無視してしまうのは間違えている。

2000年大統領選のフロリダの「butterfly ballot」がよい例だ。間違えて投票した人は 1%もいなかったので、もし投票者 100 人を対象に調査しても、その中に Al Gore に投票しようと思って Patrick Buchanan のところに穴を開けた人は、統計的に有意な値を出せるほどは含まれていなかっただろう。それに対し定性調査の場合、投票者の中に「よし、Gore に投票したいのだから、2 つめの欄に穴をあけよう…ちょっと待てよ。Buchanan からこの欄に矢印が引いてあるぞ。ということは、Gore はその下の欄か。」という人がいることに気づくだろう。注意力の鋭い調査進行役にとっては、ためらいや間違いの気配は黄金の価値をもつ。だが、これらをデザイン方針にまとめあげるには、定性的分析が必要だ。それはすなわち、観察事項と、ユーザビリティ原則の解釈的知識を組み合わせることである。

手品の帽子から出てきたような相関関係

十分な変数を測定すれば、必ずいくつかの変数同士に相関関係があることに気付くだろう。全ての変数を分析用のソフトに通せば、「有意」な相関が出てくるのは確実だ。(前述したように 1/20 の分析は、たとえ真実でないとしても「有意」な結果が出る)

変数が7つある調査では、21の相関分析が行える。したがって、そのような調査は分析ソフトが「有意」と示すが、本当は何の関係もない間違えた相関関係を平均して1つ出す。

Web Usability 2004 プロジェクトでは、ウェブサイトでのユーザ行動について、53 の変数を採取する。したがって、この調査では 1,378 の相関分析が行えることになる。たとえこの実験で何も発見できなくても、69 の相関が「統計的に有意」と出ることが予想される。

【訳者注釈】この議論に関してニールセン博士の真意は不明ですが、一般に母相関係数の検定において20分の1の確率で「統計的に有意」が発生するわけではありません。

もちろん、私は有意な相関の探索をするつもりはなく、根底にある現象の理解から得られた、妥当性のある仮説を証明するのに関係した統計値だけを示すつもりだ。(実際、統計ソフトの分析は、実験者が前もって仮説を立てていることを前提にしている。もし「有意性」を事実ではなくソフトウェアの処理結果の中から探すのであれば、それは統計ソフトの乱用にあたる。)

共変数の見落とし

相関関係が本当に有意であっても、もしその検証している2つの変数に別の変数が関係していたら間違いになる。

例えば、調査によって生まれた順番で知性が低くなっていくことが示されている。別の言い方をすると、長男(長女)の平均 IQ は次男(次女)よりも高く、次男(次女)の三男(三女)よりも高いといった具合に、生まれた順番で平均 IQ が低くなっていく。このデータは一見、将来親になる人たちに明らかな警告を発しているように見える。あまり多くの子供を生むな、どんどんバカな子供が生まれるぞ、ということだ。

これには隠された第3の変数が関わっている。知能の高い親は、より少ない数の子供しか生まない傾向があるのだ。長男(長女)たちの平均 IQ を測ろうと思ったら、何人子供がいるかにかかわらず、全ての親の子供を対象にする。しかし、五男(五女)の平均 IQ ともなると、当たり前だが、子供が 5 人以上いる親の子供を対象に調査を行うことになる。したがって、後の調査では IQ の低い子供たちの割合が多くなり、本当のことではあるにもかかわらず、五男(五女)の平均 IQ が低いという、間違えた結果を出すことになる。どんなカップルでも、何人子供を生もうと、後から生まれた子供の知力は年上の兄弟・姉妹と比べて大した差はない。無作為に選んだ子供たちの知能を測定するとすれば、両親という本当の原因を無視することになる。

ウェブの例として、リンクのテキスト文字の長さと、ユーザのタスク成功の間に相関関係が認められたとする。だからといって、長い文字列のリンクを作れば良いということにはならない。ここでの共変数はデザイナだ。無知なデザイナは「続く」「ここをクリック」、または自作した言葉といった、短いテキストを使う傾向がある。反対に、ユーザビリティ意識の高いデザイナは、利用可能な選択肢をユーザ中心の言葉で説明し、テキストや内容が豊かなデザイン要素を重視して、「笑顔の女性」のような無内容な要素は遠ざける傾向がある。こうしたデザイナが作ったリンクの多くは文字数が多いだろうが、文字数によってデザインが機能しているわけではない。ただ単に文字数を増やしただけでは、悪いデザインを改善できない。単にくどくなるだけだ。

簡略化しすぎた分析

良い統計結果を得るには、実験環境を厳しく管理しなければならない。あまりに管理が厳しすぎて、その結果が現実離れしてしまい、実社会に対する汎用性を失ってしまうことも少なくない。

これは被験者が、一般的なユーザではなく、学生だけの場合が多い大学での研究ではよくある問題だ。また、コンテキストが無限の複雑性を持った本物のウェブサイトでテストする代わりに、アカデミックな研究では、ページ数が少なく簡略化されたコンテンツの、小規模デザインで行うことが多い。

例えば、パンくず(breadcrumbs)が無意味だということを証明する研究は簡単だ。まっすぐ目的のページに向かって、そこで止まるようなタスクを与えればよい。そのようなタスクを与えられたユーザは(正当な理由で)パンくず式道しるべを完全に無視する。それでももちろん、多くのサイトにとってパンくずは推奨される要素だ。パンくずは軽量で、直線的に移動するユーザの妨げにもならないし、検索エンジンや直接リンクを経由してサイトの奥深くに入り込んだユーザの手助けにもなる。パンくずはこれらユーザにコンテキストを与え、情報構造の上位に直接アクセスを提供することによって、比較を行っている人の手助けにもなる。

広義のユーザビリティは、対象を限定した調査では無視されることも多い。そうした調査では、例えば、再訪行動や、検索エンジン対策、複数ユーザによる集団意思決定といったものを考慮していない。これらの課題は、B2B ウェブサイト、イントラネット上のエンタープライズ・アプリケーションなどの、最も高価な部類に入るデザインが成功するには不可欠な要素だ。

ねじ曲げられた測定値

ユーザビリティ調査の結果を歪めるのは簡単だ。ユーザを助けてはいけないときに助けてしまえばよい。実験のデザインを変えれば、証明できないものはほとんどない。この要因は、ある企業の製品が競合他社の製品よりも使いやすいことを示すために行われる「スポンサー付き」調査の背景をなしている場合が多い。

実験が詐欺じみたものでなくても、方法論的な弱点で間違いが起こることもある。例えば、ユーザの注意を画面上の特定ディテールに引いてしまうといったことだ。画面を構成する特定のデザイン要素について質問すると、その要素を他の要素と比較して注目するようになり、ユーザの行動は変わってしまう。

あるオンライン広告は、この間違いを避けようとして、別の間違いを招いてしまった。実験者は広告について質問しなかったのだ。代わりに彼らはページ全体のデザインについてしか聞かなかった。実験が終わった後、実験者は複数ブランドに対する認知度を測った。結果は、実験用のウェブページにバナー広告を載せていた企業が高得点をとって終わった。

この調査は、バナー広告が、販売促進にそれほど貢献をしていないとはいうものの、ブランド認知には有効だということを証明しているだろうか。答えはノーだ。ユーザは、ページのデザインにコメントするように指示されていたのだ。この指示は、ユーザにいつものウェブ使用よりも、ウェブページをよく見させる結果になっていたことは明らかだ。特にデザインを判定しようとしている人は普通、広告を含めた個々のデザイン要素をすべて検証する。

多くのウェブ広告に関する調査は間違えている。多分にそのような実験が広告代理店によって行われているからだろう。いちばん多い間違いは、新規性効果についてだろう。新しい広告フォーマットが紹介させると、その新しいフォーマットが従来のフォーマットよりもクリック数を稼げるという調査報告を、いつも伴っている。当たり前だ。新しいフォーマットは一時的に優位にあるのだから。それは目新しいというだけで、ユーザの気を引いているのだ。ユーザはそれに慣れ、無視する訓練が必要なのだ。調査はそれまでの現象しか反映していない。目新しさが消えたあとの、長期的な優位性については、何も語っていないのだ。

出版のバイアス

編集者は「人間が犬に噛み付いた」原則にしたがって、新しくて関心を引きやすい話を優先して取り上げる。これは科学雑誌や人気のある雑誌でも同じだ。その気持ちは理解できるが、新鮮で斬新な発見を優先する傾向は、重大なバイアスを与える。

ユーザビリティはとても安定した分野だ。ユーザ行動は長期にわたり、ほとんど変わらない。私は毎回、同じ実験結果を繰り返し見ているし、他の多くの人たちも同じだ。そういう中、たまにインチキな実験結果が発表されると、出版におけるバイアスが必要以上の脚光をあびせるのだ。

ウェブページのダウンロード時間を例にとる。誰でも早い方がよいことは知っている。1968年より、インタラクション・デザインはこの説の重要性を記録してきた。また、1995年以降、無数のウェブ実験でも繰り返し見られてきたことだ。スピードが速い電子コマース・サイトは高い売り上げをあげる。サーバが遅い日は訪問者が少なくなる。(私も最近、この手の経験をした。1月14日、Tog が「slashdot」されたのだ。その木曜日、同じサーバを使っているため、AskTog’s のトラフィックが useit.com のスピードを下げたため、通常より10%、ページビューが減った。)

もし、20人がダウンロード時間について調べたら、19人は速いほうが良いと結論づける。しかし、1/20 の確率で統計的分析は間違えた結論を出し、この実験が単に目新しいというだけで、多くの人に議論される可能性がある。それとは対照的に、正しい19の実験結果は、全く人の目につかない可能性がある。

【訳者注釈】上記の主張は、統計学的には正確な表現でないと思われます。

おかしな結果の見分け方

おかしな結果は、時にはそれを信じたくなるような数値で裏付けられている。ここで私が挙げた話は健全さチェックに使える。手品の帽子から相関関係を出してこなかったか。バイアスがなかったか。対象が狭すぎなかったか。本当に斬新だったから採用したのか、それともただの偶然なのか。

普通なら、突拍子がない発見は無視すべきだと気づくだろう。広い意味でのインタラクティブ・システムにおける人間行動は、安定していて、容易に理解できるものだ。

通常、例外はまさに例外として出てくる。

もちろん、時におかしい発見が、錯覚でなく革新的な発見である場合もある。まれではあるが、そういうこともある。見分ける鍵となるのは、それが再現可能かどうか、また他の人たちが再現できていることが確認できるかである。

たとえば、1989年、私は経済的なユーザビリティ・エンジニアリングについてのレポートを発表した。その中で私は、短時間でできる小規模の実験は、大規模の実験に勝り、5人くらいを対象にした実験で十分だと書いた。 この考えは、当時支配的な思想とは全く正反対のものであった。当時は、予算規模の大きな実験が主流を占めていたのである。私が最初にそれを発表してから15年間、他の何人かの研究者たちは同じ結果に至り、私たちはその発見の裏にある数学モデルを開発し具体化した。今日、ユーザ調査を行う者のほぼ全員が、5人くらいのユーザを調査すれば、ほとんど全てのことがわかると結論づけている。

もう一つ例を挙げれば、私の書いた PDF ドキュメントは、オンライン上の情報資源としては適さないというレポートだ。この説は別の4つの調査によって裏付けられた。私たちの新しい調査の中でも、同じ結果が出ているので、この発見も同じく何年経っても変わっていないということになる。最初、私はオンライン上にあるPDFに批判的になるのをためらっていた。ほかのコンテキスト(一番よくわかるのは、作られた本来の目的、プリントするためにダウンロードする書類としてだが)ではとても良いからだ。だが、証拠が積み重なるにしたがって、オンラインPDFはプリント用のPDFと全く違うのだということが明らかになった。

良いPDFが、実はオンライン上では良くないという調査が一つだけならば、それは無視してもかまわない。だが、同じ結論を出す調査が 4個から5個あれば、それは確かな傾向だということができ、その発見には信頼性があり、一般的な現象であるといえる。

定量調査の本質的な危険性

ここで挙げた、間違いのある定量調査は全て悪いリサーチだ。良い定量調査を行って正しい洞察を導き出すことも可能だ。しかし、それは難しく、経済的でもない。

定量調査は全ての点において、正しく行わなければ、当てにならない数値しか出てこない。落とし穴がたくさんあるので、それにはまってしまい、間違いを犯しやすいのだ。

洞察が無く、数字に頼ってしまうと、何か間違いがおきたときにバックアップとなるものが何もなくなってしまう。そしてあなたは間違えた道を選ぶ。数値が導くのがその間違えた道だからだ。

定性調査はそこまでもろくない。方法論的な弱点が多少あっても、簡単には崩れないのだ。実験の細部まで完璧でなくても、ユーザと彼らの行動観察に基づいた定性調査では、良い結果が得られるのだ。

定性調査では、素人よりもエキスパートのほうが良い結果を得られるのは確かだ。しかし、定量調査では限られたエキスパートしか正当な結果を出せないし、さらに、彼らが極めて注意深くことを運ぶことが前提となる。

補足記事

2004年3月1日