UX研究での定量評価における有意性や相関の適切さ

UX関連の研究で筆者が定量的な手法を採用しない理由のひとつは、その根拠が曖昧なのではないか、という疑念があるからだ。数値自体はいいとしても、その判定基準が気になるのだ。

  • 黒須教授
  • 2020年9月16日

数値処理のうさんくささ

ユーザビリティやUXの評価法には定量的なものと定性的なものがある。前者では数値的に評価を把握し、その統計的有意性や複数の指標の間の相関係数を出したりして処理することが多い。後者では主にテキストの内容分析を主に直感洞察に頼りながら処理することが多い。筆者は特にUX関連では定性的な手法を使うことが多いが、それは定量的な手法、いや、それを使って得た数値の処理にある種の胡散臭さを感じるからなのだ。

たしかに数値処理をすれば、なんらかの数値がでてくる。その数字はものごとを客観的に表現しているようで、それを使った判定は明確なもののように思える。まあ、計算して出てきた数値そのものはいいとしよう。しかし、気になって仕方がないのは、その判定の基準のことなのだ。

統計的処理結果の有意性

統計的処理をする場合、5%水準とか1%水準という基準が使われている。しかし、我々はこのことに疑問をいだかず、教条的に受け止めて使っていることが多いのではないだろうか。もともと5%とか1%というのは、特定の事象がランダムに発生している可能性(危険性)がどのくらいあるのかを意味するものであり、帰無仮説を棄却できる正確さの程度を表している。もちろん小さい方、つまり5%よりは1%のほうがより明確にランダムではないことになる。

ただ、この基準となる数値を5とか1とかに設定する根拠は…、となると人間の心理的な主観確率に遡ることになる。日本には江戸時代から使われてきた「十中八九」という表現がある。英語であれば「ten to one」という表現がそれに対応するだろう。十中八九であれば、20%ないし10%ということであり、まあ80%ないし90%はたしかだろう、ということを意味している。また「九分九厘」という表現もある。これは99%のたしかさということであり、1%の危険性を認めていることになる。

つまり、20%や10%、ないし1%の可能性(危険性)で当該の仮説が誤りであるとしたら、まあ(主観的には)仮説を真であると認めてやってもいいだろうという人間の日常感覚、つまり主観確率がその基準設定の基礎にあるということができる。

しかし、日常生活における様々な場面に、これらの基準を適用してみると、その基準の「テキトーさ」がわかってくる。たとえば、人気のケーキを買いに行って、それが売り切れになっている確率が10%だとしたら、まあ大抵の人は無駄骨になる可能性があることはわかっていてもケーキを買いにゆくだろう。この場合、10%という危険率は無視しうる程度に小さいと判断されたことになる。確率が50%だとしたら、ちょっと焦るだろう。90%だとしたら諦めるかもしれない。しかし10%程度ならまあいいんじゃない、とにかく早く行ってみようということになる。ケーキというのは人生において些細なものだから、そんなに気にしなくてもいいのだ。では、10%という値が手術の失敗率だったらどうだろう。まあ、人間のやる手術だから、そんなに厳密に確率計算できるわけではないのだが、そのことはここではさておくとして、これまた、多分成功に期待を寄せる患者は「お願いします」となるだろう。いや、治りたいと思っている患者なら50%でも、時には10%といわれても、その成功に賭ける気持ちになるだろう。

しかし、飛行機に乗ろうとして、その墜落して死んでしまう確率が10%だったとしたらどうだろう。ちょっと躊躇して「じゃあ電車にするか」という人が続出するだろう。実際にはNTSB(米国家運輸安全委員会)の調査によれば、航空事故で死亡する確率は0.0009%だという

現在、多くの人が飛行機を利用している背景には、この低い危険性があると考えて良いだろう。10%の危険性と0.0009%の危険性を比較すれば、後者は限りなく0に近いと考える。これが人間の主観確率とそれに対する評価の実態である。

要は、危険性の確率のもっている深刻さによって、人間は危険性の重篤さを判断している、ということである。それでは、研究における5%や1%という危険率についてはどうなのだろう。飛行機で死ぬ確率に比べれば遥かに大きな値であるのだが、それを結果判定の基準としているということは、研究結果の適否というのは、研究者の人生にとって大して重要なものではない。ケーキを買いそこねるかどうかの確率と同程度のものだ、と考えているのではないだろうか。それは、研究なんてそんな程度のことなんだよ、とでも言っているかのようである。

ポイントはそこにある。研究に対して真摯な姿勢を持っているなら、0.0009%、いや丸めてしまって0.001%でもいい、そのくらいの値を有意性の判定基準とすべきではないだろうか、という話なのである。いや、大幅に妥協するなら0.1%でも仕方ないだろう。5%や1%の基準で発表されている研究発表や論文を見るたびに、こんなんでいいの? せめて0.1%くらいの厳しい数値を基準として採用するべきじゃないの、という疑問が湧いてくるのだ。

相関係数の値

相関係数はExcelなんかを使えば簡単に計算できる。そして我々は、相関係数の有意性を調べて、サンプルサイズがいくつで相関が0.78だったから有意な相関といえます、というようなことをやっている。これまた前述の話と同様に、そんな低い相関でいいの?そんなラフな基準でいいの?という気持ちになってしまうのだ。

相関の場合には有意性検定とは別に、主観的相関関係と数値的相関関係との対応という問題がある。主観的相関関係とは、日常経験をベースにした2変数の関係性についての知覚、特に相関図のプロットを見たときの「印象」に近いもので、数値的相関関係とは、相関係数の算出式に表現されている関係性の意味である。主観的相関関係と数値的相関関係とが直線的に対応しているならいいのだが、どうも筆者的には非線形な対応になっているのではないか、という疑念がある。ためしに、相関関係をひとつひとつ数値的あるいはビジュアルに示し、それがどの程度の相関関係にあるように感じられるかという心理実験をやってみたいとは思っているのだが、まだその機会を持てていない。もし実験をしてみれば、きっと面白い結果がでるような気がするのだが、つまり統計的な相関係数の有意性の判定とは直線的に対応しない主観的相関関係という結果が得られそうな気がしているのだが、誰か研究してみてくれないだろうか。

定量的研究の曖昧さ

ここに書いたことは十分な論述とは言えないかもしれないが、筆者が定量的研究を採用しない理由のひとつは、見かけ上きっちりとしているようでいて、実はその根拠が曖昧なのではないか、という疑念があるからだ。定量的な分析をやるための調査や実験には相当な資金も時間もマンパワーも必要になる。しかし、結果の解釈という肝心の段階における曖昧さが、僕を躊躇させる。そんなこともあって、筆者は質的研究、定性的研究をやり、直感と洞察に頼る手法に傾いている次第である。工学系の人たちや、マネージメントサイドの人たちは、結構数字が好きなようだ。数字ならはっきり結果がわかるという信念、もしくは信仰があるからだろう。しかし、そうした定量的アプローチの基にある主観的側面を考えてみてほしい。さらに言えば、「まあ数字は参考程度さ。いざとなればエイヤッなんだからな」などと考えている人たちには、定性的アプローチが主観的であてにならん、などということを口にだす権利はないと思う。