A/Bテストについて思うこと

A/Bテストについて二つの観点から触れておきたい。一つは「A/Bテストに仮説検定は向かない」という考え方は不適切だということ。もう一つは「良い」方を選ぶことを繰り返すうちに、全体の整合性がとれなくなってしまうことが起こりうるということである。

  • 黒須教授
  • 2016年7月12日

はじめに

A/Bテストが誰によって提唱され、いつ頃から盛んになったのか詳しくは知らないのだが、ともかく今ではもう一般的な手法としてまかり通っている(編集部注:ニールセン博士のAlertboxコラムその1その2)。小さなことでも評価して確認しようという姿勢はとても結構なことだし、もともとユーザビリティ評価に関心の高かったWeb関係者においては、A/Bテストを実施することは自然な流れでもあったのだろう。特にランディングページの印象、言い換えれば、ユーザビリティだけでなく見栄えも含めた利用実感や印象の全体は、Webの場合には死活問題にも繋がるから当然の動きだったといえる。今回は、そのA/Bテストについて、二つの観点から触れておきたい。

評価の統計的分析

2014年のことだからちょっと古い話なのだけど、ネットで「A/Bテストに仮説検定は向かない」のかどうかという論争があったようだ。検索してみると、「仮説検定は向かない」という意見は「A/Bテストのガイドライン:仮説検定はいらない(Request for Comments|ご意見求む)」に書かれており、その反対に、「検定をしないのはおかしい」という意見は「統計学的検定に対するある拒絶反応」に書かれている。

脇道に逸れるかもしれないが、前者のなかで著者が指摘している以下の駄目パターン

  1. 「あーまだ有意差出てないな~。有意差出るまで様子見るか
  2. 「AとBでテストやって、つぎはBとCでテストやって……」
  3. 「色はAがいい。かつフォントはBがいい。だからそれ組み合わせたら最強」

については、統計手法を聞きかじりで適用しても意味がないという意味で、適切な指摘といえる。

しかし、一般論として言えば「A/Bテストに仮説検定は向かない」という考え方は不適切である。A/Bテストも実験のひとつであり、実験データが母集団からのサンプルであると考えられる以上、基本的に統計的分析は行なうべきである。

けれども、52%と48%のような微差僅差の場合にまで差の有意性にこだわるのは、ビジネス的な観点から考えると適切とは思えない。そうした場合には、52%の案の方が(ちょっとだけ)多数の人に支持されたから採用するというのではなく、どちらをとっても大差はないのだからと考えて、ビジネス的判断を優先させ、たとえば新しい案のほうを採用するという考え方があってもいいだろう。

なお、得られた結果の統計的分析だけでなく、サンプルの等質性についても気にすべきである。テストの実施方法によっては、そうした対応が行えない場合もあるだろうが、等質でないサンプルで比較実験を行っても、得られた結果を云々することには意味がないからだ。

局所最適化

サイトが全体として小さな場合にはあまり問題がないのだが、大きなサイトの場合には、A/Bテストを実施して「良い」方を選んだとしても、そうしたことを繰り返しているうちに、部分部分はそれなりに適切なものになっても、全体としての整合性がとれなくなってしまうことが起こりうる。サイトにおける一貫性確保の問題である。部分的には良くなっても、全体として一貫性の取れていないサイトは、ユーザを混乱させる結果、エラーを発生させたり、却って所要時間をのばしてしまうことにもなる(編集部注:一貫性に関するAlertboxコラム)。

このあたりはまさしく情報構造の問題であり、IAを称している人達が責任を持って取り組むべき課題なのだけど、どうも実際のIAは、こうしたサイトの認知性に関する問題を適切に取り上げることが少ないように思える。このようなIAに潜む問題点については、また機会を改めて考えて見たい。