サイトの成長推移を監視する

最近Mark Bernsteinが下記のようなEメールを送ってくれた:

クルマで仕事に向かう際中に気が付いたのですが、こういう問題に自信を持って答えられないのです。大部分のウェブマスターも同様にわかっていないのではないかと思われます。Alertboxコラムで取り上げていただくといいのではないでしょうか?

問題:

A. ウェブマスターを務める少年Beauregard Clumpは、先週のログを検討している。あるページに対するヒット数の合計は、以下のとおり:

ヒット数
1 120
2 132
3 116
4 120
5 148
  1. 5週目にトラフィック量が増加しているが、これは統計的に有意とみていいのか?
  2. この期間中の週間トラフィック量の増加は、統計的に有意とみていいのか?

まず、2番目の問題からみていくことにしよう。

指数関数的増加

ウェブサイトの成長に関する数値を分析する際には、私は通常、対数軸で見ることをお薦めしている。なぜなら、ウェブもインターネットも、両方とも指数関数的に成長するからだ。このため、ウェブの統計は、リニアな成長よりも、成長の観点から分析した方がよい。

確かに、1993年から1994年にかけて経験した驚異的なペースに比べるとウェブの成長は落ち着いてきている。だが、それでも毎年2倍に成長しているのだ。新しいサイトが登場し、新たなユーザがオンラインに参加し、トラフィックは上昇を続けている。

この図は、先ほどの報告にあったトラフィック統計値を、y軸を対数軸にとってプロットしたものだ。対数軸で見ると、指数関数的成長曲線は直線になる。この図には、もっともフィットする成長曲線を赤で加えてある。

Logarithmic scale with exponential growth curve-fit for the sample traffic data.

回帰分析にかけてみると、R2=0.26という結果が出る。これはすなわち、データ変動のうち26%が、本来的なサイトトラフィックの成長によるものである(残りの74%はランダムな変動)ことを示す。残念ながら、回帰の統計的有意性はp=0.37、すなわち、本来的な成長がまったくなくても同じデータの出る可能性が37%あるということになる。サイトトラフィックのランダムな変動だけでこうなるわけだ。

有意レベル37%というのは、サイトが成長しているという結論を出すには十分なくらい低いと言えるだろうか?科学者なら、たいていはノーというだろう。調査結果が仮説を裏づけていると言うためには、少なくともp<0.05、もっと言うとp<0.01の有意レベルが必要とされるからだ。私たちは何も科学的真理を求めているわけではないので、多少なら条件をゆるめてもかまわないだろう。ということで、わずかながら成長した可能性があるという結論を出しておこう。

ウェブ成長率の調査は、主にサーバのキャパシティ、および将来のビジネスモデルを計画するために行われる。このためには、もっとも可能性の高いサイト成長率を知るだけではだめで、成長にどれくらいの幅が見込まれるかも知っておかねばならない。もっとも可能性の高いサイト成長率は、この図中の最適化した回帰曲線から得られる。それでいくと、年あたりの成長率は442%、すなわち、1年後には週あたり約662ページビューというトラフィックになるはずだ。

回帰分析を行う際には、信頼区間を見込んでおくことができる。これは、成長率が取りうる値の幅のことである。私は、信頼区間を90%とするのが好みで、これによって、本当の値が見込み幅から逸脱する恐れは10%となる。サンプルサイトの場合で言うと、年間成長率に関する90%の信頼区間は、-88%から24,606%までとなる。これだけ範囲が広がるということは、現実的な結論を出すにはデータが弱すぎるという何よりの証拠である。言い換えると、Beauregard Clumpは、来年にはちょっとしたことで、週あたり14ページまで減ってしまうかもしれないし、週あたり3万ページビューを突破してしまうかもしれないのだ。この幅を狭めてサイトの将来を見極めるためには、もっとデータが必要だ。

より多数のデータでの実例:www.useit.com

もっと長い期間のデータがあれば、より正確に成長率を予想できる。下のグラフは、www.useit.comの利用データを示したものである。ここでも、データは対数軸でプロットしてあり、赤い回帰曲線で最適化してある。

Logarithmic scale with exponential growth curve-fit for www.useit.com

このデータセットでは、指数関数的成長曲線は、より回帰にフィットしたものになっており、R2=0.96、それにp<0.001となっている。もっとも合致したものだと年間成長率は505%になり、その90%の信頼区間は433%から588%の間に収まる。言い換えると、1999年2月には、週あたりのトラフィックが25万3000ページビューに達している可能性が最も高いが、22万3000から29万8000まで幅があるということになる。

useit.comの統計を出す上で、12月最後の2週分、および1月第1週のトラフィックデータは除外した(グラフでは明るい点で示してある)。大部分のサイトでは、休暇シーズンに劇的にトラフィックが低下する。よって、長期的傾向を算定する場合には、この期間のデータを除外しておくのが一番だ。このルールの例外は、当たり前のようだが、クリスマスプレゼントの販売や、その他の休暇サービスの提供を目的としたサイトである。

ウェブの初期には、分析上、夏の間のトラフィックデータも別扱いにする必要があった。ウェブユーザの圧倒的多数が大学関係者で占められていて、彼らは夏の大部分をインターネットアカウントから離れた場所で過ごすからだ。夏季のトラフィックは、現在では例外的とは言えなくなってきた。これはビジネス用途が増加したからであり、また、学校から離れても、学生が別のアカウントを使うようになったからだ。それでも、ドイツのような国のユーザを対象としたサイトを分析する際には、やはり夏季のトラフィックの扱いは変える必要があるだろう。これらの国々では長期の夏期休暇を取る習慣があり、彼らがビーチにラップトップを持っていくとは思えないからだ。

最後のポイントは、トラフィックデータの分析は週単位で行うのがベストということ。日別のトラフィックは、インターネット上での様々な転送上の問題に影響されやすい。また、ウイークデーと週末では、かなり異なったトラフィックパターンを示すサイトが多い。ビジネス志向のサイトだと、週末にはトラフィックが普段の半分以下に落ちる所も珍しくない。金曜から土曜、日曜から月曜の変動が、サイト利用状況の真の変化を表すものと言えないのは明らかだ。このため、一週間分をまとめて分析した方が、統計を取るのはずっと簡単になる。

各週の統計

さて、Mark Bernsteinが抱える問題のうち、初めのものに戻ろう。5週目に見られるトラフィック増加は有意と言えるか?この問題に対する定石どおりの答えとしては、第1週から第4週までのデータをもとに統計モデルを作ることだろう。そうして、このモデルの予想範囲内に第5週のデータが収まる確率を計算するのだ。確率が相当低い(通常、5%以下)なら、第1~4週までと同じようにやっていても、第5週が同じレベルで推移する公算はかなり低いという結論が出るだろう。言い換えると、トラフィックを増やすには、何か新しいことをやらないとダメだということになる。一方、統計モデルの範囲内に収まる確率が高ければ、従来から大きな変化がなく、増加も単なるランダムな変動に過ぎないという結論が出るだろう。

この統計分析を行うためには、ある仮定に従ったデータが必要だ。たいていの統計分析では、データは正規分布に従った(あるいは少なくともそれに近い)ものでなくてはならない。今の場合、データが少なすぎて、観察結果の分布に関しては何の結論も出せない。このため、1週間のトラフィックについて、何らかの結論を出すのは非常に困難である。

私は慎重な態度を取っている。なぜなら、ウェブのトラフィックについてはまだ十分に研究が進んでいないため、その統計的特性がよくわかっていないからだ。今までにわかった点として主なものは2つある。ひとつは、長期的なトラフィックが指数関数的な成長傾向を持っていること(平均的なサイトは1997年で130%成長した)、もうひとつは短期的なトラフィックはかなり変動が激しいことだ。ある週と次の週でトラフィックが2倍に増えたり、半分に減ってしまったりするのは、ウェブサイトでは非常によくあることだ。これだけ変動が激しいと、短期的データからトラフィックパターンを読み取ることはきわめて困難になる。単なる変動と長期的傾向を見分けるには、数ヶ月間の観察結果を見るしかない。

あるサイトの「通常の」変動幅がわかって初めて、ある週のトラフィックが特に多いか少ないか、その確率を計算できるようになる。このサンプルサイトに関しては、答えを出せるほどのデータ量がない。だが、私の勘で言うと、5週目の増加は、そのサイトに予想されるランダムな変動幅の範囲内の出来事だと思われる。

サイトトラフィックの変動幅は非常に激しい。このため、予告なしに襲ってくるアクセスの急増に対応できるよう、予備のサーバ許容量を十分に備えておくのがいいだろう。さらに、長期的なトラフィックの傾向を常に追跡して、手遅れになる前にアップグレードの計画を立てておくべきだ。そうしないと、ユーザを怒らせ、競争相手のサイトに逃げられてしまうことになる。

皮肉なことに、このエッセイを書いた数日後に、私自身のサイトが許容量を超えるアクセスに見舞われた。www.useit.comには、通常のトラフィックの約5倍の許容量を持たせてある。だが、Jesse BerstがAnchorDeskで私の業績のことを書いた日は、これでもさばき切れなかった。アクセスは激増し、2時間ほどたってサーバをアップグレードするまでは、ほとんど不通になった。少なくとも、私にはまさかの時のための計画があった。実行までには少し手間取ったが。

1998年2月22日