Webに関連する統計データの可視化:
対数グラフと垂れ下がるテール

ウェブサイトへのアクセスログを線形グラフにするだけでは、データの大切な部分を見落とすことになりかねない。ときには、一歩進んだグラフ化にもやってみる価値があるものだ。

ユーザビリティ・セミナーの中で両軸に対数をとったグラフを見せると、聴衆の目は決まって曇る。何よりも、シンプルな形でデータがグラフ化されていることを、人々は好むのだ。セミナーの後で記入してもらっているアンケートから、聴衆のそんな気持ちがはっきりと伝わってきたので、統計にまつわる話は、これまでに随分と縮小してきた。

それでも、言わずにはいられない。ユーザビリティ・ガイドラインを支えるデータの肝心なところを、私は示さなければならない のだ。たとえば、ウェブのアクセスログにみられるパターンを分析するためには、嫌われがちな一歩進んだグラフ化が悲しいことに必要なのである。そうしなければ、実際に何が起こっているのかを示すことができない。

以下の線形グラフを例に考えてみよう。とあるウェブサイトのページ毎のアクセス数をグラフ化したものだ。

アクセス数の線形グラフ

グラフは、俗に言う“ロングテール”分布のように見えるし、実際にほぼ そうなっている(本当のところはZipf分布しているのだが…)。しかし、理論と現実の乖離がよりはっきりと見えてくるのは、同じデータを対数目盛で表示したときだ。

アクセス数の対数グラフ

これで、テールの先の部分が垂れ下がっていることがはっきりした。このウェブサイトには、ロングテールの先の部分に相当するアクセス数の少ないページが足りないのだ。

この対数グラフがなければ、テールの先端に相当するコンテンツを大量に追加することで、ウェブサイトのアクセス数をまだまだ増やし得るという事実に気づくことはなかっただろう。ウェブサイトへのアクセス数や“ロングテール”タイプのビジネスを分析しようとしていながら、線形グラフにしか目を向けず、データの真の姿を見逃してしまっているケースがあまりにも多いことに驚かされる。

ボリュームに差のあるイベントを一つのグラフにして比較しようとするときには、対数分布を見るのが良い。(Microsoft Excelを使っているなら、両軸をそれぞれダブルクリックすると開かれる「軸の書式設定」ダイアログの中の「目盛」タブにある「対数目盛を表示する」のチェックボックスにチェックをつけるだけで、簡単に対数分布を描くことができる。)

アクセスログの対数分布ではテールの先端が垂れ下がっていることが分かった。検索クエリーの対数分布を分析した際には、中間位に分布するクエリーが理論値よりも若干膨らんでグラフに現れてくることが分かった。対数分布を見たからこそ気づくことのできたもう一つの傾向である。

テールの垂れ下がった部分を持ち上げてみる

では、例に示したウェブサイトがテールの垂れ下がった部分を持ち上げて、理論が示す直線に沿うようにアクセス数を増やせたとしたらどうだろう?

現在1,000ページから成るウェブサイトに、8週間でおよそ260万ページビューのアクセスが確認されている。ウェブサイトが260,000ページにまで増えれば、同じく8週間で480万ページビューが理論的には得られることになる。つまり、あと259,000ページを新たに追加することで、220万ページビューの追加を実現できる。1ページあたり平均して9ページビューを稼ぐことになる。

期間を8週間から1年に拡大して考えてみよう。トータルのアクセス数はおよそになる。現在1,000ページで1,690万ページビューのウェブサイトを260,000ページ規模にまで拡大することでおよそ倍の3,220万ページビューを獲得することになり、新たに追加されるページは、1ページあたり平均58ページビューを稼ぐ。

58ページビューの価値はいかほどだろう?

Yahoo! のコンテンツページに広告を掲載すると、ここ数年間は、1ページビューあたり0.2~0.4セントの支払いが広告主に課されてきた。しかし、インターネット広告が効果的な広告手段として大袈裟に取り立てられてきたため、広告主らはこれまで言われるがままに高い掲載費を支払ってきた。長い目で見れば、この価値は1ページビューあたり0.1セントかそれ以下にまで落ち込んでいくと考えられる。

そこで、1ページビューあたりの価値を0.1セントとして計算してみることにしよう。58ページビューはおよそ6セントの価値になる。新たに追加されるページが5年間は読者の関心を引き続けるものと仮定し、さらに年率10%で価値が低下すると考えると、新たに追加されるページの現在価値は1ページあたり24セントということになる。

それほどの額ではない。しかし、追加される259,000ページ分を合算すると$62,000になる。

結構な額になった。しかし、$62,000のために259,000ページを新たに追加? とてもできないだろう。259,000ページを作る社員の給料の方が、ずっと高くつくことになるのだから。

取り得るアプローチは一つだ。昨今多くのウェブサイトで見られるように、読者に無料でコンテンツを提供してもらう方法である。しかし、これを実現するにはまず、読者からのコンテンツ提供を受け取るためのシステムの構築が必要になる。(きちんと作ろうと思うなら)システムを世に出す前に、ユーザテストなどを実施してその質を担保する必要もある。特に高度な機能を搭載する必要がなければ、$62,000もかけずにシステムを構築することができるだろう。しかし、無料でできることではない。

(追記:Chris Anderson氏は、映画の人気度もテールの先端が垂れ下がるグラフで示されることを確認した。先端の垂れ下がった対数グラフが、これまで以上に巷でみられるようになってきているのかもしれない。ロングテールのデータを、適切なグラフを使って分析し直す動きが今後ますます見られるようになるのではないだろうか。)

分析結果

例にあげたウェブサイトでは、ログの分析結果を活用しても大きな収益には繋がらないだろう。ロングテールの先端部分がお金に換わるのは、他から集めた製品を取り扱う場合であり、独自に開発するモノを売りにしている企業は、テールの先には手をつけないのが無難なようだ。

とは言うものの、以下のいずれかに該当するウェブサイトであれば、ロングテールの先端までを考慮するに値する。インターネット広告をばらまくだけでなく、さまざまな策を講じてアクセス数を増やし、それを収益に変えられているウェブサイトや、新たな機能の構築に要する費用を遙かに上回る収益を約束してくれる相当数の読者をすでに抱えているウェブサイトである。

いずれにしても、実験的なROI(投資対効果)のシナリオを自分のウェブサイトに採用すべきか否か、きちんと調べてみるべきだ。そのためには、データを適切な方法で分析する必要がある。よく見かける方法に終始せず、一歩進んだデータの可視化が望まれるのだ。対数分布と聞いて圧倒されることなく、是非試してみていただきたい。

2006 年 8 月 14 日