アクセスログにみられる傾向

一つのウェブサイトを構成するページごとの相対的な人気、他のウェブサイトからのリンクで飛んでくる読者の数、そして検索クエリーからのアクセス数は、今もZipf分布している。

10年ほど前、一つのウェブサイトを構成するページごとの人気が、べき乗法則に従っていることを示した。一つのウェブサイトの中には、極めて人気の高いページが若干数あり、ほどほどの人気を集めるページがその数を少し上回る。そして、残った相当量のページは、アクセス数が少なく例の“ロングテール”を形成することになっている。

数学的に言うと、両軸を対数でとった図にデータをプロットした結果が直線で示されればZipf分布していることになる。x軸には人気の順位を、y軸にはアクセス数をとってデータを図示する。

以前の分析で、他のウェブサイトからリンクを辿って飛んでくる読者の数、逆に外へ向かって出て行く読者の数なども、同じようにZipf分布していることが分かっている。

これらの分析結果は、今も有効だろうか? ウェブは2,200倍の規模にまで拡大した。読者の行動パターンが変化してきた可能性はある。調べてみることにしよう。

ページの人気度

下図に、この8週間のuseit.comへのアクセス数を示す。点は、一つのページを表しており、人気の高い順に並べられている。もっとも人気の高いページはホームページで、261,024回のアクセスがあった。

上位に分布している350ページ分のデータは、理論値と驚くほどに近似している。しかし、それ以降のデータは理論から逸れて、続く700ページ分のデータは、理論が予測する値を下回っている。また、理論的には、さらにアクセス数の少ないおよそ250,000ページが存在しなければならないのだが、それほどの量を書ききれていないのは明らかである。

ウェブページをアクセス数の多い順に並べたときの各ページの人気度を示すZipf分布

図の右上に小さく示しているのは、10年前に同様の分析を行ったときのグラフである。新しいデータと、気味が悪いくらいにそっくりだ。データが終値に近づくにつれて、理論から逸れ、アクセス数の少ない膨大な数のページはやはり欠落している。

“ロングテール”の先の部分は、どちらのグラフにも現れていない。これは、新旧どちらのデータにおいても十分な数のページが蓄えられておらず、アクセス数の少ないページの数が理論を満たすほどになっていないことを示している。個人(あるいはマーケティング部門など一部署)が250,000ページを書き上げるには、数百年という月日が必要になるだろう。

他のウェブサイトからリンクを辿ってくるアクセス数

次のグラフは、8週間の間に他のウェブサイトからのリンクを辿ってuseit.comへやってきた読者の数を表している。各点は、useit.comへリンクを張っているウェブサイトをそれぞれ表している。

他のサイトからリンクを辿ってくる読者数を多い順に並べたときのZipf分布

データは、理論値を示す赤い直線に沿うように分布し、最後にはx軸に交わっている。useit.comへリンクを張り得るウェブサイトは、ウェブ上に十分な数、存在し、その多くはごく稀にユーザを飛ばしてくる程度の、そもそものアクセス数も少ないブログの類である。

このグラフで、唯一、明らかに理論に反しているのは、最も多くの読者を送り込んでいるサイトのデータが理論に基づく数値を遙かに上回っている点である。Google(特に大きな黒丸で示した)を経由して、実に257,040人の読者がuseit.comを訪れている。理論上は、わずか52,479人に過ぎないはずのところが。

Googleは、理論を遙かに超えて5倍の人気を博していることになる。その他の検索エンジンがGoogleに追いついてくれば、この人気も落ち着いてくるのかもしれないが、これは“時のみぞ知る”である。

Googleは、他のサイトとは比べものにならないほどに重要である。しかし、他の35,631個のサイトがアクセス数全体の35%を支えていることも事実だ。1位のサイトにのみ意識を向けるのは、明らかに得策ではない。

検索エンジンのクエリー

ユーザはさまざまな検索エンジンを使い、110,399個にもおよぶ多様なクエリーを駆使してuseit.comに辿り着いた。調査を実施した8週間の中で、83%のクエリーは一度ずつしか使われなかったものである。

上位10個のクエリーが、全体の10%に相当するアクセスをもたらした。これらのクエリーは、読者を一人しかもたらさなかったクエリーと比較すれば当然、より重要ということになる。しかし、一度しか使われなかったクエリーでも、それらがもたらしたアクセス数を合計すれば、上位10個のクエリーがもたらしたアクセス数の3倍にもなった。この統計結果からは、パフォーマンスの高い数個のクエリーにのみ的を絞って検索エンジン最適化を図ることの愚かさがよくわかる。あなたのサイトは、ユーザが関連するクエリーを入力すれば見つかるようにとなっていなければならない。これによりもたらされる可能性は、極めて高いものなのだから。

以下の図は、検索エンジンで使われたクエリーを、サイトへのアクセスにつながったユーザの数が多い順に並べたものである。

当該サイトへもたらされたアクセス数の多い順に並べた検索クエリーのZipf分布

おおむね理論に即した分布を示しているが、5位から300位の辺りで若干膨らんでいる。言い換えると、中間位にあるクエリーは理論よりも重要ということになる。いくつか例を挙げるとすれば、response time(応答時間)open link in new window(新しいウィンドウでリンクを開く)teenagers(ティーンエージャー)site maps(サイトマップ)eye tracking(視線追跡)link color(リンクの色)などである。useit.comは、これらの話題に特に焦点をあてているわけではない。だからこそ、リストの最上位には入っていないのだ。しかし、どのクエリーにしても、関連する記事を少なくとも一つずつは書いているはずである。

本サイトでは、かなり広い範囲の話題を、ある程度まで深く掘り下げて論じている。中間位のクエリーが、プラスαのアクセスをもたらしているのはそのためではないかと考えられる。

クエリーのリストを人気の上位から順に見ていくと、順位が下がるにつれて、クエリーが少しずつ長くなっている。以下は、1,000個単位でクエリーをグループに分け、上位19グループに入ったクエリーを、構成する単語の数ごとに割合を出してグラフ化したものである。(つまり、1位~1,000位を先頭グループとして、1,001位~2,000位と続き、18,001位~19,000位までの合計19グループでデータを見る。)

アクセス数上位で使われた検索クエリーの単語数

1単語のクエリーは、上位1,000個のクエリー(サイトへのアクセスに最も多く繋がったクエリーを指す)の中では数多くみられたが、その割合はすぐに低下する。逆に、4単語~5単語から成るクエリーは、上位のクエリーではあまり見られないが、7,000位辺りを境目にその割合は高くなっている。

これは、検索エンジン最適化を図る中では、長いクエリーも検討に値することを物語る結果である。複数の単語から成るクエリーは、ユーザを幅広く惹きつけるのに効果的な方法なのである。

今回の例で、7,000位辺りにある長めのクエリーには、radio buttons and check boxes(ラジオボタンとチェックボックス:単語数5)horizontal scrollbar in html(htmlで水平方向にスクロールバー:単語数4)などがあった。

10年でほとんど変化なし

今回新たに分析したデータと10年前のデータを比較してもっとも興味深かったのは、ほとんど同じ分布図が描かれたことである。ウェブ上のユーザの動きを測ってみると、1996年も、そして今も同じようにZipf分布していることが分かった。

2点の例外があり、ともに検索に関連している。

  • ある検索エンジンの人気が極端に高い。これは一時的な現象なのだろうか。それとも、インターネットという枠組みに何か根本的な変化が起ころうとしているのだろうか? また10年たったら見てみることにしよう。
  • 最近のユーザは、以前よりも長いクエリーを入力する(この傾向については、ウェブ・ユーザビリティに関する基本ガイドラインの中で詳述の予定)。

とはいえ、ユーザがウェブを使うときの行動パターンは、驚くほどに堅固なものとなっているようだ。ユーザビリティのガイドラインが耐久性の高いものとなる理由と同じように説明できる。いずれの場合も、テクノロジーや流行の変化とは関係なく、むしろ人間の本質にこそ起因するのだ。

ウェブの利用に関する多くの側面を、今回ご紹介した分布図で見ることができるのはお分かりいただけただろう。お持ちのログデータを、是非、同様に分析してみていただきたい。両軸を対数でとったグラフに統計データをプロットして、直線に近い分布を得られるかどうか。そうなっていれば、あなたのサイトは理論に即している。そうならなければ、どの部分が理論から逸れているかを見てご覧なさい。上位、中盤、それとも裾に伸びるテールの部分だろうか? 直線の上と下、どちらにデータが逸れているだろう? 直線からデータが逸れていれば、アクセスの傾向が標準とはどこかで違っているということだ。改善の望まれる部分を特定するにあたっても、おおいに役立つことだろう。

2006 年 7 月 10 日