Zipf曲線とWebサイト人気度
※ウェブサイトの収穫逓増に関するJakob Nielsenのコラムへの補足記事
Zipf曲線は、両軸を対数でとった図にプロットすると直線になる。この図はZipf分布になる300の要素による単純なデータセットを示したものだ。データの点を結ぶ線が右図では線形(リニア)になっている点に留意されたい(両軸とも対数でとってある)。普段見慣れたプロットのほとんどは線型である。比較のために、左側の図では同じ要素を線型軸にとってみた。
この図表から明らかなのは、Zipf曲線は、線型軸では座標軸に近づく傾向があるということだ。このために、両軸を対数でとるのが普通なのだが、残念ながら、ほとんどの人はこの種の図の読み取りには慣れていないはずだ。簡単に言うと、Zipf分布になるデータには、簡単にいうと以下のような特徴がある。
- わずかな要素が極度に高い値を示す(図の左端)
- 中くらいの数の要素が、中間的な値を示す(図の真中部分)
- 大多数の要素が、きわめて低い値を示す(図の右端)
Zipf分布は、自然言語(例えば英語)での単語の利用状況や、図書館での書籍の人気度といったものを表すのに利用されてきた。このため、通常…
- 言語では、極端に頻繁に利用される単語(「the」、「and」など)は数個、図書館では、誰もがみんな借りたがる本(最新ベストセラー)が数冊しかない
- 言語では比較的よく利用される単語(「dog」、「house」など)がかなりの数あり、図書館では多くの人が借りたがる本(犯罪小説のたぐい)がかなりある
- 言語には、まず使いそうもない単語(「Zipf」、「double-logarithmic」など)がおびただしく存在し、図書館には、数年に一度しか参照されることのない書籍(Apple II用ワープロのリファレンスマニュアル、など)がいやというほどある
利用できるデータの数多くが、ウェブの利用状況がZipf分布になっていることを示している。この図は、昨年1ヶ月間に外部から入ってくるwww.sun.comへのページリクエストの分布を示したものである。各座標が1ページを示し、X軸はページを人気度順に並べたものである。最初のページがもっとも人気のあるページ(ホームページ)、2番目のページがその月にリクエスト数が2番目に多かったページ、といった具合になっている。この調子でページ番号10000まで続くが、このレベルになるとその月のリクエスト数はたった1回になる。太線はログから取った実際の観察データを、細い赤線はローエンドを除いたデータにぴったり合致するZipf曲線を示している。ローエンドでのずれは様々な要因によるものである。サイト自体に、関心度の低いページがたくさん蓄積するほどの歴史がないという事実もその中のひとつだろう。
この図で示したのは、ひとつのサイトに対して、外部から流入してくるページリクエストである。他の調査では、ある組織の従業員から出された外部へ流出するページリクエスト(みんなが見ているページはわずかで、大部分のページは1度しか見られない)を調べたが、これもやはりZipf曲線的な特性を示した。ウェブ上でのハイパーテキスト参照の分布も、Zipf分布になっているようだ(誰もがリンクするサイトはごくわずかで、多くのサイトは誰にもリンクされない;またどんなサイトも、そのトラフィック紹介のほとんどはごく少数のサイトから得たもので、他の大部分のサイトから得られるトラフィックはごくわずかなものに過ぎない)。Usenet会議室の参加者にもZipf分布が当てはまる(ごく少数の人がほとんどのメッセージを投稿し、大部分の人はめったに投稿しない)。