一般用検索エンジンにPDFファイルをインデックスさせない方法
※「PDFショックの防止にはゲートウェイページを」への補足記事
PDF ファイルを検索エンジンの目から隠すには、4 つの仕組みがある。
- すべての PDF ファイルをひとつのディレクトリに集め、robots.txt ファイルを使って、検索エンジンにそのディレクトリにあるものをすべて除外するように命令する。たとえば、PDF ファイルが
/pdf
というディレクトリにある場合、以下の 2 行を robots.txt ファイルに追加する。
User-agent: *
Disallow: /pdf/
robots.txt ファイルは、ウェブサイトのルート階層に配置すること(例:www.useit.com/robots.txt) - PDF ファイルを論理的に納得のいくディレクトリに配置したいなら、ひとつひとつの PDF ファイルを、robots.txt ファイルに 1 行ずつ記述する。もちろん、メンテナンスの上では悪夢のような作業だ。残念なことに、特定のファイル形式をスパイダーに禁じる方法はないから、禁止ファイル専用のディレクトリを設けずに robots.txt を使いたいなら、ファイルをひとつずつ記述するしかない。
- Google は robots.txt 標準の拡張形式をサポートしている。これによって、PDF ファイルのインデクシングを避けることができる。しかし、これは完全な標準の一部ではないので、他の検索エンジンには通用しないだろう。以下の行を robots.txt に追加する:
User-agent: Googlebot
Disallow: /*.pdf$
- 適切なウェブページから PDF ファイルへのリンクを検索エンジンが追跡しないようにさせるには、以下の meta タグを各ページの頭に追加する:
<meta name="robots" content="nofollow">
PDF ファイルにはそれぞれゲートウェイ・ページを設けるという指針に従っていて、しかもそのゲートウェイ・ページには該当する PDF へのリンク以外掲載しないようにしているなら、検索エンジンにリンク先を追跡させないようにするだけで事足りる。
どの解決策も理想的とは言いかねる。インデックスしてほしいファイル形式を検索エンジンに伝えられるようになっていると、はるかにいいのだが。
たとえあなたが PDF リンクは「nofollow」という慣例を適用していても、よそのウェブサイトが愚かにも PDF ファイルへ直リンクしてしまうリスクは、依然としてつきまとう。そして、スパイダーに URL を捕捉されてしまうのである。(他のウェブサイトにある PDF 文書へのリンクに関するアドバイスは、補足記事を参照されたい)
最後の手段として、すべての PDF ファイルにパスワード保護をかけておく方法もある。検索エンジンにはパスワードはわからないはずなので、PDF ファイルをインデックスすることはできない。この手法は、エクストラネットや、販売用の文書には有効だ。ユーザにも認証の必要なことは納得してもらえるだろう。だが、標準的なウェブ閲覧においては、パスワードはよくない考え方である。ユーザと、彼らが求める情報の間に、新たな障壁を設けることになるからだ。