ちょっと前に、過去に僕がサイトリニューアルを受け持ったクライアントさんからご相談がありました。
「リニューアルしたのに過去の作品が見れてしまうんです」というご相談。
彼はとある分野でのデザイナーさんで、ポートフォリオサイトで自身の作品を公開していた。
僕がリニューアルを承ってサイトを作り直したわけですが、その際に過去の作例をけっこう刷新して差し替えました。
ところが、未だに過去の作例が見えてしまって困る、とのこと。
サイトリニューアルはずいぶん前に終えていたので、今さらGoogleのキャッシュってこともあり得ないし変だなぁと詳しく話を伺ってみると、
Internet Archive Wayback Machine
でした。
Internet Archive Wayback Machineとは?
Wayback Machine(ウェイバックマシン)とは、かいつまんで言うと、インターネット上のデータを勝手に蓄積して勝手にアーカイブ化して誰でも閲覧できる状態で勝手に公開している海外のサービスです。
膨大な数のサイトを蓄積していて閲覧側としてはかなり便利なサイトですが、サイト運営側としては必ずしも喜べるサービスではないのも確か。
これがやっかいなのは、とあるページを更新しても、過去のページの履歴がさかのぼって閲覧できてしまう点にあります。しかもサイト運営者の許諾なく勝手にアーカイブされます。
間違ったこと書いていたページだとか、痛々しいまでの設定盛り盛りで書かれた赤面もののオリジナル小説とか、いま見せられたら本気で死にたくなるくらいの黒歴史が余すところなくアーカイブされていたりして気が狂いそうになります。
今回のクライアントさんはネットスキルは高くなくてこんなサイト知っているような方ではなかったんですが、誰かが入れ知恵したようです。余計なことしやがりますです。
Wayback Machine からサイトを削除する方法
フォームで受付け、とかじゃないんですよ。
なんとメールで個別対応です。
膨大なサイトデータを蓄積してるくせになんというアナログ。
wayback@archive.org
このメールアドレスにメールを送ります。
メールは英語限定です。
メールタイトルは以下のようにします。
Hello. I'd like you to delete the following data from your archive
文面は以下の通り。
Hello. I'd like you to delete the following data from your archive:http://wayback.archive.org/web/*/https://消したいサイトのドメインまたはページのURL/* This mail is sent from my domain . thank you
なお、送信する際に消したいドメインからメールを送る必要があります。
そのドメインでメールアカウントを持っていない場合は成功率が一気に下がってしまいます。
フリーのブログサービスなんかだとドメインのアカウントを持っていないことが多いのでいきなり詰みます。
ダメ元ですが、サイトのいちばん上に
Prohibit archiving of this site.
の一文を書いてみてメールの3行目を
My site says that this site prohibits archiving
として知らせるしか手がありません。
また、サイトのどこかに署名を書き、送信するメールのアカウントはその署名にしておくと、ドメイン名が違っていてもうまくいくことがあります。
ジオシティーズなどサービス終了してしまったホームページスペースがアーカイブされてしまっていた場合はもう消す方法がありません。文明が滅びるまで残ります。
メールを送って2週間ほど経ってから、運営から「サイトを削除しましたよ」とメールが届いたら成功です。
Wayback Machine のサイト登録を阻止する
今後のことも考えると、勝手にアーカイブされるのは気分がよろしくないですね。
あらかじめウェイバックマシンのクローラーを防ぐようにしておくといいです。
robots.txtに以下の記述をしておきます。
User-agent: ia_archiver Disallow: /
これでサイトが登録されなくなります。
ちなみに他にもこういうサービスがありますが、とあるヨーロッパ系のやつがもうぜんぜん消せなくてどうしようもありません。
いまのところクローラーはドイツから飛んでくるのでこまめにIPチェックして弾くしかありませんね。
あと有名なのはweb魚拓。
これはrobots.txtに
User-agent: Megalodon Disallow: /
と記述すれば弾くことができます。
Wayback Machineは非営利団体がやってるので広告とかもないんですが、web魚拓は広告載せてて、他人のコンテンツで商売している感じで汚いなと思ったり思わなかったり。
ということでこのブログでは弾くようにしています。