LANGUAGE

ニュースNEWS

2012年9月20日
お知らせ

当社サービスにおけるクロールシステムのポリシー

当社は「logly lift」および「zenback」においてお客様のWebサイト内のコンテンツをクローラ(またはボット)と呼ばれるソフトウェアが自動的に収集しております。収集したコンテンツは各サービスに適した形式で解析され、当社システム内で管理されております。

 

当社ではお客様サイトをクロールする際に、「robots.txt」と呼ばれるクローラのアクセス頻度や収集対象のディレクトリを指定したファイルを確認し、それに順守してクロールを行なっております。従いまして、当社クローラの挙動を制御する場合には、下記ユーザエージェント情報などを元に、robots.txtに明記いただくよう、お願いいたします。

なお、robots.txtに関する詳細な記述方法に関しては下記サイトをご参照ください。

http://www.robotstxt.org/

 

以下は当社クローラに関する情報です。下記情報を元に、robots.txtを記述してください。

ユーザエージェント

「logly lift」

Mozilla/5.0 (compatible; newzia crawler +http://corp.logly.co.jp/)

 

「zenback」

Mozilla/5.0 (compatible; zenback bot; powered by logly +http://corp.logly.co.jp/)

 

 

いずれも、loglyの文字列を含みますので、User-agent: loglyで制御することが可能です。

newzia系サービスとzenbackを併用しているお客様で、それぞれのサービスごとに制御する場合には、newzia、zenbackと指定することも可能です。

 

また、デフォルトのクロール頻度は3秒間隔で、かつサーバのレスポンスが悪化するようであれば少しずつ間隔を広げるように制御されていますが、これを明示的にゆっくりにしたい場合、下記のような指定をしてください。

 

例)

User-agent: logly

Crawl-delay: 10

 

なお、同じ User-agent の指定が複数ある場合、最後のもので上書きされます。Crawl-delayとAllow/Disallowを分けた場合は、先に記述したものが失われますのでご注意ください。

 

例)

User-agent: logly

Crawl-delay: 10 #=> デフォルト値(3秒)で上書きされ、無効

 

User-agent: logly

Disallow: /secret #=> 有効

 

 

ご不明な点やご質問がございましたら、お問い合わせよりご連絡をお願いいたします。