サイト運営の際必要になる各種データの個人的な覚え書き




ご注意・免責事項

以下の内容は、あくまで当Wikiオーナーが個人的に必要とするデータの覚え書きであり、情報の正確さや有用さを保証するものではありません。以下の情報に基づいてアクセスを制限する事を推奨するものでもありません。
当Wikiはご自分の責任においてご覧ください。当Wikiに記述してあるデータを閲覧・利用・信用した事による結果について、当Wikiのオーナーは一切の責任を負いません。また、当Wikiに記述してあるデータとその利用法についての質問は一切受け付けておりません。当Wikiの運営方針に対する要望も一切受け付けておりません。

目次へ戻る

EU

Camtology/iLexIR Web Spider

URL http://epweb2.ph.bham.ac.uk/user/slater/camont/inf...
備考 robots.txtを読んでいる 最終確認 2011/04/05
USER AGENT CamontSpider/1.0 +http://epweb2.ph.bham.ac.uk/user/slater/camont/inf... 最終確認 2011/04/05
USER AGENT CamontSpider/1.0 + 追加 2010/05/16
HOST nat006.gla.scotgrid.ac.uk IP 130.209.239.6 最終確認 2010/11/17
HOST heplnc114.pp.rl.ac.uk IP 130.246.45.114 追加 2010/07/01
HOST heplnc222.pp.rl.ac.uk IP 130.246.45.222 追加 2010/11/19
HOST t2wn63.physics.ox.ac.uk IP 163.1.5.10 追加 2011/04/05
拒否用 deny from 130.209.0.0/16 最終確認 2010/11/17
拒否用 deny from 130.246.0.0/16 最終確認 2010/11/19
拒否用 deny from 163.1.0.0/16 追加 2011/04/05
目次へ戻る

esCERT-UPC

URL http://escert.upc.edu/
備考 robots.txtを読んでいる 追加 2010/06/02
USER AGENT ecxi/Nutch-1.0 (esCERT-UPC-ecxi; http://escert.upc.edu/; admin escert edu) 追加 2010/06/02
HOST cluster.escert.upc.edu IP 147.83.152.182 追加 2010/06/02
拒否用 deny from 147.83.0.0/16 追加 2010/06/02
目次へ戻る

イギリス

Majestic-12 [更新2011/11/23]

URL http://www.majestic12.co.uk/
クロール拒否方法 http://www.majestic12.co.uk/projects/dsearch/mj12b...
備考 似たUAを名乗る偽のMJ12botがあるらしいので、以下の情報が本当のMJ12botのものであるという保証は無い
偽MJ12botのIPは上記のURLにて公開されている
USER AGENT Mozilla/5.0 (compatible; MJ12bot/v1.4.0; http://www.majestic12.co.uk/bot.php?+) 最終確認 2011/08/10
USER AGENT Mozilla/5.0 (compatible; MJ12bot/v1.3.3; http://www.majestic12.co.uk/bot.php?+) 最終確認 2011/11/23
備考 robots.txtを読んでいる 最終確認 2011/11/23
HOST crawl1.majestic12.co.uk IP 62.231.141.193 最終確認 2010/12/05
HOST ool-4573f17b.dyn.optonline.net IP 69.115.241.123 追加 2011/07/10
HOST pool-71-168-105-231.cncdnh.fast11.myfairpoint.net IP 71.168.105.231 追加 2011/08/10
HOST 50-84-132-95.pool.ukrtel.net IP 95.132.84.50 追加 2011/11/23
HOST 5.ovz.chicago.123systems.net IP 184.154.7.186 追加 2011/02/25
HOST s1.960.clients.serverdeals.org IP 184.154.48.82 追加 2011/08/10
HOST ns213235.ovh.net IP 188.165.228.157 追加 2010/12/02
拒否用 deny from 62.231.128.0/19 最終確認 2010/12/05
拒否用 deny from 69.112.0.0/12 追加 2011/07/10
拒否用 deny from 71.168.64.0/18 追加 2011/08/10
拒否用 deny from 95.132.0.0/14 追加 2011/11/23
拒否用 deny from 184.154.0.0/16 最終確認 2011/08/10
拒否用 deny from 188.165.0.0/16 追加 2010/12/02
備考 以下のIPはrobots.txtを読んでいない 追加 2010/07/20
HOST . IP 67.159.44.51 追加 2010/07/20
拒否用 deny from 67.159.0.0/18 追加 2010/07/20
目次へ戻る

詳細不明(TweetmemeBot)

概要 Twitterに投稿されたツイートに含まれていたURLをクロールしている?
備考 robots.txtは読んでいない 追加 2010/05/16
USER AGENT Mozilla/5.0 (compatible; MSIE 6.0b; Windows NT 5.0) Gecko/2009011913 Firefox/3.0.6 TweetmemeBot 追加 2010/05/16
HOST eagle.favsys.net IP 89.151.116.54 追加 2010/05/16
拒否用 deny from 89.151.64.0/18 追加 2010/05/16
目次へ戻る

イタリア

詳細不明(Z-Add Link Checker)

備考 robots.txtは読んでいない 追加 2010/06/02
USER AGENT Z-Add Link Checker (http://w3.z-add.co.uk/linkcheck/) 追加 2010/06/02
HOST attila.netcat.it IP 80.68.203.30 追加 2010/06/02
拒否用 deny from 80.68.192.0/20 追加 2010/06/02
目次へ戻る

ウクライナ

sitebot.org

URL http://www.sitebot.org/
備考 robots.txtを読んでいる 最終確認 2011/08/03
USER AGENT Mozilla/5.0 (compatible; SiteBot/0.1; +http://www.sitebot.org/robot/) 最終確認 2011/08/03
HOST nano2.dc.ukrtelecom.ua IP 212.113.35.162 追加 2010/12/02
HOST - IP 212.113.37.105 最終確認 2011/08/03
拒否用 deny from 212.113.32.0/19 最終確認 2011/08/03
目次へ戻る

オーストラリア

CatchBot

URL http://www.catchbot.com/
備考 robots.txtを読んでいる 追加 2010/02/21
USER AGENT CatchBot/1.0; +http://www.catchbot.com 追加 2010/02/21
HOST 203-6-203-79.reed-elsevier.com.au IP 203.6.203.79 追加 2010/02/21
拒否用 deny from 203.6.192.0/20 追加 2010/02/21
目次へ戻る

オーストリア

Lexxe

URL http://www.lexxe.com/
備考 robots.txtを読んでいる 追加 2010/07/14
USER AGENT LexxeBot/1.0 (lexxebot@lexxe.com) 最終確認 2010/07/14
HOST 60-240-249-212.tpgi.com.au IP 60.240.249.212 追加 2010/07/14
拒否用 deny from 60.240.0.0/16 最終確認 2010/07/14
目次へ戻る

オランダ

Kalooga

URL http://www.kalooga.com/
概要 フォトアルバムやイメージギャラリーを検索する画像検索エンジンだそうです
備考 robots.txtを読んでいる 最終確認 2010/02/04
USER AGENT Mozilla/5.0 (compatible; KaloogaBot; http://www.kalooga.com/info.html?page=crawler) 最終確認 2010/02/04
HOST crawler.kalooga.com IP 195.210.57.83 最終確認 2010/02/04
拒否用 deny from 195.210.56.0/23 最終確認 2010/02/04
目次へ戻る

カナダ

Radian6

URL http://www.radian6.com/
USER AGENT R6_FeedFetcher(www.radian6.com/crawler) 追加 2010/11/21
HOST login.radian6.com IP 142.166.3.122 追加 2010/11/21
HOST - IP 207.34.25.76 追加 2010/11/21
拒否用 deny from 142.166.0.0/16 追加 2010/11/21
拒否用 deny from 207.34.24.0/21 追加 2010/11/21
目次へ戻る

シンガポール

詳細不明($_agentname)

概要 Twitterに投稿されたツイートに含まれていたURLをクロールしている?
備考 robots.txtは読んでいない 追加 2010/05/16
USER AGENT $_agentname 追加 2010/05/16
HOST ec2-175-41-130-113.ap-southeast-1.compute.amazonaws.com IP 175.41.130.113 追加 2010/05/16
拒否用 deny from 175.41.128.0/17 追加 2010/05/16
目次へ戻る

スウェーデン

Entireweb

URL http://www.entireweb.com/
備考 robots.txtを読んでいる 最終確認 2010/11/15
USER AGENT Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_... 最終確認 2010/11/15
USER AGENT Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_... 最終確認 2010/04/15
HOST - IP 88.131.106.1 最終確認 2010/04/15
HOST static-88.131.106.22.addr.tdc.se IP 88.131.106.22 最終確認 2010/11/15
HOST - IP 88.131.106.24 最終確認 2010/01/08
HOST - IP 88.131.106.30 最終確認 2010/04/15
HOST - IP 88.131.106.31 最終確認 2010/04/15
HOST - IP 88.131.106.32 最終確認 2010/02/01
拒否用 deny from 88.131.0.0/16 最終確認 2010/11/15
目次へ戻る

Picsearch

URL http://www.picsearch.com/
クロール拒否方法 http://www.picsearch.com/menu.cgi?item=About_Psbot
備考 robots.txtを読んでいる 最終確認 2011/04/19
USER AGENT psbot/0.1 (+http://www.picsearch.com/bot.html) 最終確認 2011/04/19
HOST spider25.picsearch.com IP 217.212.224.181 最終確認 2010/06/01
HOST spider27.picsearch.com IP 217.212.224.183 最終確認 2011/04/19
拒否用 deny from 217.212.224.0/19 最終確認 2011/04/19
目次へ戻る

タイ

JomRank.com

URL http://www.jomrank.com/
備考 robots.txtは読んでいない 追加 2010/06/02
USER AGENT Jomjaibot/1.0 Crawl (http://www.jomrank.com/, http://www.thaiwebdb.com) 追加 2010/06/02
HOST - IP 113.53.41.71 追加 2010/06/02
拒否用 deny from 113.53.0.0/16 追加 2010/06/02
目次へ戻る

ドイツ

OpenAcoon

URL http://www.openacoon.de/
概要 OpenAcoonというのはオープンソースのクローラらしい
備考 robots.txtを読んでいる 追加 2010/02/21
USER AGENT OpenAcoon v4.1.0 (www.openacoon.de) 追加 2010/02/21
HOST elbe031.server4you.de IP 62.75.218.97 追加 2010/02/21
拒否用 deny from 62.75.128.0/17 追加 2010/02/21
目次へ戻る

詳細不明(findlinks) [更新2011/11/23]

URL http://wortschatz.uni-leipzig.de/findlinks/
備考 robots.txtを読んでいる 最終確認 2011/11/23
USER AGENT findlinks/2.0.4 (+http://wortschatz.uni-leipzig.de/findlinks/) 最終確認 2011/04/18
USER AGENT findlinks/2.0.2 (+http://wortschatz.uni-leipzig.de/findlinks/) 最終確認 2011/11/23
USER AGENT findlinks/2.0.1 (+http://wortschatz.uni-leipzig.de/findlinks/) 最終確認 2011/08/01
HOST 77-20-40-173-dynip.superkabel.de IP 77.20.40.173 追加 2011/07/11
HOST 77-21-147-173-dynip.superkabel.de IP 77.21.147.173 追加 2011/11/23
HOST gkpc9.informatik.uni-leipzig.de IP 139.18.2.209 最終確認 2011/08/01
HOST woclu2.informatik.uni-leipzig.de IP 139.18.13.202 最終確認 2011/04/18
HOST pD95108FE.dip.t-dialin.net IP 217.81.8.254 追加 2011/04/15
拒否用 deny from 77.20.0.0/14 最終確認 2011/11/23
拒否用 deny from 139.18.0.0/16 最終確認 2011/08/01
拒否用 deny from 217.80.0.0/12 追加 2011/04/15
目次へ戻る

詳細不明(NjuiceBot)

概要 Twitterに投稿されたツイートに含まれていたURLをクロールしている?
備考 robots.txtは読んでいない 追加 2010/05/16
USER AGENT Mozilla/5.0 (compatible; Windows NT 6.0) Gecko/20090624 Firefox/3.5 NjuiceBot 追加 2010/05/16
HOST - IP 85.114.136.243 追加 2010/05/16
拒否用 deny from 85.114.128.0/19 追加 2010/05/16
目次へ戻る

詳細不明(obot)

備考 robots.txtを読んでいる 最終確認 2010/09/20
USER AGENT oBot 追加 2010/09/20
USER AGENT Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 4.0; obot) 追加 2010/02/05
HOST - IP 194.153.113.18 追加 2010/02/05
HOST - IP 194.153.113.22 追加 2010/09/20
拒否用 deny from 194.153.113.0/24 最終確認 2010/09/20
目次へ戻る

フランス

Exalead

URL http://www.exalead.com/
USER AGENT Mozilla/5.0 (compatible; Exabot/3.0 (BiggerBetter); +http://www.exabot.com/go/robot) 最終確認 2010/04/16
備考 robots.txtを読んでいる 最終確認 2010/04/16
HOST crawl305.exabot.com IP 83.167.62.167 最終確認 2010/04/16
拒否用 deny from 83.167.32.0/19 最終確認 2010/04/16
USER AGENT Mozilla/5.0 (compatible; Exabot-Images/3.0; +http://www.exabot.com/go/robot) 最終確認 2011/04/04
備考 robots.txtを読んでいる 最終確認 2011/04/04
HOST crawl105.exabot.com IP 193.47.80.137 最終確認 2011/04/04
拒否用 deny from 193.47.80.0/24 最終確認 2011/04/04
目次へ戻る

OsO

URL http://oso.octopodus.com/
備考 robots.txtを読んでいる 最終確認 2010/01/05
USER AGENT Mozilla/5.0 (compatible; OsO; http://oso.octopodus.com/abot.html) 最終確認 2010/01/05
HOST tikuts.com IP 91.121.152.144 追加 2010/01/05
拒否用 deny from 91.121.0.0/16 追加 2010/01/05
目次へ戻る

ロシア

@Mail.ru

URL http://mail.ru/
備考 robots.txtを読んでいる 最終確認 2011/07/20
USER AGENT Mail.Ru/1.0 最終確認 2011/07/20
HOST spider11.mail.ru IP 217.69.134.166 最終確認 2011/07/20
拒否用 deny from 217.69.128.0/20 最終確認 2011/07/20
目次へ戻る

Yandex [更新2011/11/23]

URL http://www.yandex.com/
備考 robots.txtを読んでいる 最終確認 2011/11/23
USER AGENT Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) 最終確認 2011/11/23
HOST spider-95-108-128-242.yandex.com IP 95.108.128.242 追加 2011/11/23
HOST spider97.yandex.ru IP 178.154.163.29 最終確認 2011/07/25
拒否用 deny from 95.108.128.0/17 追加 2011/11/23
拒否用 deny from 178.154.128.0/17 最終確認 2011/07/25
目次へ戻る

Wiki内検索

RSSを登録

 RSSリーダーで購読する

はてなRSSへ追加

Google Readerへ追加

Powered by FeedBurner

Wikiをはじめる

マイページ