MSIECrawler 这个爬虫有点特殊
本文按署名·非商业用途·保持一致授权作者:
,发表于2007年05月15日20时21分
今天在观察一些稀有爬虫的时候,发现了下面这个User Agent:
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727; MSIECrawler)
虽然以前也看过不少标榜自己为MSIE(也就是compatible;后面加MSIE)的爬虫,但是这个名字直接以MSIE开头的,我还真没注意过。一开始我以为这是一个脸皮更厚或者说更蠢一些的爬虫,后来去搜索了一下,发现并非如我所想。
MSIECrawler实际上是用户的IE发送出去的。在IE5及更高版本里,收藏夹多了一个功能。就是可以指定收藏夹里的某个url为脱机浏览,并让它在某些条件下更新。我稍微用了一下,有两个不同的更新条件。一个是直接使用ie上的工具->同步;另外一个是可以自己设定计划任务(就是windows下的那个计划任务)来定时更新。更新的时候,IE会去请求这个url,并且发送了带有“MSIECrawler”的User Agent。
操作顺序大致如下(当然这只是其中的一个操作步骤,本文重点不在这里,就不多说了):
IE的收藏->鼠标右键对某个url选属性->把“允许该页脱机浏览使用”打勾->计划。
延伸阅读:
Enhancing Offline Favorites(英文,这篇文章有提及该爬虫,但是重点并非介绍这个爬虫)
唠叨一句:由于edong至少一个小时的服务器异常,我这篇文章也推迟了一个小时才发表出来。在我彻底放弃国内的主机域名提供商之前,希望提供商们能多多争取我这位用户,毕竟我一年也交不少钱啊,而且还是潜在的大客户(不信?!拖出去砍了!)。

2007-05-15 21:05:42
—–BEGIN PGP SIGNED MESSAGE—–
Hash: SHA1
哎。。。。如果用境外的空间稍不注意就会被和谐了……
eDong还可以吧。。。除开偶然打个电话邀你删帖子……
—–BEGIN PGP SIGNATURE—–
Version: GnuPG v1.4.7 (MingW32) – GPGshell v3.61
iD8DBQFGSbCLzivVInw6UZMRAsdfAKCCQl0N7Dw9YjZwNkMyf1uR+sHQLgCfSp4l
VzzdEAlaEMLd/O/joi6p//M=
=7f0G
—–END PGP SIGNATURE—–
2007-05-16 00:18:20
寻找空间中“ 境外的对我最首要的问题就是不方便交钱..
2007-05-16 18:14:24
潜在的大客户是。。。。。。。