首页  > 计算机 >

MSIECrawler 这个爬虫有点特殊

本文按署名·非商业用途·保持一致授权
作者:  ,发表于2007年05月15日20时21分 

今天在观察一些稀有爬虫的时候,发现了下面这个User Agent:

Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727; MSIECrawler)

虽然以前也看过不少标榜自己为MSIE(也就是compatible;后面加MSIE)的爬虫,但是这个名字直接以MSIE开头的,我还真没注意过。一开始我以为这是一个脸皮更厚或者说更蠢一些的爬虫,后来去搜索了一下,发现并非如我所想。

MSIECrawler实际上是用户的IE发送出去的。在IE5及更高版本里,收藏夹多了一个功能。就是可以指定收藏夹里的某个url为脱机浏览,并让它在某些条件下更新。我稍微用了一下,有两个不同的更新条件。一个是直接使用ie上的工具->同步;另外一个是可以自己设定计划任务(就是windows下的那个计划任务)来定时更新。更新的时候,IE会去请求这个url,并且发送了带有“MSIECrawler”的User Agent。

操作顺序大致如下(当然这只是其中的一个操作步骤,本文重点不在这里,就不多说了):
IE的收藏->鼠标右键对某个url选属性->把“允许该页脱机浏览使用”打勾->计划。

延伸阅读:
Enhancing Offline Favorites(英文,这篇文章有提及该爬虫,但是重点并非介绍这个爬虫)

唠叨一句:由于edong至少一个小时的服务器异常,我这篇文章也推迟了一个小时才发表出来。在我彻底放弃国内的主机域名提供商之前,希望提供商们能多多争取我这位用户,毕竟我一年也交不少钱啊,而且还是潜在的大客户(不信?!拖出去砍了!)。



3个评论

  1. 陈少举:

    —–BEGIN PGP SIGNED MESSAGE—–
    Hash: SHA1

    哎。。。。如果用境外的空间稍不注意就会被和谐了……
    eDong还可以吧。。。除开偶然打个电话邀你删帖子……

    —–BEGIN PGP SIGNATURE—–
    Version: GnuPG v1.4.7 (MingW32) – GPGshell v3.61

    iD8DBQFGSbCLzivVInw6UZMRAsdfAKCCQl0N7Dw9YjZwNkMyf1uR+sHQLgCfSp4l
    VzzdEAlaEMLd/O/joi6p//M=
    =7f0G
    —–END PGP SIGNATURE—–

  2. Costi:

    寻找空间中“ 境外的对我最首要的问题就是不方便交钱..

  3. a:

    潜在的大客户是。。。。。。。

发表评论

  本站文章若无注明,则以署名·非商业用途·保持一致授权
  桂ICP备05004302号 感谢WordPress提供本程序 本模板下载