public class PageChangeProber
extends Object
页面变化探测器 :用于再次爬取页面前事先探查页面的具体情况。
一般探查结果有如下几种情况:
1.页面没有任何改变:继续轮询探测
2.页面框架没变,只是新增了动态数据,此时需要爬取
3.页面改版:需要重新设置爬虫
4.页面url不能再被访问:需要查明情况再定
注意:
1.应尽量避免监控整个页面内容,即:fetchProbeSelector值尽量避免设置为default
因为当每次请求动态页面时,页面上都可能会生成一个随机字符串,这样就导致程序判断每次访问页面都发生了变化。
2.不支持某些动态url(带时间戳参数)的页面