| 接口 | 说明 |
|---|---|
| Command | |
| JobEngine | |
| Process | |
| WorkerStatusOpt |
| 类 | 说明 |
|---|---|
| Chain | |
| ExceptionCatcher |
异常捕捉
|
| Globals |
全局变量:缓存供全局访问的变量
|
| Initializer | |
| Launcher |
Seed加载器:加载每个seed,将seed中url分配给各个worker工作线程
|
| Page |
Page对象
|
| SpiderEngine |
爬虫配置引擎
执行前的准备工作:组建工作流程 |
| UrlQueue |
Url队列
负责爬虫中全部的url处理 |
| Worker |
工作线程
|
| 枚举 | 说明 |
|---|---|
| PageMode |
页面模型
包括四种:list_detail(列表-详情页面格式)、single(单个页面)、cascade(单页面上关联的所有链接)、site整站(不包括外链) 根据页面模型的不同,程序会自动启动不同的抓取器 |
Copyright © 2018. All rights reserved.