| 类 | 说明 |
|---|---|
| CascadeFetcher |
级联页面抓取器
和SiteFetch不同,它提供单个页面上的所有url都要抓取,不管是不是外链 |
| DynamicFieldFetcher |
自定义动态字段抓取器:为了避免在PageParse接口中写冗长的解析代码,
程序可通过配置动态地对页面上的数据一一解析成结构化字段数据。 |
| FetchResourceSelector |
资源精确选择器 比如过滤图片、js文件等等。。。
|
| ListDetailFetcher |
List-Detail格式的页面抓取器
|
| SingleFetcher |
单个页面抓取器
|
| SiteFetcher |
整站抓取
如果这个站点里有含其它站点的url,那么这些url是不会被抓取的,是被过滤的 并且默认不支持向上抓取,只抓取本层以及以下的站点,采用的是宽度优先遍历 例如抓取的站点是www.aaa.com/bbb/,那么就不会抓取www.aaa.com的内容 |
Copyright © 2018. All rights reserved.