| 程序包 | 说明 |
|---|---|
| com.bytegriffin.get4j | |
| com.bytegriffin.get4j.conf | |
| com.bytegriffin.get4j.core | |
| com.bytegriffin.get4j.parse |
| 限定符和类型 | 方法和说明 |
|---|---|
Spider |
Spider.parser(PageParser parser)
自定义页面解析接口,用于Lambda表达式
|
| 限定符和类型 | 方法和说明 |
|---|---|
static Spider |
Spider.annotation(Class<? extends PageParser> clazz)
annotation入口,如果不想一项一项设置Api,也可以写一个annotation
annotation类:ListDetail(列表-详情页面)、Single(单个页面,不抓取页面上链接)、Cascade(单个页面,包括所有链接)、Site(单个站点)
|
Spider |
Spider.parser(Class<? extends PageParser> parser)
自定义页面解析类
|
| 限定符和类型 | 方法和说明 |
|---|---|
PageParser |
Seed.getPageParser() |
| 限定符和类型 | 方法和说明 |
|---|---|
void |
Seed.setPageParser(PageParser pageParser) |
| 限定符和类型 | 字段和说明 |
|---|---|
static Map<String,PageParser> |
Globals.PAGE_PARSER_CACHE
自定义的page_parser解析器缓存
|
| 限定符和类型 | 类和说明 |
|---|---|
class |
CustomPageParser
自定义的解析类(示例,实际开发可以定义适合具体场景的PageParser)
|
class |
ElementPageParser
针对页面中的某一个元素的解析器
这个Parser主要用于长期获取网页上的某个值 而不是一堆值,一堆值需要自己写解析类 默认支持Jsoup的css选择器和正则表达式 |
class |
FreeProxyPageParser
免费代理解析
|
Copyright © 2018. All rights reserved.