| 限定符和类型 | 方法和说明 |
|---|---|
void |
Process.execute(Page page) |
void |
Chain.execute(Page page) |
boolean |
Page.isRequireUpdate(Page dbPage)
是否需要更新数据库中的page数据
注意:每次请求返回的Cookie都不一样,页面内容确实相同,这种情况下是不是可以不需要此方法,直接全部更新呢?
|
boolean |
Page.isRequireUpdateNoEncoding(Page dbPage)
之所以要另开一个方法是因为mongodb不用encode文本内容
|
| 限定符和类型 | 方法和说明 |
|---|---|
void |
DiskDownloader.execute(Page page) |
| 限定符和类型 | 方法和说明 |
|---|---|
HashSet<String> |
FetchResourceSelector.cssSelect(Page page,
String cssQuery)
使用Jsoup自带的css选择器找出html页面中的url资源,支持模糊匹配、正则匹配
[attr^=value]开头匹配value, [attr$=value]结尾匹配value, [attr*=value]包含属性值value,例如:[href*=/path/] [attr~=regex]正则匹配,例如:img[src~=(? |
void |
CascadeFetcher.execute(Page page) |
void |
SingleFetcher.execute(Page page) |
void |
ListDetailFetcher.execute(Page page) |
void |
DynamicFieldFetcher.execute(Page page) |
void |
SiteFetcher.execute(Page page) |
| 限定符和类型 | 方法和说明 |
|---|---|
Page |
HttpEngine.getPageContent(Page page)
设置页面Content、Cookie
|
Page |
SeleniumEngine.getPageContent(Page page)
获取url的内容,与HttpClientProbe的getAndSetContent方法实现完全一致,
只是调用了HtmlUnit的API而已。
|
Page |
OkHttpClientEngine.getPageContent(Page page)
获取并设置page的页面内容(包含Html、Json、Xml)
注意:有些网站会检查header中的Referer是否合法
|
| 限定符和类型 | 方法和说明 |
|---|---|
static UrlAnalyzer |
UrlAnalyzer.custom(Page page)
自定义设置JsoupHelper
|
static DownloadFile |
OkHttpClientEngine.downloadAvatar(Page page,
String folderName)
下载avatar资源文件
|
static List<DownloadFile> |
OkHttpClientEngine.downloadResources(Page page,
String folderName)
下载网页中的资源文件(JS/CSS/JPG等)
|
Page |
HttpEngine.getPageContent(Page page)
设置页面Content、Cookie
|
Page |
SeleniumEngine.getPageContent(Page page)
获取url的内容,与HttpClientProbe的getAndSetContent方法实现完全一致,
只是调用了HtmlUnit的API而已。
|
Page |
OkHttpClientEngine.getPageContent(Page page)
获取并设置page的页面内容(包含Html、Json、Xml)
注意:有些网站会检查header中的Referer是否合法
|
static boolean |
UrlAnalyzer.isAcessListUrl(Page page)
在List_Detail模式下,当前访问的是否为list url
true:是;false:不是 |
String |
HttpEngine.probePageContent(Page page)
探测最新的页面内容
|
String |
SeleniumEngine.probePageContent(Page page) |
String |
OkHttpClientEngine.probePageContent(Page page)
探测页面内容
针对于getPageContent方法有些裁剪 |
static String |
UrlAnalyzer.selectPageContent(Page page,
String select)
获取页面中指定的部分区域内容
与selectPageElement方法的区别就是本方法获取的是带有(Html/XML等)标签的内容
|
static String |
UrlAnalyzer.selectPageText(Page page,
String select)
获取页面中指定的元素
|
| 限定符和类型 | 方法和说明 |
|---|---|
void |
AutoDelegateParser.execute(Page page) |
void |
CustomPageParser.parse(Page page) |
void |
FreeProxyPageParser.parse(Page page) |
void |
ElementPageParser.parse(Page page) |
void |
PageParser.parse(Page page) |
| 限定符和类型 | 方法和说明 |
|---|---|
Page |
DBStorage.readOne(DataSource dataSource,
Page page)
从数据库中读单个Page对象
|
| 限定符和类型 | 方法和说明 |
|---|---|
void |
LuceneIndexStorage.execute(Page page) |
void |
FreeProxyStorage.execute(Page page) |
void |
DBStorage.execute(Page page) |
void |
MongodbStorage.execute(Page page) |
Page |
DBStorage.readOne(DataSource dataSource,
Page page)
从数据库中读单个Page对象
|
| 限定符和类型 | 方法和说明 |
|---|---|
static void |
FileUtil.downloadPagesToDisk(Page page)
在本地磁盘生成页面
|
Copyright © 2018. All rights reserved.