| 程序包 | 说明 |
|---|---|
| com.bytegriffin.get4j.conf | |
| com.bytegriffin.get4j.core | |
| com.bytegriffin.get4j.download | |
| com.bytegriffin.get4j.fetch | |
| com.bytegriffin.get4j.parse | |
| com.bytegriffin.get4j.store |
| 限定符和类型 | 方法和说明 |
|---|---|
Process |
ClusterNode.getHbase() |
Process |
ClusterNode.getHdfs() |
| 限定符和类型 | 方法和说明 |
|---|---|
void |
ClusterNode.setHbase(Process hbase) |
void |
ClusterNode.setHdfs(Process hdfs) |
| 限定符和类型 | 方法和说明 |
|---|---|
SpiderEngine |
SpiderEngine.addHBase(Process hbase)
增加HBase下载流程
|
Chain |
Chain.addProcess(Process p) |
| 限定符和类型 | 类和说明 |
|---|---|
class |
DiskDownloader
磁盘下载器,负责下载页面以及页面上的资源文件,它的功能是避免了开发者在PageParser中手工写下载页面或资源文件的代码。
|
| 限定符和类型 | 类和说明 |
|---|---|
class |
CascadeFetcher
级联页面抓取器
和SiteFetch不同,它提供单个页面上的所有url都要抓取,不管是不是外链 |
class |
DynamicFieldFetcher
自定义动态字段抓取器:为了避免在PageParse接口中写冗长的解析代码,
程序可通过配置动态地对页面上的数据一一解析成结构化字段数据。 |
class |
ListDetailFetcher
List-Detail格式的页面抓取器
|
class |
SingleFetcher
单个页面抓取器
|
class |
SiteFetcher
整站抓取
如果这个站点里有含其它站点的url,那么这些url是不会被抓取的,是被过滤的 并且默认不支持向上抓取,只抓取本层以及以下的站点,采用的是宽度优先遍历 例如抓取的站点是www.aaa.com/bbb/,那么就不会抓取www.aaa.com的内容 |
| 限定符和类型 | 类和说明 |
|---|---|
class |
AutoDelegateParser
代理解析入口:负责代理所有内置以及自定义的解析类
|
| 限定符和类型 | 类和说明 |
|---|---|
class |
DBStorage
关系型数据库存储器
增量式更新数据 |
class |
FreeProxyStorage
免费代理存储器:将免费代理保存到http_proxy文件中
|
class |
LuceneIndexStorage
Lucene索引存储器
|
class |
MongodbStorage
MongoDB 3 数据库存储器
增量式更新数据 |
Copyright © 2018. All rights reserved.