跳过导航链接
A B C D E F G H I J L M N O P Q R S T U V W X Y 

A

AbstractConfig - com.bytegriffin.get4j.conf中的类
配置文件
AbstractConfig() - 类 的构造器com.bytegriffin.get4j.conf.AbstractConfig
 
AbstractHttpEngine - com.bytegriffin.get4j.net.http中的类
HttpEngine共有属性方法
AbstractHttpEngine() - 类 的构造器com.bytegriffin.get4j.net.http.AbstractHttpEngine
 
add(String, DownloadFile) - 类 中的静态方法com.bytegriffin.get4j.download.DownloadFile
先将要下载的大文件地址加入到待下载列表中
add(E) - 类 中的方法com.bytegriffin.get4j.util.ConcurrentQueue
 
add(String, E) - 类 中的方法com.bytegriffin.get4j.util.ConcurrentQueue
 
add(E) - 接口 中的方法com.bytegriffin.get4j.util.Queue
 
add(String, E) - 接口 中的方法com.bytegriffin.get4j.util.Queue
 
addException(String, Throwable) - 类 中的静态方法com.bytegriffin.get4j.core.ExceptionCatcher
增加异常信息 调用入口一
addException(String, String) - 类 中的静态方法com.bytegriffin.get4j.core.ExceptionCatcher
增加异常信息 调用入口二
addException(Throwable) - 类 中的静态方法com.bytegriffin.get4j.core.ExceptionCatcher
增加异常信息 调用入口三
addException(String) - 类 中的静态方法com.bytegriffin.get4j.core.ExceptionCatcher
增加异常信息 调用入口四
addHBase(Process) - 类 中的方法com.bytegriffin.get4j.core.SpiderEngine
增加HBase下载流程
addProcess(Process) - 类 中的方法com.bytegriffin.get4j.core.Chain
 
addResource(String, String) - 类 中的静态方法com.bytegriffin.get4j.net.sync.BatchScheduler
 
addUnVisitedLinks(String, HashSet<String>) - 类 中的静态方法com.bytegriffin.get4j.core.UrlQueue
追加未访问的links队列
首先判断新抓取的link是否在已访问的队列中,
然后判断是否在未抓取的队列中
如果都不在的话则将其加进未访问的队列中
addUrlSchema(String) - 类 中的静态方法com.bytegriffin.get4j.net.http.UrlAnalyzer
格式化Url: www.website.com === http://www.website.com Site设置的Url必须带schema,否则报错
ALL_RESOURCE_FILTER - 类 中的静态变量com.bytegriffin.get4j.fetch.FetchResourceSelector
默认值是all,当内容html时系统会抓取所有的资源文件
annotation(Class<? extends PageParser>) - 类 中的静态方法com.bytegriffin.get4j.Spider
annotation入口,如果不想一项一项设置Api,也可以写一个annotation annotation类:ListDetail(列表-详情页面)、Single(单个页面,不抓取页面上链接)、Cascade(单个页面,包括所有链接)、Site(单个站点)
append(String, Collection<String>) - 类 中的静态方法com.bytegriffin.get4j.util.FileUtil
按行追加内容
AutoDelegateParser - com.bytegriffin.get4j.parse中的类
代理解析入口:负责代理所有内置以及自定义的解析类
AutoDelegateParser() - 类 的构造器com.bytegriffin.get4j.parse.AutoDelegateParser
 

B

batch_count_node - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
batch_time_node - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
BatchScheduler - com.bytegriffin.get4j.net.sync中的类
计划任务:用于按时或按量分批次地同步资源
BatchScheduler(Syncer) - 类 的构造器com.bytegriffin.get4j.net.sync.BatchScheduler
 
begin() - 接口 中的方法com.bytegriffin.get4j.core.Command
 
begin() - 类 中的方法com.bytegriffin.get4j.core.Launcher
正在爬取工作
BINARY_FILTERS - 类 中的静态变量com.bytegriffin.get4j.fetch.FetchResourceSelector
资源文件后缀名
build() - 类 中的方法com.bytegriffin.get4j.core.SpiderEngine
构建爬虫参数

C

Cascade - com.bytegriffin.get4j.annotation中的注释类型
 
cascade() - 类 中的静态方法com.bytegriffin.get4j.Spider
创建针对单页面上(包括所有链接)格式的爬虫
CascadeFetcher - com.bytegriffin.get4j.fetch中的类
级联页面抓取器
和SiteFetch不同,它提供单个页面上的所有url都要抓取,不管是不是外链
CascadeFetcher() - 类 的构造器com.bytegriffin.get4j.fetch.CascadeFetcher
 
Chain - com.bytegriffin.get4j.core中的类
 
Chain() - 类 的构造器com.bytegriffin.get4j.core.Chain
 
CHAIN_CACHE - 类 中的静态变量com.bytegriffin.get4j.core.Globals
全局chain工作流缓存 key:seed_name value: site
choice() - 类 中的方法com.bytegriffin.get4j.net.http.RandomSelector
随机选择一个list中的数据
chromedriver_log - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
 
clear() - 类 中的方法com.bytegriffin.get4j.util.ConcurrentQueue
 
clear(String) - 类 中的方法com.bytegriffin.get4j.util.ConcurrentQueue
 
clear() - 接口 中的方法com.bytegriffin.get4j.util.Queue
 
clear(String) - 接口 中的方法com.bytegriffin.get4j.util.Queue
 
clearExceptions() - 类 中的静态方法com.bytegriffin.get4j.core.ExceptionCatcher
每次抓取完成后都要清空一次异常缓存
clearFailVisitedUrl(String) - 类 中的静态方法com.bytegriffin.get4j.core.UrlQueue
清空已访问失败url队列
clearVisitedLink(String) - 类 中的静态方法com.bytegriffin.get4j.core.UrlQueue
清空已访问link队列
clearVisitedResource(String) - 类 中的静态方法com.bytegriffin.get4j.core.UrlQueue
清空已访问resource队列
closeConnection(OkHttpClient, Request, Response) - 类 中的静态方法com.bytegriffin.get4j.net.http.OkHttpClientEngine
关闭和清理失效链接和过长链接
cluster(ClusterNode) - 类 中的方法com.bytegriffin.get4j.Spider
 
ClusterNode - com.bytegriffin.get4j.conf中的类
cluster-node.xml全局配置文件 一个ClusterNode对应于一组Seed
ClusterNode() - 类 的构造器com.bytegriffin.get4j.conf.ClusterNode
 
ClusterNode(String) - 类 的构造器com.bytegriffin.get4j.conf.ClusterNode
 
com.bytegriffin.get4j - 程序包 com.bytegriffin.get4j
 
com.bytegriffin.get4j.annotation - 程序包 com.bytegriffin.get4j.annotation
 
com.bytegriffin.get4j.conf - 程序包 com.bytegriffin.get4j.conf
 
com.bytegriffin.get4j.core - 程序包 com.bytegriffin.get4j.core
 
com.bytegriffin.get4j.download - 程序包 com.bytegriffin.get4j.download
 
com.bytegriffin.get4j.fetch - 程序包 com.bytegriffin.get4j.fetch
 
com.bytegriffin.get4j.monitor - 程序包 com.bytegriffin.get4j.monitor
 
com.bytegriffin.get4j.net.http - 程序包 com.bytegriffin.get4j.net.http
 
com.bytegriffin.get4j.net.http.interceptor - 程序包 com.bytegriffin.get4j.net.http.interceptor
 
com.bytegriffin.get4j.net.sync - 程序包 com.bytegriffin.get4j.net.sync
 
com.bytegriffin.get4j.parse - 程序包 com.bytegriffin.get4j.parse
 
com.bytegriffin.get4j.probe - 程序包 com.bytegriffin.get4j.probe
 
com.bytegriffin.get4j.send - 程序包 com.bytegriffin.get4j.send
 
com.bytegriffin.get4j.store - 程序包 com.bytegriffin.get4j.store
 
com.bytegriffin.get4j.util - 程序包 com.bytegriffin.get4j.util
 
Command - com.bytegriffin.get4j.core中的接口
 
CommandUtil - com.bytegriffin.get4j.util中的类
 
CommandUtil() - 类 的构造器com.bytegriffin.get4j.util.CommandUtil
 
ConcurrentQueue<E> - com.bytegriffin.get4j.util中的类
 
ConcurrentQueue() - 类 的构造器com.bytegriffin.get4j.util.ConcurrentQueue
 
conf_path - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
Config - com.bytegriffin.get4j.annotation中的注释类型
 
Configuration - com.bytegriffin.get4j.conf中的类
configuration.xml全局配置文件
Configuration() - 类 的构造器com.bytegriffin.get4j.conf.Configuration
 
configuration_node - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
configuration_xml_file - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
ConfigurationXmlHandler - com.bytegriffin.get4j.conf中的类
configuration.xml配置文件处理类
ConfigurationXmlHandler() - 类 的构造器com.bytegriffin.get4j.conf.ConfigurationXmlHandler
 
contains(E) - 类 中的方法com.bytegriffin.get4j.util.ConcurrentQueue
 
contains(String, E) - 类 中的方法com.bytegriffin.get4j.util.ConcurrentQueue
 
contains(E) - 接口 中的方法com.bytegriffin.get4j.util.Queue
 
contains(String, E) - 接口 中的方法com.bytegriffin.get4j.util.Queue
 
Context - com.bytegriffin.get4j.conf中的类
上下文环境
Context(AbstractConfig) - 类 的构造器com.bytegriffin.get4j.conf.Context
 
continues() - 接口 中的方法com.bytegriffin.get4j.core.Command
 
continues() - 接口 中的方法com.bytegriffin.get4j.core.JobEngine
 
continues() - 类 中的方法com.bytegriffin.get4j.core.Launcher
继续工作
convert(String) - 类 中的静态方法com.bytegriffin.get4j.util.MD5Util
将普通页面内容转换成MD5,以便持久化
core_seeds_xml_file - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
core_seeds_xsd_file - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
CoreSeedsXmlHandler - com.bytegriffin.get4j.conf中的类
core-sites.xml配置文件处理类
CoreSeedsXmlHandler() - 类 的构造器com.bytegriffin.get4j.conf.CoreSeedsXmlHandler
 
create() - 类 中的静态方法com.bytegriffin.get4j.core.SpiderEngine
 
create(String, String, String) - 类 中的静态方法com.bytegriffin.get4j.probe.ProbePage
 
cssSelect(Page, String) - 类 中的方法com.bytegriffin.get4j.fetch.FetchResourceSelector
使用Jsoup自带的css选择器找出html页面中的url资源,支持模糊匹配、正则匹配
[attr^=value]开头匹配value, [attr$=value]结尾匹配value, [attr*=value]包含属性值value,例如:[href*=/path/] [attr~=regex]正则匹配,例如:img[src~=(?
custom(Page) - 类 中的静态方法com.bytegriffin.get4j.net.http.UrlAnalyzer
自定义设置JsoupHelper
CustomPageParser - com.bytegriffin.get4j.parse中的类
自定义的解析类(示例,实际开发可以定义适合具体场景的PageParser)
CustomPageParser() - 类 的构造器com.bytegriffin.get4j.parse.CustomPageParser
 

D

DATASOURCE_CACHE - 类 中的静态变量com.bytegriffin.get4j.core.Globals
key : seedName value: datasource
DateUtil - com.bytegriffin.get4j.util中的类
 
DateUtil() - 类 的构造器com.bytegriffin.get4j.util.DateUtil
 
DBStorage - com.bytegriffin.get4j.store中的类
关系型数据库存储器
增量式更新数据
DBStorage() - 类 的构造器com.bytegriffin.get4j.store.DBStorage
 
decodeUrl(String, String) - 类 中的方法com.bytegriffin.get4j.net.http.AbstractHttpEngine
已过时。
default_value - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
默认:比如下载目录为default时指的是/data/download/${seedname}目录下
DefaultConfig - com.bytegriffin.get4j.conf中的类
默认配置常量:负责系统中所有的默认配置参数
DefaultConfig() - 类 的构造器com.bytegriffin.get4j.conf.DefaultConfig
 
defaultDownloadDisk() - 类 中的方法com.bytegriffin.get4j.Spider
默认的下载本地路径 默认地址:$path/data/download/${seedname}
defaultLucene() - 类 中的方法com.bytegriffin.get4j.Spider
将解析结果索引保存到本系统/data/index目录下
defaultProbe() - 类 中的方法com.bytegriffin.get4j.Spider
设置页面变化探测器,用于探测抓取页面的变化,如果有变化就立刻抓取,没有变化则继续探测。
defaultProxy() - 类 中的方法com.bytegriffin.get4j.Spider
加载系统自带的http_proxy文件 注意:调用此方法之前请确保conf/http_proxy文件中有可用代理
defaultUserAgent() - 类 中的方法com.bytegriffin.get4j.Spider
默认加载系统自带的UserAgent
deleteFile(String) - 类 中的静态方法com.bytegriffin.get4j.util.FileUtil
递归删除文件夹以及下面所有的文件
deserialize(byte[]) - 类 中的静态方法com.bytegriffin.get4j.probe.ProbeFileStorage
反序列化 byte[] === ProbePage
destory() - 接口 中的方法com.bytegriffin.get4j.core.Command
 
destory(String) - 接口 中的方法com.bytegriffin.get4j.core.JobEngine
 
destory() - 类 中的方法com.bytegriffin.get4j.core.Launcher
销毁工作
detailSelector(String) - 类 中的方法com.bytegriffin.get4j.Spider
抓取的详情页面链接选择器
非必填项,当抓取的页面格式属于【列表-详情】页时使用,支持Jsoup原生的选择器(html内容)或Jsonpath(json内容)。
dir_node - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
DiskDownloader - com.bytegriffin.get4j.download中的类
磁盘下载器,负责下载页面以及页面上的资源文件,它的功能是避免了开发者在PageParser中手工写下载页面或资源文件的代码。
DiskDownloader() - 类 的构造器com.bytegriffin.get4j.download.DiskDownloader
 
download_disk - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
DOWNLOAD_DISK_DIR_CACHE - 类 中的静态变量com.bytegriffin.get4j.core.Globals
全局download dir缓存 key:seed_name value: download dir
download_file_url_naming - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
是否将下载后的文件保留其url前缀
false:表示自动补全文件名称
true:表示用url补全文件名称
download_filename_rule - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
download_hdfs - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
DOWNLOAD_HDFS_DIR_CACHE - 类 中的静态变量com.bytegriffin.get4j.core.Globals
key:seed_name value: hdfs://address:port/seedname/
downloadAvatar(Page, String) - 类 中的静态方法com.bytegriffin.get4j.net.http.OkHttpClientEngine
下载avatar资源文件
downloadBigFile(String) - 类 中的静态方法com.bytegriffin.get4j.download.DownloadFile
下载大文件
downloadBigFile(String, String, long) - 类 中的静态方法com.bytegriffin.get4j.net.http.OkHttpClientEngine
下载大文件,默认设置超过10M大小的文件算是大文件 文件太大会抛异常,所以特此添加一个下载大文件的方法
downloadDisk(String) - 类 中的方法com.bytegriffin.get4j.Spider
下载本地根路径,默认地址为$path/data/download/ 子目录是${seedName},用来表示每个seed对应不同的下载子目录
DownloadFile - com.bytegriffin.get4j.download中的类
 
DownloadFile() - 类 的构造器com.bytegriffin.get4j.download.DownloadFile
 
downloadFilenameRule(boolean) - 类 中的方法com.bytegriffin.get4j.Spider
下载文件命名规则,一般为default或url两种类型 url表示文件名中包含url,default表示不包含
downloadHdfs(String) - 类 中的方法com.bytegriffin.get4j.Spider
下载到hdfs路径
downloadPagesToDisk(Page) - 类 中的静态方法com.bytegriffin.get4j.util.FileUtil
在本地磁盘生成页面
downloadResources(Page, String) - 类 中的静态方法com.bytegriffin.get4j.net.http.OkHttpClientEngine
下载网页中的资源文件(JS/CSS/JPG等)
dump() - 类 中的静态方法com.bytegriffin.get4j.store.FailUrlStorage
负责爬虫爬取完成一次后将全部链接一次性地dump出来
DYNAMIC_FIELDS_CACHE - 类 中的静态变量com.bytegriffin.get4j.core.Globals
key:seedName value:field_map (key: name value: selector)
dynamic_fields_xml_file - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
dynamic_fields_xsd_file - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
DynamicField - com.bytegriffin.get4j.conf中的类
 
DynamicField() - 类 的构造器com.bytegriffin.get4j.conf.DynamicField
 
DynamicFieldFetcher - com.bytegriffin.get4j.fetch中的类
自定义动态字段抓取器:为了避免在PageParse接口中写冗长的解析代码,
程序可通过配置动态地对页面上的数据一一解析成结构化字段数据。
DynamicFieldFetcher() - 类 的构造器com.bytegriffin.get4j.fetch.DynamicFieldFetcher
 
DynamicFieldXmlHandler - com.bytegriffin.get4j.conf中的类
解析dynamic-fields.xml配置文件
DynamicFieldXmlHandler() - 类 的构造器com.bytegriffin.get4j.conf.DynamicFieldXmlHandler
 

E

ElementPageParser - com.bytegriffin.get4j.parse中的类
针对页面中的某一个元素的解析器
这个Parser主要用于长期获取网页上的某个值
而不是一堆值,一堆值需要自己写解析类
默认支持Jsoup的css选择器和正则表达式
elementSelectParser(String) - 类 中的方法com.bytegriffin.get4j.Spider
单个页面元素解析内部类,设置了此项就不能设置自定义的解析类了
email(String...) - 类 中的方法com.bytegriffin.get4j.Spider
当系统发生异常,可将相关信息发送给指定接收人
email_recipient - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
email_recipient_split - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
多个email接收者之间的分隔符
emailSender - 类 中的静态变量com.bytegriffin.get4j.core.Globals
全局Email发送器,如果配置了email.recipient就表示当系统出现异常发送邮件提醒
EmailSender - com.bytegriffin.get4j.send中的类
邮件发送器:当系统出现异常会将相关信息发送给指定接收人
为了避免反复发送相同内容的邮件和频繁启动线程,强制将相同错误的邮件仅发送一次。
EmailSender(String) - 类 的构造器com.bytegriffin.get4j.send.EmailSender
 
equals(Object) - 类 中的方法com.bytegriffin.get4j.core.Page
保证同一个SeedName下detailPages的唯一性
equals(Object) - 类 中的方法com.bytegriffin.get4j.net.http.HttpProxy
 
ExceptionCatcher - com.bytegriffin.get4j.core中的类
异常捕捉
ExceptionCatcher() - 类 的构造器com.bytegriffin.get4j.core.ExceptionCatcher
 
execute(Page) - 类 中的方法com.bytegriffin.get4j.core.Chain
 
execute(Page) - 接口 中的方法com.bytegriffin.get4j.core.Process
 
execute(Page) - 类 中的方法com.bytegriffin.get4j.download.DiskDownloader
 
execute(Page) - 类 中的方法com.bytegriffin.get4j.fetch.CascadeFetcher
 
execute(Page) - 类 中的方法com.bytegriffin.get4j.fetch.DynamicFieldFetcher
 
execute(Page) - 类 中的方法com.bytegriffin.get4j.fetch.ListDetailFetcher
 
execute(Page) - 类 中的方法com.bytegriffin.get4j.fetch.SingleFetcher
 
execute(Page) - 类 中的方法com.bytegriffin.get4j.fetch.SiteFetcher
 
execute(Page) - 类 中的方法com.bytegriffin.get4j.parse.AutoDelegateParser
 
execute(Page) - 类 中的方法com.bytegriffin.get4j.store.DBStorage
 
execute(Page) - 类 中的方法com.bytegriffin.get4j.store.FreeProxyStorage
 
execute(Page) - 类 中的方法com.bytegriffin.get4j.store.LuceneIndexStorage
 
execute(Page) - 类 中的方法com.bytegriffin.get4j.store.MongodbStorage
 
executeShell(String) - 类 中的静态方法com.bytegriffin.get4j.util.CommandUtil
 

F

fail_url_file - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
默认 fail url 坏链存储文件
FailUrlStorage - com.bytegriffin.get4j.store中的类
坏链存储器
负责爬虫在爬取过程中访问不了或者根本不是链接的坏链存储在本地文件中
FailUrlStorage() - 类 的构造器com.bytegriffin.get4j.store.FailUrlStorage
 
fetch_detail_json_html_split - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
当fetch.detail.selector选择Json属性中内容是Html,并且Html中包含detail Link时, 这种特殊情况需要配置时先写Jsonpath再写Jsoup选择器字符串,中间用竖杠隔开,例如: $.data.
fetch_detail_json_prefix - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
当fetch.detail.selector选择html的detail Link是json链接,这种特殊情况需要配置时先写 再用Jsonpath选择器字符串,不采用中间用符号隔开,因为selector和url中本来就有很多标识符 但是可以采用左右小括号来显示着不混乱。
fetch_detail_json_suffix - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
 
FETCH_DETAIL_SELECT_CACHE - 类 中的静态变量com.bytegriffin.get4j.core.Globals
LIST_DETAIL模式下的详情页面url选择
fetch_detail_selector - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
fetch_http_method - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
fetch_http_proxy - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
fetch_http_user_agent - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
fetch_javascript_support - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
fetch_javascript_support - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
默认 不支持javascript
fetch_list_url_left - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
默认 list url的左边字符串部分
fetch_list_url_right - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
默认 list url的右边可变字符串部分
fetch_login_password - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
fetch_login_username - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
fetch_page_mode - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
FETCH_PAGE_MODE_CACHE - 类 中的静态变量com.bytegriffin.get4j.core.Globals
全局PageMode缓存 key:seed_name value: PageMode
FETCH_PROBE_CACHE - 类 中的静态变量com.bytegriffin.get4j.core.Globals
抓取页面变化探测器缓存 key:seed_name value: PageChangeProber
fetch_probe_selector - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
fetch_probe_sleep - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
fetch_resource_selector - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
FETCH_RESOURCE_SELECTOR_CACHE - 类 中的静态变量com.bytegriffin.get4j.core.Globals
全局FetchFilter缓存 key:seed_name value: FetchResourceUrl
fetch_resource_split - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
当fetch.resource.selector和fetch.resource.filter有多个值的时候之间用逗号隔开
fetch_sleep - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
fetch_sleep - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
默认 抓取延迟为0秒
FETCH_SLEEP_CACHE - 类 中的静态变量com.bytegriffin.get4j.core.Globals
全局http请求间隔缓存 key:seed_name value: fetch.sleep
fetch_sleep_range - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
FETCH_SLEEP_RANGE_CACHE - 类 中的静态变量com.bytegriffin.get4j.core.Globals
全局sleep_selector缓存 key:seed_name value: SleepRangeSelector
fetch_timer_interval - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
fetch_timer_start - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
fetch_total_pages - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
fetch_total_pages - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
默认 抓取延迟为0秒
fetch_url - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
FetchResourceSelector - com.bytegriffin.get4j.fetch中的类
资源精确选择器 比如过滤图片、js文件等等。。。
FetchResourceSelector() - 类 的构造器com.bytegriffin.get4j.fetch.FetchResourceSelector
 
fetchUrl(String) - 类 中的方法com.bytegriffin.get4j.Spider
设置抓取url
必填项。
Field - com.bytegriffin.get4j.annotation中的注释类型
 
field(String, String) - 类 中的方法com.bytegriffin.get4j.Spider
设置一个动态字段
field_node - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
fields(Map<String, String>) - 类 中的方法com.bytegriffin.get4j.Spider
设置多个动态字段
fields_node - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
xml node
FileUtil - com.bytegriffin.get4j.util中的类
文件工具类
FileUtil() - 类 的构造器com.bytegriffin.get4j.util.FileUtil
 
filterUrlPound(String) - 类 中的静态方法com.bytegriffin.get4j.net.http.UrlAnalyzer
过滤url链接后面的# www.aaa.com## === www.aaa.com
formatListDetailUrl(String) - 类 中的静态方法com.bytegriffin.get4j.net.http.UrlAnalyzer
格式化list_detail模式下的url
http://www.aa.com/list?
formatProxy(String) - 类 中的静态方法com.bytegriffin.get4j.util.FileUtil
将Proxy字符串解析成代理对象
FreeProxyPageParser - com.bytegriffin.get4j.parse中的类
免费代理解析
FreeProxyPageParser() - 类 的构造器com.bytegriffin.get4j.parse.FreeProxyPageParser
 
FreeProxyStorage - com.bytegriffin.get4j.store中的类
免费代理存储器:将免费代理保存到http_proxy文件中
FreeProxyStorage() - 类 的构造器com.bytegriffin.get4j.store.FreeProxyStorage
 
ftp(String, int, String, String) - 类 中的方法com.bytegriffin.get4j.Spider
设置ftp为资源同步方式
ftp_node - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
yaml node
FtpSyncer - com.bytegriffin.get4j.net.sync中的类
Ftp同步器:用于同步下载的资源文件到FTP服务器上,比如:avatar文件同步到图片服务器 注意:远程的dir目录就是SeedName
FtpSyncer(String, String, String, String) - 类 的构造器com.bytegriffin.get4j.net.sync.FtpSyncer
 

G

generatePageFileName(String, String) - 类 中的静态方法com.bytegriffin.get4j.util.FileUtil
下载的网页文件名规则
此规则是在生成文件名时将url进行编码,然后去除其中的一些操作系统
不支持的特殊字符:尖括号、斜杠、竖杠、分号、星号、问号,否则生成的文件名会出错
默认生成的文件名是带url的,如果不想带可以将其过滤掉会更简洁,但是
人为发现不了某个资源(js或css等)文件是属于哪个(php或jsp)页面的
generateResourceName(String, String) - 类 中的静态方法com.bytegriffin.get4j.util.FileUtil
下载的资源命名规则:与页面命名类似,不同的是url后跟的参数全部删除掉, 因为大多数页面都是动态,后面加上参数会代表不同的页面,而资源文件则不同,根本不需要 注意:有些资源文件是一个页面经过跳转后的资源文件,比如www.aa.com/cc.php===www.aa.com/img.jpg
generateSeedName(String) - 类 中的静态方法com.bytegriffin.get4j.util.MD5Util
8位短uuid 只要salt一样,那么每次生成的值也一样
generateSeedName() - 类 中的静态方法com.bytegriffin.get4j.util.MD5Util
8位短uuid 每次生成的值不一样
get(int) - 类 中的方法com.bytegriffin.get4j.util.ConcurrentQueue
 
get(String, int) - 类 中的方法com.bytegriffin.get4j.util.ConcurrentQueue
 
get(int) - 接口 中的方法com.bytegriffin.get4j.util.Queue
 
get(String, int) - 接口 中的方法com.bytegriffin.get4j.util.Queue
 
getAbsoluteURL(String, String) - 类 中的方法com.bytegriffin.get4j.net.http.UrlAnalyzer
相对路径转换为绝对路径
getAll() - 类 中的方法com.bytegriffin.get4j.util.ConcurrentQueue
 
getAll(String) - 类 中的方法com.bytegriffin.get4j.util.ConcurrentQueue
 
getAll() - 接口 中的方法com.bytegriffin.get4j.util.Queue
 
getAll(String) - 接口 中的方法com.bytegriffin.get4j.util.Queue
 
getAllException() - 类 中的静态方法com.bytegriffin.get4j.monitor.HealthChecker
 
getAllExceptions() - 类 中的静态方法com.bytegriffin.get4j.core.ExceptionCatcher
 
getAllUrlByElement(Elements) - 类 中的方法com.bytegriffin.get4j.net.http.UrlAnalyzer
获取某个元素包含的所有url
注意:有的链接是以data开头的小资源文件不支持抓取(即:二进制数据转换成为Base64的资源文件,直接在页面上引用) 例如文字格式:data:text/plain;charset=UTF-8;base64,5L2g5aW977yM5Lit5paH77yB 图片格式:data:image/gif;base64,R0lGODlhAQAcALMAAMXh96HR97XZ98
getAvatar() - 类 中的方法com.bytegriffin.get4j.core.Page
 
getCharset() - 类 中的方法com.bytegriffin.get4j.core.Page
 
getCondition() - 类 中的方法com.bytegriffin.get4j.core.Launcher
 
getContent() - 类 中的方法com.bytegriffin.get4j.core.Page
 
getContent() - 类 中的方法com.bytegriffin.get4j.download.DownloadFile
 
getContent() - 类 中的方法com.bytegriffin.get4j.probe.ProbePage
 
getContentLength() - 类 中的方法com.bytegriffin.get4j.download.DownloadFile
 
getCostDate(String) - 类 中的静态方法com.bytegriffin.get4j.util.DateUtil
时间开销
getCostTime() - 类 中的方法com.bytegriffin.get4j.monitor.HealthStatus
 
getCostTime() - 接口 中的方法com.bytegriffin.get4j.monitor.HealthStatusMXBean
 
getCurrentDate() - 类 中的静态方法com.bytegriffin.get4j.util.DateUtil
当前时间
getDeadLockThreads() - 类 中的方法com.bytegriffin.get4j.monitor.HealthChecker
 
getDetailLinks() - 类 中的方法com.bytegriffin.get4j.core.Page
 
getDir() - 类 中的方法com.bytegriffin.get4j.net.sync.ScpSyncer
 
getDownloadDisk(String) - 类 中的静态方法com.bytegriffin.get4j.conf.DefaultConfig
获取相应种子的磁盘下载地址
getDownloadDisk() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getDownloadFileNameRule() - 类 中的方法com.bytegriffin.get4j.conf.Configuration
 
getDownloadHdfs() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getEmailRecipient() - 类 中的方法com.bytegriffin.get4j.conf.Configuration
 
getExceptions(String) - 类 中的静态方法com.bytegriffin.get4j.core.ExceptionCatcher
 
getExceptions() - 类 中的方法com.bytegriffin.get4j.monitor.HealthStatus
 
getExceptions() - 接口 中的方法com.bytegriffin.get4j.monitor.HealthStatusMXBean
 
getExtractClassImpl() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getFailedUrlCount() - 类 中的方法com.bytegriffin.get4j.monitor.HealthStatus
 
getFailedUrlCount() - 接口 中的方法com.bytegriffin.get4j.monitor.HealthStatusMXBean
 
getFailVisitedUrl(String) - 类 中的静态方法com.bytegriffin.get4j.core.UrlQueue
获取已访问失败的url队列
getFailVisitedUrlCount(String) - 类 中的静态方法com.bytegriffin.get4j.core.UrlQueue
 
getFetchCookies() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getFetchDetailSelector() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getFetchHttpMethod() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getFetchHttpProxy() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getFetchInterval() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getFetchPassword() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getFetchProbeSelector() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getFetchProbeSleep() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getFetchResourceSelectors() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getFetchSleep() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getFetchSleepRange() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getFetchStart() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getFetchTime() - 类 中的方法com.bytegriffin.get4j.core.Page
 
getFetchTotalPages() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getFetchUrl() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getFetchUserAgent() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getFetchUsername() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getField(String) - 类 中的方法com.bytegriffin.get4j.core.Page
 
getFields() - 类 中的方法com.bytegriffin.get4j.conf.DynamicField
 
getFields() - 类 中的方法com.bytegriffin.get4j.core.Page
 
getFileName() - 类 中的方法com.bytegriffin.get4j.download.DownloadFile
 
getFirst(String) - 类 中的静态方法com.bytegriffin.get4j.core.UrlQueue
获取头元素
getFtp() - 类 中的方法com.bytegriffin.get4j.conf.ResourceSync
 
getHbase() - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
 
getHdfs() - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
 
getHeapMemory() - 类 中的方法com.bytegriffin.get4j.monitor.HealthChecker
 
getHost() - 类 中的方法com.bytegriffin.get4j.core.Page
 
getHost() - 类 中的方法com.bytegriffin.get4j.net.sync.ScpSyncer
 
getHtmlContent() - 类 中的方法com.bytegriffin.get4j.core.Page
 
getId() - 类 中的方法com.bytegriffin.get4j.core.Page
 
getInitializers() - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
 
getIp() - 类 中的方法com.bytegriffin.get4j.net.http.HttpProxy
 
getJsonContent() - 类 中的方法com.bytegriffin.get4j.core.Page
 
getLuceneIndexPath(String) - 类 中的静态方法com.bytegriffin.get4j.conf.DefaultConfig
获取相应种子的lucene index地址
getMethod() - 类 中的方法com.bytegriffin.get4j.core.Page
 
getNodeName() - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
 
getNonHeapMemory() - 类 中的方法com.bytegriffin.get4j.monitor.HealthChecker
 
getOS() - 类 中的方法com.bytegriffin.get4j.monitor.HealthChecker
 
getPageContent(Page) - 接口 中的方法com.bytegriffin.get4j.net.http.HttpEngine
设置页面Content、Cookie
getPageContent(Page) - 类 中的方法com.bytegriffin.get4j.net.http.OkHttpClientEngine
获取并设置page的页面内容(包含Html、Json、Xml) 注意:有些网站会检查header中的Referer是否合法
getPageContent(Page) - 类 中的方法com.bytegriffin.get4j.net.http.SeleniumEngine
获取url的内容,与HttpClientProbe的getAndSetContent方法实现完全一致, 只是调用了HtmlUnit的API而已。
getPageMode() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getPageParser() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getParams() - 类 中的方法com.bytegriffin.get4j.core.Page
 
getParseClassImpl() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getParseElementSelector() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getPassword() - 类 中的方法com.bytegriffin.get4j.net.http.HttpProxy
 
getPort() - 类 中的方法com.bytegriffin.get4j.net.http.HttpProxy
 
getPort() - 类 中的方法com.bytegriffin.get4j.net.sync.ScpSyncer
 
getProbeMasterChecker() - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
 
getProxy() - 类 中的方法com.bytegriffin.get4j.net.http.HttpProxy
 
getProxyAuthenticator() - 类 中的方法com.bytegriffin.get4j.net.http.HttpProxy
 
getQueue() - 类 中的方法com.bytegriffin.get4j.net.http.HttpProxySelector
 
getQueue() - 类 中的方法com.bytegriffin.get4j.net.http.RandomSelector
 
getQueue() - 类 中的方法com.bytegriffin.get4j.net.http.SleepRandomSelector
 
getQueue() - 类 中的方法com.bytegriffin.get4j.net.http.UserAgentSelector
 
getQueue(String) - 类 中的方法com.bytegriffin.get4j.util.ConcurrentQueue
 
getQueue(String) - 接口 中的方法com.bytegriffin.get4j.util.Queue
 
getRedisAddress() - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
 
getRedisAuth() - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
 
getRedisMode() - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
 
getResources() - 类 中的方法com.bytegriffin.get4j.core.Page
 
getResourceSavePath() - 类 中的方法com.bytegriffin.get4j.core.Page
 
getRsync() - 类 中的方法com.bytegriffin.get4j.conf.ResourceSync
 
getScp() - 类 中的方法com.bytegriffin.get4j.conf.ResourceSync
 
getSeedName() - 类 中的方法com.bytegriffin.get4j.conf.DynamicField
 
getSeedName() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getSeedName() - 类 中的方法com.bytegriffin.get4j.core.Page
 
getSeedName() - 类 中的方法com.bytegriffin.get4j.download.DownloadFile
 
getSelectors() - 类 中的方法com.bytegriffin.get4j.fetch.FetchResourceSelector
 
getSetCookies() - 类 中的方法com.bytegriffin.get4j.core.Page
 
getSpiderStatus() - 类 中的方法com.bytegriffin.get4j.monitor.HealthStatus
 
getSpiderStatus() - 接口 中的方法com.bytegriffin.get4j.monitor.HealthStatusMXBean
 
getStackTrace(Throwable) - 类 中的静态方法com.bytegriffin.get4j.core.ExceptionCatcher
获取完整的堆栈信息
getStatus() - 类 中的方法com.bytegriffin.get4j.probe.ProbePage
 
getStoreFreeProxy() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getStoreHBase() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getStoreJdbc() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getStoreLuceneIndex() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getStoreMongodb() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getSync() - 类 中的方法com.bytegriffin.get4j.conf.ResourceSync
 
getSystemAbsolutePath(String) - 类 中的静态方法com.bytegriffin.get4j.util.FileUtil
获取系统绝对路径
将配置文件转换为爬虫系统的绝对路径,将classpath:/conf/user_agent转换成/opt/work/xxx/conf/user_agent
getThreadCount() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
getThreads() - 类 中的方法com.bytegriffin.get4j.monitor.HealthChecker
 
getTitle() - 类 中的方法com.bytegriffin.get4j.core.Page
 
getTitle(String) - 类 中的静态方法com.bytegriffin.get4j.net.http.UrlAnalyzer
获取html中的title属性
getUnVisitedLink(String) - 类 中的静态方法com.bytegriffin.get4j.core.UrlQueue
获取未访问link队列
getUnVisitedResource(String) - 类 中的静态方法com.bytegriffin.get4j.core.UrlQueue
获取未访问resource队列
getUnVisitedUrlCount(String) - 类 中的静态方法com.bytegriffin.get4j.core.UrlQueue
 
getUnVisitUrlCount() - 类 中的方法com.bytegriffin.get4j.monitor.HealthStatus
 
getUnVisitUrlCount() - 接口 中的方法com.bytegriffin.get4j.monitor.HealthStatusMXBean
 
getUrl() - 类 中的方法com.bytegriffin.get4j.core.Page
 
getUrl() - 类 中的方法com.bytegriffin.get4j.download.DownloadFile
 
getUrl() - 类 中的方法com.bytegriffin.get4j.probe.ProbePage
 
getUsername() - 类 中的方法com.bytegriffin.get4j.net.http.HttpProxy
 
getUsername() - 类 中的方法com.bytegriffin.get4j.net.sync.ScpSyncer
 
getValue() - 枚举 中的方法com.bytegriffin.get4j.core.PageMode
 
getVisitedLink(String) - 类 中的静态方法com.bytegriffin.get4j.core.UrlQueue
获取已访问link队列
getVisitedResource(String) - 类 中的静态方法com.bytegriffin.get4j.core.UrlQueue
获取已访问resource队列
getVisitedUrlCount(String) - 类 中的静态方法com.bytegriffin.get4j.core.UrlQueue
 
getVisitedUrlCount() - 类 中的方法com.bytegriffin.get4j.monitor.HealthStatus
 
getVisitedUrlCount() - 接口 中的方法com.bytegriffin.get4j.monitor.HealthStatusMXBean
 
getWorkerStatusOpt() - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
 
getXmlContent() - 类 中的方法com.bytegriffin.get4j.core.Page
 
getZookeeperAddress() - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
 
Globals - com.bytegriffin.get4j.core中的类
全局变量:缓存供全局访问的变量
Globals() - 类 的构造器com.bytegriffin.get4j.core.Globals
 
GzipInterceptor - com.bytegriffin.get4j.net.http.interceptor中的类
 
GzipInterceptor() - 类 的构造器com.bytegriffin.get4j.net.http.interceptor.GzipInterceptor
 

H

hashCode() - 类 中的方法com.bytegriffin.get4j.core.Page
保证同一个SeedName下detailPages的唯一性
hashCode() - 类 中的方法com.bytegriffin.get4j.net.http.HttpProxy
 
hbase(String) - 类 中的方法com.bytegriffin.get4j.Spider
将解析结构保存到hbase数据库中
HealthChecker - com.bytegriffin.get4j.monitor中的类
系统健康检查入口
HealthChecker() - 类 的构造器com.bytegriffin.get4j.monitor.HealthChecker
 
HealthStatus - com.bytegriffin.get4j.monitor中的类
健康状态:可用jconsole查询
HealthStatus(String) - 类 的构造器com.bytegriffin.get4j.monitor.HealthStatus
 
HealthStatusMXBean - com.bytegriffin.get4j.monitor中的接口
 
home_page_name - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
默认home page名称
host_node - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
html_page_suffix - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
默认ContentType页面格式
HTTP_ENGINE_CACHE - 类 中的静态变量com.bytegriffin.get4j.core.Globals
全局Http探针缓存 key:seed_name value: HttpEngine
http_header_accept - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
 
http_proxy - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
默认 http proxy 配置文件
HTTP_PROXY_CACHE - 类 中的静态变量com.bytegriffin.get4j.core.Globals
全局http_proxy缓存 key:seed_name value: HttpProxySelector
HttpEngine - com.bytegriffin.get4j.net.http中的接口
Http引擎
目前有两种:OKHttpClient 和 Selenium
HttpProxy - com.bytegriffin.get4j.net.http中的类
Http代理
HttpProxy(String) - 类 的构造器com.bytegriffin.get4j.net.http.HttpProxy
默认端口号为80
HttpProxy(String, Integer) - 类 的构造器com.bytegriffin.get4j.net.http.HttpProxy
 
HttpProxy(String, Integer, String, String) - 类 的构造器com.bytegriffin.get4j.net.http.HttpProxy
 
HttpProxySelector - com.bytegriffin.get4j.net.http中的类
随机获取Http Proxy,更好地模拟人为操作
HttpProxySelector() - 类 的构造器com.bytegriffin.get4j.net.http.HttpProxySelector
 

I

idle() - 接口 中的方法com.bytegriffin.get4j.core.Command
 
idle() - 类 中的方法com.bytegriffin.get4j.core.Launcher
设置为闲置状态:未开始或已爬取完成
INDEX_WRITER_CACHE - 类 中的静态变量com.bytegriffin.get4j.core.Globals
key : seedName value: IndexWriter
init() - 类 中的方法com.bytegriffin.get4j.core.Initializer
 
init(Seed) - 接口 中的方法com.bytegriffin.get4j.core.Process
 
init(Seed) - 类 中的方法com.bytegriffin.get4j.download.DiskDownloader
 
init(Seed) - 类 中的方法com.bytegriffin.get4j.fetch.CascadeFetcher
 
init(Seed) - 类 中的方法com.bytegriffin.get4j.fetch.DynamicFieldFetcher
 
init(Seed) - 类 中的静态方法com.bytegriffin.get4j.fetch.FetchResourceSelector
初始化资源选择器缓存
init(Seed) - 类 中的方法com.bytegriffin.get4j.fetch.ListDetailFetcher
 
init(Seed) - 类 中的方法com.bytegriffin.get4j.fetch.SingleFetcher
初始化抓取过滤器
init(Seed) - 类 中的方法com.bytegriffin.get4j.fetch.SiteFetcher
 
init(Seed) - 接口 中的方法com.bytegriffin.get4j.net.http.HttpEngine
初始化Http引擎配置
init(Seed) - 类 中的方法com.bytegriffin.get4j.net.http.OkHttpClientEngine
 
init(Seed) - 类 中的方法com.bytegriffin.get4j.net.http.SeleniumEngine
 
init(Seed) - 类 中的方法com.bytegriffin.get4j.parse.AutoDelegateParser
 
init(Seed) - 类 中的方法com.bytegriffin.get4j.probe.PageChangeProber
 
init(String) - 类 中的方法com.bytegriffin.get4j.send.EmailSender
 
init(Seed) - 类 中的方法com.bytegriffin.get4j.store.DBStorage
 
init() - 类 中的方法com.bytegriffin.get4j.store.FailUrlStorage
 
init(Seed) - 类 中的方法com.bytegriffin.get4j.store.FreeProxyStorage
 
init(Seed) - 类 中的方法com.bytegriffin.get4j.store.LuceneIndexStorage
 
init(Seed) - 类 中的方法com.bytegriffin.get4j.store.MongodbStorage
 
initFreeProxy() - 类 中的静态方法com.bytegriffin.get4j.Spider
获取互联网上免费代理
并自动将可用的代理保存到本地http_proxy文件中
此方法一般在启动爬虫之前使用,下次在启动爬虫需要代理时,
可以直接调用defaultProxy方法即可
Initializer - com.bytegriffin.get4j.core中的类
 
Initializer() - 类 的构造器com.bytegriffin.get4j.core.Initializer
 
intercept(Interceptor.Chain) - 类 中的方法com.bytegriffin.get4j.net.http.interceptor.GzipInterceptor
 
intercept(Interceptor.Chain) - 类 中的方法com.bytegriffin.get4j.net.http.interceptor.LoggingInterceptor
 
intercept(Interceptor.Chain) - 类 中的方法com.bytegriffin.get4j.net.http.interceptor.RedirectInterceptor
 
intercept(Interceptor.Chain) - 类 中的方法com.bytegriffin.get4j.net.http.interceptor.RetryInterceptor
 
isAcessListUrl(Page) - 类 中的静态方法com.bytegriffin.get4j.net.http.UrlAnalyzer
在List_Detail模式下,当前访问的是否为list url
true:是;false:不是
isActive(String) - 接口 中的方法com.bytegriffin.get4j.probe.ProbeMasterChecker
是否处于Active状态
isConfigAll() - 类 中的方法com.bytegriffin.get4j.fetch.FetchResourceSelector
是否配置了抓取所有的资源文件,默认值不填也是all
isConfigNone() - 类 中的方法com.bytegriffin.get4j.fetch.FetchResourceSelector
是否屏蔽(过滤)了所有的资源文件
isEmpty() - 类 中的方法com.bytegriffin.get4j.util.ConcurrentQueue
 
isEmpty(String) - 类 中的方法com.bytegriffin.get4j.util.ConcurrentQueue
 
isEmpty() - 接口 中的方法com.bytegriffin.get4j.util.Queue
 
isEmpty(String) - 接口 中的方法com.bytegriffin.get4j.util.Queue
 
isEmptyUnVisitedLinks(String) - 类 中的静态方法com.bytegriffin.get4j.core.UrlQueue
判断未访问链接是否为空
isExist(String) - 类 中的静态方法com.bytegriffin.get4j.download.DownloadFile
是否有大文件需要下载
isExistContont(String) - 类 中的静态方法com.bytegriffin.get4j.util.FileUtil
判断文件是否为空,是否有内容
isExistsDiskFile(String, long) - 类 中的静态方法com.bytegriffin.get4j.util.FileUtil
判断文件是否已经存在磁盘上,有的话就无需下载
isFetchJavascriptSupport() - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
isFindResources(String) - 类 中的静态方法com.bytegriffin.get4j.fetch.FetchResourceSelector
判断过滤某url是否是资源文件 如果发现就是true,否则是false
isFindSuffix(String, String) - 类 中的方法com.bytegriffin.get4j.fetch.FetchResourceSelector
已过时。
isHtmlContent() - 类 中的方法com.bytegriffin.get4j.core.Page
页面内容是否为Html格式
isJsonContent() - 类 中的方法com.bytegriffin.get4j.core.Page
页面内容是否为Json格式
isListDetailMode() - 类 中的方法com.bytegriffin.get4j.conf.Seed
当用户没有设置PageMode时候 程序也可以判断当前是否是list_detail模式 即:detailSelector方法不为空就说明有详情页要抓取
isListPage() - 类 中的方法com.bytegriffin.get4j.core.Page
 
isNumeric(String) - 类 中的静态方法com.bytegriffin.get4j.util.StringUtil
是否是数字
isPost() - 类 中的方法com.bytegriffin.get4j.core.Page
是否是post方法
isRequireUpdate(Page) - 类 中的方法com.bytegriffin.get4j.core.Page
是否需要更新数据库中的page数据 注意:每次请求返回的Cookie都不一样,页面内容确实相同,这种情况下是不是可以不需要此方法,直接全部更新呢?
isRequireUpdateNoEncoding(Page) - 类 中的方法com.bytegriffin.get4j.core.Page
之所以要另开一个方法是因为mongodb不用encode文本内容
isStartHttpUrl(String) - 类 中的静态方法com.bytegriffin.get4j.net.http.UrlAnalyzer
url格式的简单判断,不太严谨
字符串是否为http或者https协议格式开头的Url格式
可以过滤掉ftp/telnet/mailto/
isXmlContent() - 类 中的方法com.bytegriffin.get4j.core.Page
页面内容是否为Xml格式

J

javascriptSupport(boolean) - 类 中的方法com.bytegriffin.get4j.Spider
是否支持Javascript,有些网站需要等待javascript来生成结果,此时可以将此属性设为true, 默认值是false,慎用:抓取效率会变慢
jdbc(String) - 类 中的方法com.bytegriffin.get4j.Spider
将解析的结果保存到Mysql中
jdbc格式:jdbc:mysql://localhost:3306/spider?
JobEngine - com.bytegriffin.get4j.core中的接口
 
json(String) - 类 中的方法com.bytegriffin.get4j.core.Page
根据JsonPath解析JsonContent 注意:有些Http Response返回的Content-Type是text/html而不是json
json_page_suffix - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
Json类型ContentType页面格式
json_path_prefix - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
JsonPath解析字符串的前缀,来判断是否是Jsoup的cssSelect还是JsonPath字符串
jsonPath(String, String, String) - 类 中的静态方法com.bytegriffin.get4j.fetch.FetchResourceSelector
使用Jsonpath找出json文件中的url资源
jsonPath2List(String, String, String) - 类 中的静态方法com.bytegriffin.get4j.fetch.FetchResourceSelector
使用Jsonpath找出json文件中的url资源
jsoup(String) - 类 中的方法com.bytegriffin.get4j.core.Page
根据Jsoup原生支持的cssSelect或正则表达式解析Html
jsoupHtml(String) - 类 中的方法com.bytegriffin.get4j.core.Page
根据Jsoup原生支持的cssSelect或正则表达式解析Html
jsoupText(String) - 类 中的方法com.bytegriffin.get4j.core.Page
根据Jsoup原生支持的cssSelect或正则表达式解析Html
jsoupXml(String) - 类 中的方法com.bytegriffin.get4j.core.Page
根据Jsoup原生支持的cssSelect或正则表达式解析Xml

L

Launcher - com.bytegriffin.get4j.core中的类
Seed加载器:加载每个seed,将seed中url分配给各个worker工作线程
Launcher(Seed, WorkerStatusOpt, boolean) - 类 的构造器com.bytegriffin.get4j.core.Launcher
 
LAUNCHER_CACHE - 类 中的静态变量com.bytegriffin.get4j.core.Globals
当PageMode存放list列表url key:seed_name value:该seed对应的launcher
linux_chromedriver - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
 
list_detail() - 类 中的静态方法com.bytegriffin.get4j.Spider
创建针对列表-详情页面格式的爬虫
LIST_URLS_CACHE - 类 中的静态变量com.bytegriffin.get4j.core.Globals
当PageMode存放list列表url key:seed_name value:该seed下所有的列表url
ListDetail - com.bytegriffin.get4j.annotation中的注释类型
 
ListDetailFetcher - com.bytegriffin.get4j.fetch中的类
List-Detail格式的页面抓取器
ListDetailFetcher() - 类 的构造器com.bytegriffin.get4j.fetch.ListDetailFetcher
 
load() - 类 中的方法com.bytegriffin.get4j.conf.ConfigurationXmlHandler
加载configuration.xml配置文件内容到内存中
load() - 类 中的方法com.bytegriffin.get4j.conf.Context
 
load() - 类 中的方法com.bytegriffin.get4j.conf.CoreSeedsXmlHandler
加载core-seeds.xml配置文件内容到内存中
load() - 类 中的方法com.bytegriffin.get4j.conf.DynamicFieldXmlHandler
 
loads(List<Initializer>) - 类 中的静态方法com.bytegriffin.get4j.core.Initializer
加载本地或外部所有项目的初始化类
loadXML(String) - 类 中的静态方法com.bytegriffin.get4j.conf.XmlHelper
SAX加载xml文件
LoggingInterceptor - com.bytegriffin.get4j.net.http.interceptor中的类
 
LoggingInterceptor() - 类 的构造器com.bytegriffin.get4j.net.http.interceptor.LoggingInterceptor
 
lucene(String) - 类 中的方法com.bytegriffin.get4j.Spider
将解析结果进行Lucene索引并且保存 子目录是${seedName},用来表示每个seed对应不同的下载子目录
LUCENE_INDEX_DIR_CACHE - 类 中的静态变量com.bytegriffin.get4j.core.Globals
全局lucene index dir缓存 key:seed_name value: lucene index dir
LuceneIndexStorage - com.bytegriffin.get4j.store中的类
Lucene索引存储器
LuceneIndexStorage() - 类 的构造器com.bytegriffin.get4j.store.LuceneIndexStorage
 

M

main(String[]) - 类 中的静态方法com.bytegriffin.get4j.parse.CustomPageParser
 
main(String...) - 类 中的静态方法com.bytegriffin.get4j.Spider
通过配置文件启动爬虫的入口方法
makeDiskDir(String) - 类 中的静态方法com.bytegriffin.get4j.util.FileUtil
在磁盘上创建下载、索引文件夹
makeDiskFile(String) - 类 中的静态方法com.bytegriffin.get4j.util.FileUtil
生成文件夹以及以下的文件
makeDiskFile(String, long) - 类 中的静态方法com.bytegriffin.get4j.util.FileUtil
事先创建指定大小的空内容的文件
mappingDetailLinkAndAvatar() - 类 中的方法com.bytegriffin.get4j.net.http.UrlAnalyzer
使list页面中的avatar资源与detail link一一映射
MD5Util - com.bytegriffin.get4j.util中的类
MD5生成器
MD5Util() - 类 的构造器com.bytegriffin.get4j.util.MD5Util
 
module_node - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
MONGO_COLLECTION_CACHE - 类 中的静态变量com.bytegriffin.get4j.core.Globals
key : seedName value: MongoCollection
mongodb(String) - 类 中的方法com.bytegriffin.get4j.Spider
将解析的结果保存到MongoDB中
mongodb://localhost:27017 或者加密 mongodb://user1:pwd1@host1/?
MongodbStorage - com.bytegriffin.get4j.store中的类
MongoDB 3 数据库存储器
增量式更新数据
MongodbStorage() - 类 的构造器com.bytegriffin.get4j.store.MongodbStorage
 

N

name_node - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
newFailVisitedUrl(String, String) - 类 中的静态方法com.bytegriffin.get4j.core.UrlQueue
增加已访问失败的url(包括link、资源文件)
newUnVisitedLink(String, String) - 类 中的静态方法com.bytegriffin.get4j.core.UrlQueue
新增未访问的link到队列中
newUnVisitedResource(String, String) - 类 中的静态方法com.bytegriffin.get4j.core.UrlQueue
新增未访问的resource到队列中
newVisitedLink(String, String) - 类 中的静态方法com.bytegriffin.get4j.core.UrlQueue
新增已访问的link到队列中
newVisitedResource(String, String) - 类 中的静态方法com.bytegriffin.get4j.core.UrlQueue
新增已访问的resource到队列中
node_name - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 

O

OK_HTTP_CLIENT_BUILDER_CACHE - 类 中的静态变量com.bytegriffin.get4j.core.Globals
全局okhttpclientbuilder缓存 key:seed_name value: HttpClientBuilder
OkHttpClientEngine - com.bytegriffin.get4j.net.http中的类
 
OkHttpClientEngine() - 类 的构造器com.bytegriffin.get4j.net.http.OkHttpClientEngine
 
open_node - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
outFirst(String) - 类 中的静态方法com.bytegriffin.get4j.core.UrlQueue
删除头元素
outFirst() - 类 中的方法com.bytegriffin.get4j.util.ConcurrentQueue
 
outFirst(String) - 类 中的方法com.bytegriffin.get4j.util.ConcurrentQueue
 
outFirst() - 接口 中的方法com.bytegriffin.get4j.util.Queue
 
outFirst(String) - 接口 中的方法com.bytegriffin.get4j.util.Queue
 

P

Page - com.bytegriffin.get4j.core中的类
Page对象
Page() - 类 的构造器com.bytegriffin.get4j.core.Page
 
Page(String, String) - 类 的构造器com.bytegriffin.get4j.core.Page
 
Page(String, String, String) - 类 的构造器com.bytegriffin.get4j.core.Page
 
PAGE_PARSER_CACHE - 类 中的静态变量com.bytegriffin.get4j.core.Globals
自定义的page_parser解析器缓存
PageChangeProber - com.bytegriffin.get4j.probe中的类
页面变化探测器 :用于再次爬取页面前事先探查页面的具体情况。
PageChangeProber(Seed) - 类 的构造器com.bytegriffin.get4j.probe.PageChangeProber
 
PageMode - com.bytegriffin.get4j.core中的枚举
页面模型
包括四种:list_detail(列表-详情页面格式)、single(单个页面)、cascade(单页面上关联的所有链接)、site整站(不包括外链)
根据页面模型的不同,程序会自动启动不同的抓取器
PageParser - com.bytegriffin.get4j.parse中的接口
自定义页面解析类必须要实现的接口,否则程序会找不到解析类
parse(Page) - 类 中的方法com.bytegriffin.get4j.parse.CustomPageParser
 
parse(Page) - 类 中的方法com.bytegriffin.get4j.parse.ElementPageParser
 
parse(Page) - 类 中的方法com.bytegriffin.get4j.parse.FreeProxyPageParser
 
parse(Page) - 接口 中的方法com.bytegriffin.get4j.parse.PageParser
 
parse_class_impl - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
parse_element_selector - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
parser(Class<? extends PageParser>) - 类 中的方法com.bytegriffin.get4j.Spider
自定义页面解析类
parser(PageParser) - 类 中的方法com.bytegriffin.get4j.Spider
自定义页面解析接口,用于Lambda表达式
password_node - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
pause() - 接口 中的方法com.bytegriffin.get4j.core.Command
 
pause() - 接口 中的方法com.bytegriffin.get4j.core.JobEngine
 
pause() - 类 中的方法com.bytegriffin.get4j.core.Launcher
暂停工作
PER_START_TIME_CACHE - 类 中的静态变量com.bytegriffin.get4j.core.Globals
key:seed_name | value:每次开始抓取时间
port_node - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
post() - 类 中的方法com.bytegriffin.get4j.Spider
http请求方法
非必填项。
probe(String, int) - 类 中的方法com.bytegriffin.get4j.Spider
设置页面变化探测器,用于探测抓取页面的变化,如果有变化就立刻抓取,没有变化则继续探测。
probe_master_selector_timeout - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
默认 等待probe master重新选举时间,单位:秒
probe_page_file - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
默认 页面变化探测器文件
probe_sleep - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
默认 监控页面变化频率
ProbeFileStorage - com.bytegriffin.get4j.probe中的类
Probe文件存储器
ProbeFileStorage() - 类 的构造器com.bytegriffin.get4j.probe.ProbeFileStorage
 
ProbeMasterChecker - com.bytegriffin.get4j.probe中的接口
 
ProbePage - com.bytegriffin.get4j.probe中的类
 
probePageContent(Page) - 接口 中的方法com.bytegriffin.get4j.net.http.HttpEngine
探测最新的页面内容
probePageContent(Page) - 类 中的方法com.bytegriffin.get4j.net.http.OkHttpClientEngine
探测页面内容
针对于getPageContent方法有些裁剪
probePageContent(Page) - 类 中的方法com.bytegriffin.get4j.net.http.SeleniumEngine
 
Process - com.bytegriffin.get4j.core中的接口
 
property_node - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
protocal_node - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
proxy(String, Integer) - 类 中的方法com.bytegriffin.get4j.Spider
设置代理
爬虫会自动检测,如果代理不能用,会立刻停止
proxys(List<HttpProxy>) - 类 中的方法com.bytegriffin.get4j.Spider
设置一组代理
爬虫会自动检测,如果代理不能用,会立刻停止
putField(String, Object) - 类 中的方法com.bytegriffin.get4j.core.Page
 

Q

Queue<E> - com.bytegriffin.get4j.util中的接口
 

R

RandomSelector<E> - com.bytegriffin.get4j.net.http中的类
随机选择器
为User Agent,Http Proxy和SleepRange提供一种随机选择
RandomSelector() - 类 的构造器com.bytegriffin.get4j.net.http.RandomSelector
 
read(String) - 类 中的静态方法com.bytegriffin.get4j.probe.ProbeFileStorage
读取Probe文件中与url相等的值
readHttpProxyFile(String) - 类 中的静态方法com.bytegriffin.get4j.util.FileUtil
读取http代理文件转换为HttpProxy对象到内存中 http_proxy文件的格式是ip:port或者ip:port@username:password
readOne(DataSource, Page) - 类 中的方法com.bytegriffin.get4j.store.DBStorage
从数据库中读单个Page对象
readUserAgentFile(String) - 类 中的静态方法com.bytegriffin.get4j.util.FileUtil
读取User Agent文件到内存中
RedirectInterceptor - com.bytegriffin.get4j.net.http.interceptor中的类
自定义跳转拦截器
处理当发生3XX错误时,自动关闭response.body并且重新定义一个新的Response 注意:Interceptor里的参数传递只能作用在url参数或者form表单中处理, 如果需要设置page等方法参数会比较麻烦,因此放弃处理这些业务逻辑方法
RedirectInterceptor() - 类 的构造器com.bytegriffin.get4j.net.http.interceptor.RedirectInterceptor
 
regex(HashSet<String>, String) - 类 中的静态方法com.bytegriffin.get4j.fetch.FetchResourceSelector
已过时。
register(String) - 类 中的方法com.bytegriffin.get4j.monitor.HealthChecker
 
registerRedisQueue(Queue<String>) - 类 中的静态方法com.bytegriffin.get4j.core.UrlQueue
 
removeLine(String, String) - 类 中的静态方法com.bytegriffin.get4j.util.FileUtil
删除文件中的某行内容
resource_sync_yaml_file - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
resource_synchronizer - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
全局资源同步器
resources - 类 中的静态变量com.bytegriffin.get4j.net.sync.BatchScheduler
 
resourceSelector(String) - 类 中的方法com.bytegriffin.get4j.Spider
资源选择器,配置时必须要包含在detail_link与avatar资源的外部资源选择器。
ResourceSync - com.bytegriffin.get4j.conf中的类
resource-sync.yaml资源同步配置文件
ResourceSync() - 类 的构造器com.bytegriffin.get4j.conf.ResourceSync
 
ResourceSyncYamlHandler - com.bytegriffin.get4j.conf中的类
resource-sync.yaml配置文件处理类
ResourceSyncYamlHandler() - 类 的构造器com.bytegriffin.get4j.conf.ResourceSyncYamlHandler
 
RetryInterceptor - com.bytegriffin.get4j.net.http.interceptor中的类
OKHttp请求重试
RetryInterceptor() - 类 的构造器com.bytegriffin.get4j.net.http.interceptor.RetryInterceptor
 
rsync(String, String, boolean, String) - 类 中的方法com.bytegriffin.get4j.Spider
设置rsync为资源同步方式
注意:暂时不支持windows
rsync_node - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
RsyncSyncer - com.bytegriffin.get4j.net.sync中的类
Rsync同步器:用于同步下载的资源文件到资源服务器上,比如:avatar文件同步到图片服务器 可以只配置单向复制就可以,以后本地的资源还可以删除。
RsyncSyncer(String, String, String, boolean) - 类 的构造器com.bytegriffin.get4j.net.sync.RsyncSyncer
 
run() - 类 中的方法com.bytegriffin.get4j.core.Launcher
 
run() - 类 中的方法com.bytegriffin.get4j.core.Worker
 
run() - 类 中的方法com.bytegriffin.get4j.net.sync.BatchScheduler
 
run() - 类 中的方法com.bytegriffin.get4j.probe.PageChangeProber
 
run() - 类 中的方法com.bytegriffin.get4j.send.EmailSender
当系统出现异常,系统会由get4j@sina.com发送给邮件接受者一封提醒邮件

S

scp(String, String, String, Integer) - 类 中的方法com.bytegriffin.get4j.Spider
设置scp为资源同步方式
需要ssh-keygen配置无密码登陆
scp_node - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
ScpSyncer - com.bytegriffin.get4j.net.sync中的类
Scp同步器:用于同步下载的资源文件到资源服务器上,比如:avatar文件同步到图片服务器 由于Scp本身不支持增量同步,所以需要先在目标服务器端创建文件夹,然后一个一个文件进行复制 需要用ssh-keygen配置无密码方式,目前只支持Unix,不支持windows
ScpSyncer(String, String, String, String) - 类 的构造器com.bytegriffin.get4j.net.sync.ScpSyncer
 
seconds(long) - 类 中的静态方法com.bytegriffin.get4j.util.Sleep
 
Seed - com.bytegriffin.get4j.conf中的类
抓取站点,对应配置文件中的seed元素
Seed() - 类 的构造器com.bytegriffin.get4j.conf.Seed
 
Seed(String) - 类 的构造器com.bytegriffin.get4j.conf.Seed
 
SEED_CACHE - 类 中的静态变量com.bytegriffin.get4j.core.Globals
种子seed缓存,key : seed name key value : seed
seed_name - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
xml node name
seed_node - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
xml node
seedName(String) - 类 中的方法com.bytegriffin.get4j.Spider
设置种子名称
每个种子名称要唯一
selector_node - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
selectPageContent(Page, String) - 类 中的静态方法com.bytegriffin.get4j.net.http.UrlAnalyzer
获取页面中指定的部分区域内容 与selectPageElement方法的区别就是本方法获取的是带有(Html/XML等)标签的内容
selectPageText(Page, String) - 类 中的静态方法com.bytegriffin.get4j.net.http.UrlAnalyzer
获取页面中指定的元素
SeleniumEngine - com.bytegriffin.get4j.net.http中的类
专门处理Javascript效果的html网页
chromedriver需要放到bin文件目录下才能运行程序
下载地址:https://npm.taobao.org/mirrors/chromedriver/
SeleniumEngine() - 类 的构造器com.bytegriffin.get4j.net.http.SeleniumEngine
 
sendMail(String) - 类 中的静态方法com.bytegriffin.get4j.send.EmailSender
调用入口方法一
sendMail(Throwable) - 类 中的静态方法com.bytegriffin.get4j.send.EmailSender
调用入口方法二
serialize(ProbePage) - 类 中的静态方法com.bytegriffin.get4j.probe.ProbeFileStorage
序列化 ProbePage === byte[]
setAvatar(String) - 类 中的方法com.bytegriffin.get4j.core.Page
 
setBatch(Set<String>) - 类 中的方法com.bytegriffin.get4j.net.sync.FtpSyncer
 
setBatch(Set<String>) - 类 中的方法com.bytegriffin.get4j.net.sync.RsyncSyncer
 
setBatch(Set<String>) - 类 中的方法com.bytegriffin.get4j.net.sync.ScpSyncer
设置不同seedName的资源列表
setBatch(Set<String>) - 接口 中的方法com.bytegriffin.get4j.net.sync.Syncer
 
setCharset(String) - 类 中的方法com.bytegriffin.get4j.core.Page
 
setClusterNode(ClusterNode) - 类 中的方法com.bytegriffin.get4j.core.SpiderEngine
设置cluster节点初始化信息,在分布式情况下调用
setConfiguration(Configuration) - 类 中的方法com.bytegriffin.get4j.core.SpiderEngine
设置configuration配置
setContent(byte[]) - 类 中的方法com.bytegriffin.get4j.download.DownloadFile
 
setContent(String) - 类 中的方法com.bytegriffin.get4j.probe.ProbePage
 
setContentLength(long) - 类 中的方法com.bytegriffin.get4j.download.DownloadFile
 
setDetailLinks(LinkedHashSet<String>) - 类 中的方法com.bytegriffin.get4j.core.Page
 
setDownloadDisk(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setDownloadFileNameRule(String) - 类 中的方法com.bytegriffin.get4j.conf.Configuration
 
setDownloadHdfs(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setDynamicField(DynamicField) - 类 中的方法com.bytegriffin.get4j.core.SpiderEngine
设置动态字段映射
setDynamicFields(List<DynamicField>) - 类 中的方法com.bytegriffin.get4j.core.SpiderEngine
设置动态字段映射列表
setEmailRecipient(String) - 类 中的方法com.bytegriffin.get4j.conf.Configuration
 
setExtractClassImpl(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setFetchCookies(Map<String, String>) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setFetchDetailSelector(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setFetchHttpMethod(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setFetchHttpProxy(List<HttpProxy>) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setFetchHttpProxyFile(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
设置httpproxy文件 读取httpproxy代理文件到内存中
setFetchInterval(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setFetchJavascriptSupport(boolean) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setFetchPassword(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setFetchProbeSelector(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setFetchProbeSleep(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setFetchResourceSelectors(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
设置Fetch Resource Selector,默认值是all
setFetchResourceSelectors(List<String>) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setFetchSleep(int) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setFetchSleepRange(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setFetchStart(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setFetchTime(String) - 类 中的方法com.bytegriffin.get4j.core.Page
 
setFetchTotalPages(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setFetchUrl(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
格式化FetchUrl
setFetchUserAgent(List<String>) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setFetchUserAgent(LinkedList<String>) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setFetchUserAgentFile(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
设置useragent文件 读取user agent文件到内存中
setFetchUsername(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setFields(Map<String, String>) - 类 中的方法com.bytegriffin.get4j.conf.DynamicField
 
setFields(Map<String, Object>) - 类 中的方法com.bytegriffin.get4j.core.Page
 
setFileName(String) - 类 中的方法com.bytegriffin.get4j.download.DownloadFile
 
setFinish() - 类 中的方法com.bytegriffin.get4j.probe.PageChangeProber
设置抓取完成状态,表示此次抓取过程完全执行
setFtp(Map<String, String>) - 类 中的方法com.bytegriffin.get4j.conf.ResourceSync
 
setHbase(Process) - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
 
setHdfs(Process) - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
 
setHost(String) - 类 中的方法com.bytegriffin.get4j.core.Page
 
setHtmlContent(String) - 类 中的方法com.bytegriffin.get4j.core.Page
 
setHttpProxy(String) - 类 中的静态方法com.bytegriffin.get4j.net.http.OkHttpClientEngine
设置请求中的Http代理
setId(String) - 类 中的方法com.bytegriffin.get4j.core.Page
 
setIdleStatus(String) - 接口 中的方法com.bytegriffin.get4j.core.WorkerStatusOpt
 
setInitializers(List<Initializer>) - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
 
setJsonContent(String) - 类 中的方法com.bytegriffin.get4j.core.Page
 
setListPage(boolean) - 类 中的方法com.bytegriffin.get4j.core.Page
 
setMethod(String) - 类 中的方法com.bytegriffin.get4j.core.Page
 
setNodeName(String) - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
 
setPageMode(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
设置抓取模式,默认是site抓取
setPageMode(PageMode) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setPageParser(PageParser) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setParams(Map<String, String>) - 类 中的方法com.bytegriffin.get4j.core.Page
 
setParseClassImpl(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setParseElementSelector(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setProbeMasterChecker(ProbeMasterChecker) - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
 
setQueue(List<HttpProxy>) - 类 中的方法com.bytegriffin.get4j.net.http.HttpProxySelector
 
setQueue(List<E>) - 类 中的方法com.bytegriffin.get4j.net.http.RandomSelector
 
setQueue(List<Integer>) - 类 中的方法com.bytegriffin.get4j.net.http.SleepRandomSelector
 
setQueue(List<String>) - 类 中的方法com.bytegriffin.get4j.net.http.UserAgentSelector
 
setRedisAddress(String) - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
 
setRedisAuth(String) - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
 
setRedisMode(String) - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
 
setResources(LinkedHashSet<String>) - 类 中的方法com.bytegriffin.get4j.core.Page
 
setResourceSavePath(String) - 类 中的方法com.bytegriffin.get4j.core.Page
 
setResourceSync(ResourceSync) - 类 中的方法com.bytegriffin.get4j.core.SpiderEngine
设置资源同步器
setRsync(Map<String, String>) - 类 中的方法com.bytegriffin.get4j.conf.ResourceSync
 
setRunStatus(String) - 接口 中的方法com.bytegriffin.get4j.core.WorkerStatusOpt
 
setScp(Map<String, String>) - 类 中的方法com.bytegriffin.get4j.conf.ResourceSync
 
setSeed(Seed) - 类 中的方法com.bytegriffin.get4j.core.SpiderEngine
设置种子Seed
setSeedName(String) - 类 中的方法com.bytegriffin.get4j.conf.DynamicField
 
setSeedName(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setSeedName(String) - 类 中的方法com.bytegriffin.get4j.core.Page
 
setSeedName(String) - 类 中的方法com.bytegriffin.get4j.download.DownloadFile
 
setSeeds(List<Seed>) - 类 中的方法com.bytegriffin.get4j.core.SpiderEngine
设置种子Seed列表
setSetCookies(String) - 类 中的方法com.bytegriffin.get4j.core.Page
 
setStatus(String) - 类 中的方法com.bytegriffin.get4j.probe.ProbePage
 
setStoreFreeProxy(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setStoreHBase(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setStoreJdbc(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setStoreLuceneIndex(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setStoreMongodb(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setSync(Map<String, String>) - 类 中的方法com.bytegriffin.get4j.conf.ResourceSync
 
setThreadCount(int) - 类 中的方法com.bytegriffin.get4j.conf.Seed
 
setTitle(String) - 类 中的方法com.bytegriffin.get4j.core.Page
 
setUrl(String) - 类 中的方法com.bytegriffin.get4j.core.Page
 
setUrl(String) - 类 中的方法com.bytegriffin.get4j.download.DownloadFile
 
setUrl(String) - 类 中的方法com.bytegriffin.get4j.probe.ProbePage
 
setUrlAndHeader(Request.Builder, String) - 类 中的静态方法com.bytegriffin.get4j.net.http.AbstractHttpEngine
设置http请求url和header
setUserAgent(String, Request.Builder) - 类 中的静态方法com.bytegriffin.get4j.net.http.OkHttpClientEngine
设置User_Agent
setWorkerStatusOpt(WorkerStatusOpt) - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
 
setXmlContent(String) - 类 中的方法com.bytegriffin.get4j.core.Page
 
setZookeeperAddress(String) - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
 
Single - com.bytegriffin.get4j.annotation中的注释类型
 
single() - 类 中的静态方法com.bytegriffin.get4j.Spider
创建针对单个页面(不抓取页面上的链接)的爬虫
SingleFetcher - com.bytegriffin.get4j.fetch中的类
单个页面抓取器
SingleFetcher() - 类 的构造器com.bytegriffin.get4j.fetch.SingleFetcher
 
Site - com.bytegriffin.get4j.annotation中的注释类型
 
site() - 类 中的静态方法com.bytegriffin.get4j.Spider
创建针对整站(不包括外链)格式的爬虫
SiteFetcher - com.bytegriffin.get4j.fetch中的类
整站抓取
如果这个站点里有含其它站点的url,那么这些url是不会被抓取的,是被过滤的
并且默认不支持向上抓取,只抓取本层以及以下的站点,采用的是宽度优先遍历
例如抓取的站点是www.aaa.com/bbb/,那么就不会抓取www.aaa.com的内容
SiteFetcher() - 类 的构造器com.bytegriffin.get4j.fetch.SiteFetcher
 
size() - 类 中的方法com.bytegriffin.get4j.util.ConcurrentQueue
 
size(String) - 类 中的方法com.bytegriffin.get4j.util.ConcurrentQueue
 
size() - 接口 中的方法com.bytegriffin.get4j.util.Queue
 
size(String) - 接口 中的方法com.bytegriffin.get4j.util.Queue
 
sleep(String, Logger) - 类 中的静态方法com.bytegriffin.get4j.net.http.AbstractHttpEngine
设计Http请求间隔时间
sleep(int) - 类 中的方法com.bytegriffin.get4j.Spider
抓取延迟策略
非必填项。
Sleep - com.bytegriffin.get4j.util中的类
 
Sleep() - 类 的构造器com.bytegriffin.get4j.util.Sleep
 
SleepRandomSelector - com.bytegriffin.get4j.net.http中的类
每次请求的时间间隔随机选择器
SleepRandomSelector() - 类 的构造器com.bytegriffin.get4j.net.http.SleepRandomSelector
 
sleepRange(int, int) - 类 中的方法com.bytegriffin.get4j.Spider
抓取随机延迟策略
非必填项。
snapshot(String) - 类 中的方法com.bytegriffin.get4j.monitor.HealthChecker
 
sniffAllLinks() - 类 中的方法com.bytegriffin.get4j.net.http.UrlAnalyzer
link链接嗅探:
获取并设置Html页面中的所有非资源的链接
用HashSet保存来保证url的唯一性
如果该url是一个资源文件(图片、js、css等)的话,那么将其保存到resource中。
sniffAndSetResources() - 类 中的方法com.bytegriffin.get4j.net.http.UrlAnalyzer
针对Html和Json两种格式资源(图片、css、js、视频等)自动嗅探并设置:
如果ResourceSelector没有配置或者配置了all,表示要抓取各种资源的src和href
如果ResourceSelector配置了具体select参数,则表示抓取符合参数的具体资源
如果ResourceSelector配置了none,什么都不做,即表示:什么资源都不抓取,全部过滤
sniffDetailLinks() - 类 中的方法com.bytegriffin.get4j.net.http.UrlAnalyzer
List_Detail模式下List列表中的Detail_link链接嗅探:
获取并设置Html页面中的所有非资源的链接
用HashSet保存来保证url的唯一性
如果该url是一个资源文件(图片、js、css等)的话,那么将其保存到resource中。
sniffSiteLinks() - 类 中的方法com.bytegriffin.get4j.net.http.UrlAnalyzer
单个site站点中Html页面(非Json格式)的link链接嗅探:
获取并设置Html页面中的所有非资源的链接
用HashSet保存来保证url的唯一性
如果该url是一个资源文件(图片、js、css等)的话,那么将其保存到resource中。
Spider - com.bytegriffin.get4j中的类
爬虫入口类兼API
主要负责对内配置文件加载运行 和 对外的API调用
SpiderEngine - com.bytegriffin.get4j.core中的类
爬虫配置引擎
执行前的准备工作:组建工作流程
split - 类 中的静态变量com.bytegriffin.get4j.net.sync.BatchScheduler
 
start() - 类 中的静态方法com.bytegriffin.get4j.net.sync.BatchScheduler
 
start() - 类 中的方法com.bytegriffin.get4j.probe.PageChangeProber
 
start() - 类 中的方法com.bytegriffin.get4j.Spider
爬虫开启运行 检查Api设置是否设置正确,否则启动失败
startUp(Seed, WorkerStatusOpt, boolean) - 类 中的方法com.bytegriffin.get4j.core.SpiderEngine
启动一个种子任务
stop() - 类 中的静态方法com.bytegriffin.get4j.net.sync.BatchScheduler
 
store_hbase - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
store_jdbc - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
store_lucene_index - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
store_mongodb - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
StringUtil - com.bytegriffin.get4j.util中的类
 
StringUtil() - 类 的构造器com.bytegriffin.get4j.util.StringUtil
 
strToDate(String) - 类 中的静态方法com.bytegriffin.get4j.util.DateUtil
日期转换
Sync - com.bytegriffin.get4j.annotation中的注释类型
 
sync() - 类 中的方法com.bytegriffin.get4j.net.sync.FtpSyncer
 
sync() - 类 中的方法com.bytegriffin.get4j.net.sync.RsyncSyncer
 
sync() - 类 中的方法com.bytegriffin.get4j.net.sync.ScpSyncer
 
sync() - 接口 中的方法com.bytegriffin.get4j.net.sync.Syncer
 
sync_batch_count - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
每次同步的最大值
sync_batch_time - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
每次同步的最大时间间隔,单位是秒
sync_open - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
是否开启资源同步
Syncer - com.bytegriffin.get4j.net.sync中的接口
资源同步接口,有多种选项:ftp/rsync/scp

T

testHttpProxy(String, HttpProxy) - 接口 中的方法com.bytegriffin.get4j.net.http.HttpEngine
测试HttpProxy是否可运行,都不可用程序则退出
testHttpProxy(String, HttpProxy) - 类 中的方法com.bytegriffin.get4j.net.http.OkHttpClientEngine
检查Http Proxy代理是否可运行
testHttpProxy(String, HttpProxy) - 类 中的方法com.bytegriffin.get4j.net.http.SeleniumEngine
检查Http Proxy代理是否可运行
thread(int) - 类 中的方法com.bytegriffin.get4j.Spider
爬虫工作线程数量,非必填项。
thread_count - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
默认 线程数目
timer(String) - 类 中的方法com.bytegriffin.get4j.Spider
抓取启动器
startTime表示爬虫抓取的开始时间,格式为:2001-10-10 23:29:02,如果startTime已经过时,爬虫会立刻执行
timer(String, int) - 类 中的方法com.bytegriffin.get4j.Spider
抓取启动器
firstTime表示爬虫第一次的抓取时间,格式为:2001-10-10 23:29:02,如果firstTime已经过时,爬虫会立刻执行
interval表示爬虫重复抓取的时间间隔,单位是秒
toString() - 类 中的方法com.bytegriffin.get4j.net.http.HttpProxy
 
totalPages(String) - 类 中的方法com.bytegriffin.get4j.Spider
抓取的列表总页数
非必填项,当抓取的页面格式属于【列表-详情】页时使用,动态获取页面中显示的总页数。
totalPages(int) - 类 中的方法com.bytegriffin.get4j.Spider
抓取的列表总页数
非必填项,当抓取的页面格式属于【列表-详情】页时使用,直接定义抓取页数,默认值是1。

U

UrlAnalyzer - com.bytegriffin.get4j.net.http中的类
Url分析器:负责解析页面所有的url
UrlQueue - com.bytegriffin.get4j.core中的类
Url队列
负责爬虫中全部的url处理
UrlQueue() - 类 的构造器com.bytegriffin.get4j.core.UrlQueue
 
user_agent - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
默认 user agent 配置文件
USER_AGENT_CACHE - 类 中的静态变量com.bytegriffin.get4j.core.Globals
全局user_agent缓存 key:seed_name value: UserAgentSelector
userAgent(String) - 类 中的方法com.bytegriffin.get4j.Spider
伪造一个UserAgent
userAgents(List<String>) - 类 中的方法com.bytegriffin.get4j.Spider
伪造一个列表的UserAgent
UserAgentSelector - com.bytegriffin.get4j.net.http中的类
随机获取User Agent,更好地模拟人为操作
UserAgentSelector() - 类 的构造器com.bytegriffin.get4j.net.http.UserAgentSelector
 
username_node - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
uuid() - 类 中的静态方法com.bytegriffin.get4j.util.MD5Util
用于生成数据库主键

V

validate(String, String) - 类 中的静态方法com.bytegriffin.get4j.conf.XmlHelper
用xsd文件来验证xml文件
value_node - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
valueOf(String) - 枚举 中的静态方法com.bytegriffin.get4j.core.PageMode
返回带有指定名称的该类型的枚举常量。
values() - 枚举 中的静态方法com.bytegriffin.get4j.core.PageMode
按照声明该枚举类型的常量的顺序, 返回 包含这些常量的数组。

W

WEBDRIVER_CACHE - 类 中的静态变量com.bytegriffin.get4j.core.Globals
全局WebDriver缓存 key:seed_name value: WebDriver
win_chromedriver - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
 
woker_thread_count - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
 
Worker - com.bytegriffin.get4j.core中的类
工作线程
Worker(String, String, CountDownLatch) - 类 的构造器com.bytegriffin.get4j.core.Worker
 
WorkerStatusOpt - com.bytegriffin.get4j.core中的接口
 
writeBigFileToDisk(String, Long, InputStream) - 类 中的静态方法com.bytegriffin.get4j.util.FileUtil
下载大文件到磁盘上
writeFileToDisk(String, byte[]) - 类 中的静态方法com.bytegriffin.get4j.util.FileUtil
往硬盘上写文件

X

xicidaili - 类 中的静态变量com.bytegriffin.get4j.parse.FreeProxyPageParser
 
xml_page_suffix - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
Xml类型ConentType页面格式
XmlHelper - com.bytegriffin.get4j.conf中的类
xml文件工具类
XmlHelper() - 类 的构造器com.bytegriffin.get4j.conf.XmlHelper
 
xmlSelect(String, String) - 类 中的静态方法com.bytegriffin.get4j.fetch.FetchResourceSelector
使用Jsoup找出xml文件中的url资源
xmlSelect2List(String, String) - 类 中的静态方法com.bytegriffin.get4j.fetch.FetchResourceSelector
使用Jsoup找出xml文件中的url资源

Y

yyyyMMddHHmmss - 类 中的静态变量com.bytegriffin.get4j.util.DateUtil
 
A B C D E F G H I J L M N O P Q R S T U V W X Y 

Copyright © 2018. All rights reserved.