- DATASOURCE_CACHE - 类 中的静态变量com.bytegriffin.get4j.core.Globals
-
key : seedName value: datasource
- DateUtil - com.bytegriffin.get4j.util中的类
-
- DateUtil() - 类 的构造器com.bytegriffin.get4j.util.DateUtil
-
- DBStorage - com.bytegriffin.get4j.store中的类
-
关系型数据库存储器
增量式更新数据
- DBStorage() - 类 的构造器com.bytegriffin.get4j.store.DBStorage
-
- decodeUrl(String, String) - 类 中的方法com.bytegriffin.get4j.net.http.AbstractHttpEngine
-
已过时。
- default_value - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
-
默认:比如下载目录为default时指的是/data/download/${seedname}目录下
- DefaultConfig - com.bytegriffin.get4j.conf中的类
-
默认配置常量:负责系统中所有的默认配置参数
- DefaultConfig() - 类 的构造器com.bytegriffin.get4j.conf.DefaultConfig
-
- defaultDownloadDisk() - 类 中的方法com.bytegriffin.get4j.Spider
-
默认的下载本地路径
默认地址:$path/data/download/${seedname}
- defaultLucene() - 类 中的方法com.bytegriffin.get4j.Spider
-
将解析结果索引保存到本系统/data/index目录下
- defaultProbe() - 类 中的方法com.bytegriffin.get4j.Spider
-
设置页面变化探测器,用于探测抓取页面的变化,如果有变化就立刻抓取,没有变化则继续探测。
- defaultProxy() - 类 中的方法com.bytegriffin.get4j.Spider
-
加载系统自带的http_proxy文件
注意:调用此方法之前请确保conf/http_proxy文件中有可用代理
- defaultUserAgent() - 类 中的方法com.bytegriffin.get4j.Spider
-
默认加载系统自带的UserAgent
- deleteFile(String) - 类 中的静态方法com.bytegriffin.get4j.util.FileUtil
-
递归删除文件夹以及下面所有的文件
- deserialize(byte[]) - 类 中的静态方法com.bytegriffin.get4j.probe.ProbeFileStorage
-
反序列化 byte[] === ProbePage
- destory() - 接口 中的方法com.bytegriffin.get4j.core.Command
-
- destory(String) - 接口 中的方法com.bytegriffin.get4j.core.JobEngine
-
- destory() - 类 中的方法com.bytegriffin.get4j.core.Launcher
-
销毁工作
- detailSelector(String) - 类 中的方法com.bytegriffin.get4j.Spider
-
抓取的详情页面链接选择器
非必填项,当抓取的页面格式属于【列表-详情】页时使用,支持Jsoup原生的选择器(html内容)或Jsonpath(json内容)。
- dir_node - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
-
- DiskDownloader - com.bytegriffin.get4j.download中的类
-
磁盘下载器,负责下载页面以及页面上的资源文件,它的功能是避免了开发者在PageParser中手工写下载页面或资源文件的代码。
- DiskDownloader() - 类 的构造器com.bytegriffin.get4j.download.DiskDownloader
-
- download_disk - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
-
- DOWNLOAD_DISK_DIR_CACHE - 类 中的静态变量com.bytegriffin.get4j.core.Globals
-
全局download dir缓存 key:seed_name value: download dir
- download_file_url_naming - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
-
是否将下载后的文件保留其url前缀
false:表示自动补全文件名称
true:表示用url补全文件名称
- download_filename_rule - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
-
- download_hdfs - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
-
- DOWNLOAD_HDFS_DIR_CACHE - 类 中的静态变量com.bytegriffin.get4j.core.Globals
-
key:seed_name value: hdfs://address:port/seedname/
- downloadAvatar(Page, String) - 类 中的静态方法com.bytegriffin.get4j.net.http.OkHttpClientEngine
-
下载avatar资源文件
- downloadBigFile(String) - 类 中的静态方法com.bytegriffin.get4j.download.DownloadFile
-
下载大文件
- downloadBigFile(String, String, long) - 类 中的静态方法com.bytegriffin.get4j.net.http.OkHttpClientEngine
-
下载大文件,默认设置超过10M大小的文件算是大文件
文件太大会抛异常,所以特此添加一个下载大文件的方法
- downloadDisk(String) - 类 中的方法com.bytegriffin.get4j.Spider
-
下载本地根路径,默认地址为$path/data/download/
子目录是${seedName},用来表示每个seed对应不同的下载子目录
- DownloadFile - com.bytegriffin.get4j.download中的类
-
- DownloadFile() - 类 的构造器com.bytegriffin.get4j.download.DownloadFile
-
- downloadFilenameRule(boolean) - 类 中的方法com.bytegriffin.get4j.Spider
-
下载文件命名规则,一般为default或url两种类型
url表示文件名中包含url,default表示不包含
- downloadHdfs(String) - 类 中的方法com.bytegriffin.get4j.Spider
-
下载到hdfs路径
- downloadPagesToDisk(Page) - 类 中的静态方法com.bytegriffin.get4j.util.FileUtil
-
在本地磁盘生成页面
- downloadResources(Page, String) - 类 中的静态方法com.bytegriffin.get4j.net.http.OkHttpClientEngine
-
下载网页中的资源文件(JS/CSS/JPG等)
- dump() - 类 中的静态方法com.bytegriffin.get4j.store.FailUrlStorage
-
负责爬虫爬取完成一次后将全部链接一次性地dump出来
- DYNAMIC_FIELDS_CACHE - 类 中的静态变量com.bytegriffin.get4j.core.Globals
-
key:seedName value:field_map (key: name value: selector)
- dynamic_fields_xml_file - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
-
- dynamic_fields_xsd_file - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
-
- DynamicField - com.bytegriffin.get4j.conf中的类
-
- DynamicField() - 类 的构造器com.bytegriffin.get4j.conf.DynamicField
-
- DynamicFieldFetcher - com.bytegriffin.get4j.fetch中的类
-
自定义动态字段抓取器:为了避免在PageParse接口中写冗长的解析代码,
程序可通过配置动态地对页面上的数据一一解析成结构化字段数据。
- DynamicFieldFetcher() - 类 的构造器com.bytegriffin.get4j.fetch.DynamicFieldFetcher
-
- DynamicFieldXmlHandler - com.bytegriffin.get4j.conf中的类
-
解析dynamic-fields.xml配置文件
- DynamicFieldXmlHandler() - 类 的构造器com.bytegriffin.get4j.conf.DynamicFieldXmlHandler
-
- scp(String, String, String, Integer) - 类 中的方法com.bytegriffin.get4j.Spider
-
设置scp为资源同步方式
需要ssh-keygen配置无密码登陆
- scp_node - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
-
- ScpSyncer - com.bytegriffin.get4j.net.sync中的类
-
Scp同步器:用于同步下载的资源文件到资源服务器上,比如:avatar文件同步到图片服务器
由于Scp本身不支持增量同步,所以需要先在目标服务器端创建文件夹,然后一个一个文件进行复制
需要用ssh-keygen配置无密码方式,目前只支持Unix,不支持windows
- ScpSyncer(String, String, String, String) - 类 的构造器com.bytegriffin.get4j.net.sync.ScpSyncer
-
- seconds(long) - 类 中的静态方法com.bytegriffin.get4j.util.Sleep
-
- Seed - com.bytegriffin.get4j.conf中的类
-
抓取站点,对应配置文件中的seed元素
- Seed() - 类 的构造器com.bytegriffin.get4j.conf.Seed
-
- Seed(String) - 类 的构造器com.bytegriffin.get4j.conf.Seed
-
- SEED_CACHE - 类 中的静态变量com.bytegriffin.get4j.core.Globals
-
种子seed缓存,key : seed name key value : seed
- seed_name - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
-
xml node name
- seed_node - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
-
xml node
- seedName(String) - 类 中的方法com.bytegriffin.get4j.Spider
-
设置种子名称
每个种子名称要唯一
- selector_node - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
-
- selectPageContent(Page, String) - 类 中的静态方法com.bytegriffin.get4j.net.http.UrlAnalyzer
-
获取页面中指定的部分区域内容
与selectPageElement方法的区别就是本方法获取的是带有(Html/XML等)标签的内容
- selectPageText(Page, String) - 类 中的静态方法com.bytegriffin.get4j.net.http.UrlAnalyzer
-
获取页面中指定的元素
- SeleniumEngine - com.bytegriffin.get4j.net.http中的类
-
专门处理Javascript效果的html网页
chromedriver需要放到bin文件目录下才能运行程序
下载地址:https://npm.taobao.org/mirrors/chromedriver/
- SeleniumEngine() - 类 的构造器com.bytegriffin.get4j.net.http.SeleniumEngine
-
- sendMail(String) - 类 中的静态方法com.bytegriffin.get4j.send.EmailSender
-
调用入口方法一
- sendMail(Throwable) - 类 中的静态方法com.bytegriffin.get4j.send.EmailSender
-
调用入口方法二
- serialize(ProbePage) - 类 中的静态方法com.bytegriffin.get4j.probe.ProbeFileStorage
-
序列化 ProbePage === byte[]
- setAvatar(String) - 类 中的方法com.bytegriffin.get4j.core.Page
-
- setBatch(Set<String>) - 类 中的方法com.bytegriffin.get4j.net.sync.FtpSyncer
-
- setBatch(Set<String>) - 类 中的方法com.bytegriffin.get4j.net.sync.RsyncSyncer
-
- setBatch(Set<String>) - 类 中的方法com.bytegriffin.get4j.net.sync.ScpSyncer
-
设置不同seedName的资源列表
- setBatch(Set<String>) - 接口 中的方法com.bytegriffin.get4j.net.sync.Syncer
-
- setCharset(String) - 类 中的方法com.bytegriffin.get4j.core.Page
-
- setClusterNode(ClusterNode) - 类 中的方法com.bytegriffin.get4j.core.SpiderEngine
-
设置cluster节点初始化信息,在分布式情况下调用
- setConfiguration(Configuration) - 类 中的方法com.bytegriffin.get4j.core.SpiderEngine
-
设置configuration配置
- setContent(byte[]) - 类 中的方法com.bytegriffin.get4j.download.DownloadFile
-
- setContent(String) - 类 中的方法com.bytegriffin.get4j.probe.ProbePage
-
- setContentLength(long) - 类 中的方法com.bytegriffin.get4j.download.DownloadFile
-
- setDetailLinks(LinkedHashSet<String>) - 类 中的方法com.bytegriffin.get4j.core.Page
-
- setDownloadDisk(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setDownloadFileNameRule(String) - 类 中的方法com.bytegriffin.get4j.conf.Configuration
-
- setDownloadHdfs(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setDynamicField(DynamicField) - 类 中的方法com.bytegriffin.get4j.core.SpiderEngine
-
设置动态字段映射
- setDynamicFields(List<DynamicField>) - 类 中的方法com.bytegriffin.get4j.core.SpiderEngine
-
设置动态字段映射列表
- setEmailRecipient(String) - 类 中的方法com.bytegriffin.get4j.conf.Configuration
-
- setExtractClassImpl(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setFetchCookies(Map<String, String>) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setFetchDetailSelector(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setFetchHttpMethod(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setFetchHttpProxy(List<HttpProxy>) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setFetchHttpProxyFile(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
设置httpproxy文件 读取httpproxy代理文件到内存中
- setFetchInterval(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setFetchJavascriptSupport(boolean) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setFetchPassword(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setFetchProbeSelector(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setFetchProbeSleep(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setFetchResourceSelectors(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
设置Fetch Resource Selector,默认值是all
- setFetchResourceSelectors(List<String>) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setFetchSleep(int) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setFetchSleepRange(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setFetchStart(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setFetchTime(String) - 类 中的方法com.bytegriffin.get4j.core.Page
-
- setFetchTotalPages(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setFetchUrl(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
格式化FetchUrl
- setFetchUserAgent(List<String>) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setFetchUserAgent(LinkedList<String>) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setFetchUserAgentFile(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
设置useragent文件 读取user agent文件到内存中
- setFetchUsername(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setFields(Map<String, String>) - 类 中的方法com.bytegriffin.get4j.conf.DynamicField
-
- setFields(Map<String, Object>) - 类 中的方法com.bytegriffin.get4j.core.Page
-
- setFileName(String) - 类 中的方法com.bytegriffin.get4j.download.DownloadFile
-
- setFinish() - 类 中的方法com.bytegriffin.get4j.probe.PageChangeProber
-
设置抓取完成状态,表示此次抓取过程完全执行
- setFtp(Map<String, String>) - 类 中的方法com.bytegriffin.get4j.conf.ResourceSync
-
- setHbase(Process) - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
-
- setHdfs(Process) - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
-
- setHost(String) - 类 中的方法com.bytegriffin.get4j.core.Page
-
- setHtmlContent(String) - 类 中的方法com.bytegriffin.get4j.core.Page
-
- setHttpProxy(String) - 类 中的静态方法com.bytegriffin.get4j.net.http.OkHttpClientEngine
-
设置请求中的Http代理
- setId(String) - 类 中的方法com.bytegriffin.get4j.core.Page
-
- setIdleStatus(String) - 接口 中的方法com.bytegriffin.get4j.core.WorkerStatusOpt
-
- setInitializers(List<Initializer>) - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
-
- setJsonContent(String) - 类 中的方法com.bytegriffin.get4j.core.Page
-
- setListPage(boolean) - 类 中的方法com.bytegriffin.get4j.core.Page
-
- setMethod(String) - 类 中的方法com.bytegriffin.get4j.core.Page
-
- setNodeName(String) - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
-
- setPageMode(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
设置抓取模式,默认是site抓取
- setPageMode(PageMode) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setPageParser(PageParser) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setParams(Map<String, String>) - 类 中的方法com.bytegriffin.get4j.core.Page
-
- setParseClassImpl(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setParseElementSelector(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setProbeMasterChecker(ProbeMasterChecker) - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
-
- setQueue(List<HttpProxy>) - 类 中的方法com.bytegriffin.get4j.net.http.HttpProxySelector
-
- setQueue(List<E>) - 类 中的方法com.bytegriffin.get4j.net.http.RandomSelector
-
- setQueue(List<Integer>) - 类 中的方法com.bytegriffin.get4j.net.http.SleepRandomSelector
-
- setQueue(List<String>) - 类 中的方法com.bytegriffin.get4j.net.http.UserAgentSelector
-
- setRedisAddress(String) - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
-
- setRedisAuth(String) - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
-
- setRedisMode(String) - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
-
- setResources(LinkedHashSet<String>) - 类 中的方法com.bytegriffin.get4j.core.Page
-
- setResourceSavePath(String) - 类 中的方法com.bytegriffin.get4j.core.Page
-
- setResourceSync(ResourceSync) - 类 中的方法com.bytegriffin.get4j.core.SpiderEngine
-
设置资源同步器
- setRsync(Map<String, String>) - 类 中的方法com.bytegriffin.get4j.conf.ResourceSync
-
- setRunStatus(String) - 接口 中的方法com.bytegriffin.get4j.core.WorkerStatusOpt
-
- setScp(Map<String, String>) - 类 中的方法com.bytegriffin.get4j.conf.ResourceSync
-
- setSeed(Seed) - 类 中的方法com.bytegriffin.get4j.core.SpiderEngine
-
设置种子Seed
- setSeedName(String) - 类 中的方法com.bytegriffin.get4j.conf.DynamicField
-
- setSeedName(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setSeedName(String) - 类 中的方法com.bytegriffin.get4j.core.Page
-
- setSeedName(String) - 类 中的方法com.bytegriffin.get4j.download.DownloadFile
-
- setSeeds(List<Seed>) - 类 中的方法com.bytegriffin.get4j.core.SpiderEngine
-
设置种子Seed列表
- setSetCookies(String) - 类 中的方法com.bytegriffin.get4j.core.Page
-
- setStatus(String) - 类 中的方法com.bytegriffin.get4j.probe.ProbePage
-
- setStoreFreeProxy(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setStoreHBase(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setStoreJdbc(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setStoreLuceneIndex(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setStoreMongodb(String) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setSync(Map<String, String>) - 类 中的方法com.bytegriffin.get4j.conf.ResourceSync
-
- setThreadCount(int) - 类 中的方法com.bytegriffin.get4j.conf.Seed
-
- setTitle(String) - 类 中的方法com.bytegriffin.get4j.core.Page
-
- setUrl(String) - 类 中的方法com.bytegriffin.get4j.core.Page
-
- setUrl(String) - 类 中的方法com.bytegriffin.get4j.download.DownloadFile
-
- setUrl(String) - 类 中的方法com.bytegriffin.get4j.probe.ProbePage
-
- setUrlAndHeader(Request.Builder, String) - 类 中的静态方法com.bytegriffin.get4j.net.http.AbstractHttpEngine
-
设置http请求url和header
- setUserAgent(String, Request.Builder) - 类 中的静态方法com.bytegriffin.get4j.net.http.OkHttpClientEngine
-
设置User_Agent
- setWorkerStatusOpt(WorkerStatusOpt) - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
-
- setXmlContent(String) - 类 中的方法com.bytegriffin.get4j.core.Page
-
- setZookeeperAddress(String) - 类 中的方法com.bytegriffin.get4j.conf.ClusterNode
-
- Single - com.bytegriffin.get4j.annotation中的注释类型
-
- single() - 类 中的静态方法com.bytegriffin.get4j.Spider
-
创建针对单个页面(不抓取页面上的链接)的爬虫
- SingleFetcher - com.bytegriffin.get4j.fetch中的类
-
单个页面抓取器
- SingleFetcher() - 类 的构造器com.bytegriffin.get4j.fetch.SingleFetcher
-
- Site - com.bytegriffin.get4j.annotation中的注释类型
-
- site() - 类 中的静态方法com.bytegriffin.get4j.Spider
-
创建针对整站(不包括外链)格式的爬虫
- SiteFetcher - com.bytegriffin.get4j.fetch中的类
-
整站抓取
如果这个站点里有含其它站点的url,那么这些url是不会被抓取的,是被过滤的
并且默认不支持向上抓取,只抓取本层以及以下的站点,采用的是宽度优先遍历
例如抓取的站点是www.aaa.com/bbb/,那么就不会抓取www.aaa.com的内容
- SiteFetcher() - 类 的构造器com.bytegriffin.get4j.fetch.SiteFetcher
-
- size() - 类 中的方法com.bytegriffin.get4j.util.ConcurrentQueue
-
- size(String) - 类 中的方法com.bytegriffin.get4j.util.ConcurrentQueue
-
- size() - 接口 中的方法com.bytegriffin.get4j.util.Queue
-
- size(String) - 接口 中的方法com.bytegriffin.get4j.util.Queue
-
- sleep(String, Logger) - 类 中的静态方法com.bytegriffin.get4j.net.http.AbstractHttpEngine
-
设计Http请求间隔时间
- sleep(int) - 类 中的方法com.bytegriffin.get4j.Spider
-
抓取延迟策略
非必填项。
- Sleep - com.bytegriffin.get4j.util中的类
-
- Sleep() - 类 的构造器com.bytegriffin.get4j.util.Sleep
-
- SleepRandomSelector - com.bytegriffin.get4j.net.http中的类
-
每次请求的时间间隔随机选择器
- SleepRandomSelector() - 类 的构造器com.bytegriffin.get4j.net.http.SleepRandomSelector
-
- sleepRange(int, int) - 类 中的方法com.bytegriffin.get4j.Spider
-
抓取随机延迟策略
非必填项。
- snapshot(String) - 类 中的方法com.bytegriffin.get4j.monitor.HealthChecker
-
- sniffAllLinks() - 类 中的方法com.bytegriffin.get4j.net.http.UrlAnalyzer
-
link链接嗅探:
获取并设置Html页面中的所有非资源的链接
用HashSet保存来保证url的唯一性
如果该url是一个资源文件(图片、js、css等)的话,那么将其保存到resource中。
- sniffAndSetResources() - 类 中的方法com.bytegriffin.get4j.net.http.UrlAnalyzer
-
针对Html和Json两种格式资源(图片、css、js、视频等)自动嗅探并设置:
如果ResourceSelector没有配置或者配置了all,表示要抓取各种资源的src和href
如果ResourceSelector配置了具体select参数,则表示抓取符合参数的具体资源
如果ResourceSelector配置了none,什么都不做,即表示:什么资源都不抓取,全部过滤
- sniffDetailLinks() - 类 中的方法com.bytegriffin.get4j.net.http.UrlAnalyzer
-
List_Detail模式下List列表中的Detail_link链接嗅探:
获取并设置Html页面中的所有非资源的链接
用HashSet保存来保证url的唯一性
如果该url是一个资源文件(图片、js、css等)的话,那么将其保存到resource中。
- sniffSiteLinks() - 类 中的方法com.bytegriffin.get4j.net.http.UrlAnalyzer
-
单个site站点中Html页面(非Json格式)的link链接嗅探:
获取并设置Html页面中的所有非资源的链接
用HashSet保存来保证url的唯一性
如果该url是一个资源文件(图片、js、css等)的话,那么将其保存到resource中。
- Spider - com.bytegriffin.get4j中的类
-
爬虫入口类兼API
主要负责对内配置文件加载运行 和 对外的API调用
- SpiderEngine - com.bytegriffin.get4j.core中的类
-
爬虫配置引擎
执行前的准备工作:组建工作流程
- split - 类 中的静态变量com.bytegriffin.get4j.net.sync.BatchScheduler
-
- start() - 类 中的静态方法com.bytegriffin.get4j.net.sync.BatchScheduler
-
- start() - 类 中的方法com.bytegriffin.get4j.probe.PageChangeProber
-
- start() - 类 中的方法com.bytegriffin.get4j.Spider
-
爬虫开启运行
检查Api设置是否设置正确,否则启动失败
- startUp(Seed, WorkerStatusOpt, boolean) - 类 中的方法com.bytegriffin.get4j.core.SpiderEngine
-
启动一个种子任务
- stop() - 类 中的静态方法com.bytegriffin.get4j.net.sync.BatchScheduler
-
- store_hbase - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
-
- store_jdbc - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
-
- store_lucene_index - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
-
- store_mongodb - 类 中的静态变量com.bytegriffin.get4j.conf.AbstractConfig
-
- StringUtil - com.bytegriffin.get4j.util中的类
-
- StringUtil() - 类 的构造器com.bytegriffin.get4j.util.StringUtil
-
- strToDate(String) - 类 中的静态方法com.bytegriffin.get4j.util.DateUtil
-
日期转换
- Sync - com.bytegriffin.get4j.annotation中的注释类型
-
- sync() - 类 中的方法com.bytegriffin.get4j.net.sync.FtpSyncer
-
- sync() - 类 中的方法com.bytegriffin.get4j.net.sync.RsyncSyncer
-
- sync() - 类 中的方法com.bytegriffin.get4j.net.sync.ScpSyncer
-
- sync() - 接口 中的方法com.bytegriffin.get4j.net.sync.Syncer
-
- sync_batch_count - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
-
每次同步的最大值
- sync_batch_time - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
-
每次同步的最大时间间隔,单位是秒
- sync_open - 类 中的静态变量com.bytegriffin.get4j.conf.DefaultConfig
-
是否开启资源同步
- Syncer - com.bytegriffin.get4j.net.sync中的接口
-
资源同步接口,有多种选项:ftp/rsync/scp