- p4Range - 类 中的静态变量cn.spark2fire.jscrapy.utils.RequestUtils
-
- pageMap - 类 中的变量cn.spark2fire.jscrapy.pipeline.MultiPagePipeline
-
- PageMapper<T> - cn.spark2fire.jscrapy.model中的类
-
- PageMapper(Class<T>) - 类 的构造器cn.spark2fire.jscrapy.model.PageMapper
-
- pageModelClasses - 类 中的变量cn.spark2fire.jscrapy.model.OOSpider
-
- PageModelCollectorPipeline<T> - cn.spark2fire.jscrapy.model中的类
-
- PageModelCollectorPipeline(Class<?>) - 类 的构造器cn.spark2fire.jscrapy.model.PageModelCollectorPipeline
-
- pageModelExtractor - 类 中的变量cn.spark2fire.jscrapy.model.PageMapper
-
- PageModelExtractor - cn.spark2fire.jscrapy.model中的类
-
The main internal logic of page model extractor.
- PageModelExtractor() - 类 的构造器cn.spark2fire.jscrapy.model.PageModelExtractor
-
- pageModelExtractorList - 类 中的变量cn.spark2fire.jscrapy.model.ModelPageProcessor
-
- pageModelPipeline - 类 中的变量cn.spark2fire.jscrapy.model.OOSpider
-
- PageModelPipeline<T> - cn.spark2fire.jscrapy.pipeline中的接口
-
Implements PageModelPipeline to persistent your page model.
- pageModelPipelines - 类 中的变量cn.spark2fire.jscrapy.model.ModelPipeline
-
- pattern - 类 中的变量cn.spark2fire.jscrapy.entity.PatternRequestMatcher
-
match pattern. only matched page should be handled.
- patternCompiled - 类 中的变量cn.spark2fire.jscrapy.entity.PatternRequestMatcher
-
- PatternProcessor - cn.spark2fire.jscrapy.entity中的类
-
- PatternProcessor(String) - 类 的构造器cn.spark2fire.jscrapy.entity.PatternProcessor
-
- PatternProcessorExample - cn.spark2fire.jscrapy.example中的类
-
Created with IntelliJ IDEA.
- PatternProcessorExample() - 类 的构造器cn.spark2fire.jscrapy.example.PatternProcessorExample
-
- PatternRequestMatcher - cn.spark2fire.jscrapy.entity中的类
-
Created with IntelliJ IDEA.
- PatternRequestMatcher(String) - 类 的构造器cn.spark2fire.jscrapy.entity.PatternRequestMatcher
-
- phantomJsCommand - 类 中的静态变量cn.spark2fire.jscrapy.downloader.PhantomJSDownloader
-
- PhantomJSDownloader - cn.spark2fire.jscrapy.downloader中的类
-
this downloader is used to download pages which need to render the javascript
- PhantomJSDownloader() - 类 的构造器cn.spark2fire.jscrapy.downloader.PhantomJSDownloader
-
- PhantomJSDownloader(String) - 类 的构造器cn.spark2fire.jscrapy.downloader.PhantomJSDownloader
-
添加新的构造函数,支持phantomjs自定义命令
example:
phantomjs.exe 支持windows环境
phantomjs --ignore-ssl-errors=yes 忽略抓取地址是https时的一些错误
/usr/local/bin/phantomjs 命令的绝对路径,避免因系统环境变量引起的IOException
- PhantomJSDownloader(String, String) - 类 的构造器cn.spark2fire.jscrapy.downloader.PhantomJSDownloader
-
新增构造函数,支持crawl.js路径自定义,因为当其他项目依赖此jar包时,runtime.exec()执行phantomjs命令时无使用法jar包中的crawl.js
crawl.js start --
var system = require('system');
var url = system.args[1];
var page = require('webpage').create();
page.settings.loadImages = false;
page.settings.resourceTimeout = 5000;
page.open(url, function (status) {
if (status !
- PLUS_PRIORITY_SUFFIX - 类 中的静态变量cn.spark2fire.jscrapy.scheduler.RedisPriorityScheduler
-
- poll(Task) - 类 中的方法cn.spark2fire.jscrapy.scheduler.FileCacheQueueScheduler
-
- poll(Task) - 类 中的方法cn.spark2fire.jscrapy.scheduler.RedisPriorityScheduler
-
- poll(Task) - 类 中的方法cn.spark2fire.jscrapy.scheduler.RedisScheduler
-
- pool - 类 中的变量cn.spark2fire.jscrapy.scheduler.RedisScheduler
-
- postProcessPageModel(Class, Object) - 类 中的方法cn.spark2fire.jscrapy.model.ModelPageProcessor
-
- process(Page) - 类 中的方法cn.spark2fire.jscrapy.configurable.ConfigurablePageProcessor
-
- process(Page) - 类 中的方法cn.spark2fire.jscrapy.entity.CompositePageProcessor
-
- process(ResultItems, Task) - 类 中的方法cn.spark2fire.jscrapy.entity.CompositePipeline
-
- process(Page) - 类 中的方法cn.spark2fire.jscrapy.example.GithubRepoPageMapper
-
- process(Object, Task) - 类 中的方法cn.spark2fire.jscrapy.model.ConsolePageModelPipeline
-
- process(Page) - 类 中的方法cn.spark2fire.jscrapy.model.ModelPageProcessor
-
- process(ResultItems, Task) - 类 中的方法cn.spark2fire.jscrapy.model.ModelPipeline
-
- process(ResultItems, Task) - 类 中的方法cn.spark2fire.jscrapy.model.PageModelCollectorPipeline
-
- process(Page) - 类 中的方法cn.spark2fire.jscrapy.model.PageModelExtractor
-
- process(T, Task) - 类 中的方法cn.spark2fire.jscrapy.pipeline.CollectorPageModelPipeline
-
- process(Object, Task) - 类 中的方法cn.spark2fire.jscrapy.pipeline.FilePageModelPipeline
-
- process(Object, Task) - 类 中的方法cn.spark2fire.jscrapy.pipeline.JsonFilePageModelPipeline
-
- process(ResultItems, Task) - 类 中的方法cn.spark2fire.jscrapy.pipeline.JsonFilePipeline
-
- process(ResultItems, Task) - 类 中的方法cn.spark2fire.jscrapy.pipeline.MultiPagePipeline
-
- process(T, Task) - 接口 中的方法cn.spark2fire.jscrapy.pipeline.PageModelPipeline
-
- processPage(Page) - 接口 中的方法cn.spark2fire.jscrapy.entity.SubPageProcessor
-
process the page, extract urls to fetch, extract the data and store
- processResult(ResultItems, Task) - 接口 中的方法cn.spark2fire.jscrapy.entity.SubPipeline
-
process the page, extract urls to fetch, extract the data and store
- processSingle(Page, String, boolean) - 类 中的方法cn.spark2fire.jscrapy.model.PageModelExtractor
-
- protoMapClass - 类 中的变量cn.spark2fire.jscrapy.utils.MultiKeyMapBase
-
- pushWhenNoDuplicate(Request, Task) - 类 中的方法cn.spark2fire.jscrapy.scheduler.FileCacheQueueScheduler
-
- pushWhenNoDuplicate(Request, Task) - 类 中的方法cn.spark2fire.jscrapy.scheduler.RedisPriorityScheduler
-
- pushWhenNoDuplicate(Request, Task) - 类 中的方法cn.spark2fire.jscrapy.scheduler.RedisScheduler
-
- put(Class<? extends ObjectFormatter>) - 类 中的静态方法cn.spark2fire.jscrapy.model.formatter.ObjectFormatters
-
- put(Class, PageModelPipeline) - 类 中的方法cn.spark2fire.jscrapy.model.ModelPipeline
-
- put(K1, Map<K2, V>) - 类 中的方法cn.spark2fire.jscrapy.utils.DoubleKeyMap
-
- put(K1, K2, V) - 类 中的方法cn.spark2fire.jscrapy.utils.DoubleKeyMap
-