开放接口说明RxSimpleCrawler接口


interface RxSimpleCrawler 提供对目标网站快速操作和得到网页上元素的能力, 包括打开网页,基于网页上的XPath得到网页上对应的元素。这个接口仅适用于比较简单的页面进行抓取。

函数定义:

public void open(String url) throws RxCrawlerException;

根据指定的url,打开一个网页。

public void open(String url,int pageHeight) throws RxCrawlerException;

根据指定url,打开一个网页,可以设定打开网页的页面高度。

public void setPageHeight(int pageHeight) throws RxCrawlerException;

设定打开网页的页面高度。

public RxNode getNodeByXpath(String xpath) throws RxCrawlerException;

在使用open函数打开网页后,使用xpath参数返回一个RxNode对象对应的是页面上找到的html元素。

public RxSelectNode getSelectNodeByXpath(String xpath) throws RxCrawlerException;

在使用open函数打开网页后,使用xpath参数返回一个RxSelectNode对象对应的是页面上找到的Select类型的html元素。

public List<RxNode> getNodeListByXpath(String xpath) throws RxCrawlerException;

在使用open函数打开网页后,使用xpath参数返回RxNode对象List, 对应的是页面上找到的html元素列表。

public List<RxNode> getNodeListById(String id) throws RxCrawlerException;

在使用open函数打开网页后,使用id参数返回RxNode对象List, 对应的是页面上找到的html元素列表。

public List<RxNode> getNodeListByName(String id) throws RxCrawlerException;

在使用open函数打开网页后,使用name参数返回RxNode对象List, 对应的是页面上找到的html元素列表。

public void input(String xpath, String text) throws RxCrawlerException;

在使用open函数打开网页后,基于指定的xpath为对应的html元素输入文本。

public void clear(String xpath) throws RxCrawlerException;

清空指定页面元素的数据。

public JSONObject getAllCookies() throws RxCrawlerException;

在使用open函数打开网页后,获得所有的cookies,为JSon格式。

public String getCookieByName( String name );

在使用open函数打开网页后,获得指定名称的cookie。

public String getPageSource() throws RxCrawlerException;

得到页面的html源代码。

public String getTitle() throws RxCrawlerException;

得到页面的Title。

public void sleepSeconds(int seconds);

当前插件程序暂停指定的秒数。