登录平台


访问 https://open.web2data.com,输入用户名和密码,登录瑞雪采集云开发者后台。

创建应用


点击菜单“Workspace >> App Rule”,进入应用列表页面。点击“创建(Add)”按钮。

在弹出的页面中配置应用(app)、场景(scenario)、规则(rule):

 

1. 设置你的应用名称,配置数据库相关信息(本例中使用平台提供的默认数据库),然后保存。

  • 设置应用名称
  • 配置数据源地址

 

2. 在应用下创建场景,输入场景名称并保存。

 

3. 在场景中创建规则,设置相关内容并保存。

  • 设置规则名称
  • 设置规则有效期,使用默认即可
  • 选择脚本语言,支持Java和Python两种语言,这里选择Java
  • 其他选项默认即可

 

4. 成功创建个人应用。

 

编写规则


点击菜单“Workspace >> Rule Script”,进入规则编辑页面。

选择上面创建的应用、场景、规则,编辑框会出现系统为你准备的新手示例代码

package com.ruixuesoft.crawler.open.rule;

import java.sql.SQLException;
import java.util.*;

import com.ruixuesoft.crawler.open.RxCrawler;
import com.ruixuesoft.crawler.open.RxCrawlerException;
import com.ruixuesoft.crawler.open.RxDatabase;
import com.ruixuesoft.crawler.open.RxNode;
import com.ruixuesoft.crawler.open.RxResult;
import com.ruixuesoft.crawler.open.RxRule;
import com.ruixuesoft.crawler.open.RxTask;

public class Rule implements RxRule {

	@Override
	public RxResult execute(RxTask task, RxCrawler crawler, RxDatabase database) throws RxCrawlerException {
		// 记录log日志
		task.log("百度搜索结果抓取-开始");

		// 打开百度首页
		crawler.open("https://www.baidu.com/");

		// 得到参数v1输入框里的值
		String searchKey = task.getV1();

		// 通过XPath的方式,选取搜索关键字框,输入查询关键字
		crawler.input("//*[@id='kw']", searchKey);

		// 有页面刷新,等待1秒
		crawler.sleepSeconds(1);

		// 通过XPath的方式,选取[百度一下]按钮,点击
		RxNode searchNode = crawler.getNodeByXpath("//*[@id='su']");
		searchNode.click();

		// 有页面刷新,等待1秒
		crawler.sleepSeconds(1);

		// 搜索结果一览的xpath
		String baseXpath = "//*[@id='%s']/h3/a";

		// 输出第一页的10条搜索结果
		for (int i = 1; i <= 10; i++) {

			// 搜索结果一览中每一条的xpath
			String xpath = String.format(baseXpath, i);

			// 选取每一条搜索结果的标题
			RxNode resultNode = crawler.getNodeByXpath(xpath);
			String resultContent = resultNode.getText();

			// 在log中输出抓取到的搜索结果
			task.log(resultContent);
		}

		task.log("百度搜索结果抓取-结束");

		// 标记该规则爬取成功
		RxResult result = new RxResult();
		result.setFinishCode(200);
		return result;
	}
}

在线测试


代码编辑完成后,点击“Save”保存,然后点击“Test”执行。

日志如下:

11:36:13 [保存] 代码保存成功, version: 1
11:36:13 [编译] 代码编译开始
11:36:15 [编译] 代码编译成功
11:36:15 [调度] 任务创建开始
11:36:15 [调度] 任务创建成功
11:36:15 [调度] 任务调度成功
11:36:18 [运行] 任务执行开始
11:36:19 [运行] 百度搜索结果抓取-开始
11:36:29 [运行] 瑞雪科技——大数据驱动的创新CRM服务商
11:36:29 [运行] 北京瑞雪环球科技有限公司-网站首页
11:36:29 [运行] 瑞雪采集云:为企业构建互联网数据采集能力打call_驱动中国
11:36:30 [运行] 瑞雪科技CEO洪斌:现在消费者难伺候 企业如何为客户提供有..._中华网
11:36:30 [运行] 大连瑞雪科技有限公司怎么样? - 职友集(让就业决策更聪明)
11:36:30 [运行] 北京富瑞雪科技发展有限公司
11:36:31 [运行] 瑞雪科技与黑科技共舞——瑞雪精彩亮相GIEC2017全球互联网经济...
11:36:31 [运行] 瑞雪科技撬动大数据的力量!-IT168 互联网专区
11:36:31 [运行] 市场部网-【瑞雪科技】
11:36:31 [运行] 在上海市搜索瑞雪科技_百度地图
11:36:32 [运行] 百度搜索结果抓取-结束
11:36:32 [运行] 任务执行结束

查看任务执行状态


点击菜单“Workspace >> Task Progress”,进入任务列表页面,查看任务执行情况。

选择我们刚才测试的规则后,进行查询

  • 结束码为200,含义为正确执行

点击“查询详情”,可以查看执行任务明细

到此,我们这个简单的示例就演示完了,更多了解请查看进阶教程