名词解释


(1)App(应用)

一个App可以理解为是一个数据采集应用,例如:(A1)采集某招聘网站信息

(2)Scenario(场景)

一个App中包含一个或多个Scenario, 一个Scenario对应一个采集场景,例如,(A1)采集某招聘网信息 包
含两个Scenario:(S1)采集公开招聘信息, (S2)采集私有应聘信息

(3)Rule(规则)

一个Scenario采集场景经常需要多个采集步骤才能完成,一个Rule对应一个采集步骤,一个Scenario包含
一个或多个Rule。
例如:(S1)采集公开招聘信息 包含两个Rule:(R1)利用关键词搜索职位,采集职位链接, (R2)利用R1采集
的职位链接,采集职位的详细信息。 一个Rule 包括规则配置和规则程序两部分,规则程序具体为
Java类。

(4)Task(任务)

数据采集任务,Task是运行Rule程序的输入,一个Task触发对应Rule的一次运行,Task可以包含最多9个
参数:v1, v2, v3, v4, v5, v6, v7, v8, v9,由开发者决定参数的含义。

(5)Crawler(爬虫机)

一台爬虫机是一台物理机器,上面可以运行各种不同Rule的采集任务。

(6)Session(线程)

一台爬虫机中有多个采集线程,一个线程称为一个Session,更多的线程可以提高并发采集效率。

(7)Database(数据库)

系统为每个用户提供的专属数据存储空间,用于存储Rule采集到的数据,也用于保存一些参照数据,用户
可以根据需求自由定义参照数据表和数据存储表的结构。

(8)Account(账号)

对于需要登录的目标网站,需要设置Account信息,包括用户名和密码等。

(9)XPATH

HTML页面元素的定位标识