Q: 瑞雪采集云都能采集哪些数据?

只要是互联网公开数据都可以采集,来源包括web网站、微信公众号、App

Q: 有些网站需要登录后才能访问,瑞雪采集云可以抓取这样的目标网站数据吗?

是的,瑞雪采集云可以支持这种功能。
创建app的时候需要指定 need account 选项,由于是较为高级功能,需要联系采集云平台的管理人员为您配置登录需要的账号和密码。
规则中访网站时,调用接口 RxTask.getUserName() 和 RxTask.getPassword() 取得预先配置的账号和密码,再调用接口 RxCrawler.input(name, password) 在登录页面输入登录信息。

Q: 必须精通JAVA语言才能使用吗?

需要使用者有一定的JAVA语言基础。不过因为底层采集功能高度封装,所以只要懂JAVA语法,参照新手培训文档就可以快速掌握

Q: 有些网站需要输入验证码,瑞雪采集云可以抓取这样的目标网站数据吗?

对于一般的验证码,瑞雪采集云提供API可以自动识别验证码并输入。当发现目标网站需要输入验证码的地方,调用开放平台Api 接口 RxCrawler.inputVerifyCode() 方法。
如果是破解难度比较高的验证码,可以联系客服,我们还提供定制化的验证码破解服务。

Q: 为什么在采集云开放平台里的代码不可以使用java.io 包下的类?

基于安全性考虑,开放平台屏蔽了一些java的package, 包括第三方的类。

Q: 如何得到要抓取数据的Xpath?

如果对Xpath没有了解可以参照 快速开始 中的教程,更详细的可以参考 http://www.w3school.com.cn/xpath/xpath_syntax.asp 介绍教程。
XPath 使用路径表达式在 XML和 XHtml 文档中选取节点,浏览器的开发工具一般都支持对元素XPath的查找和定位。

Q: 常见异常 Throwable : org.openqa.selenium.StaleElementReferenceException: stale element reference: element is not attached to the page document 发生的原因?

这种异常一般是页面的元素没有在页面上显示出来造成的。可能是以下原因导致:
1. 页面存在异步加载,元素没加载完,等待1,2秒
2. 页面元素被隐藏了,xpath可以找到,但元素内容抓取不到。

Q: 能够采集国外网站的数据么?

我们有部署在国外的云服务器,可以采集国外网站的数据