客户需求:

随着互联网时代的发展,越来越多的征信企业,将互联网公开数据作为征信报告的一个重要数据来源。于是产生了如下需求:

  1. 从多个目标网站中查询企业的电话号码
  2. 从国家工商网查询企业详细信息
  3. 从国家商标网查询企业商标授权书
  4. 将所有企业信息汇总,让操作人可以在一处进行认证审核工作,提高工作效率

需求要点:

  • 多数据源数据汇总并去重
  • 对查询反应的时效性有较高要求
  • 定制开发专属后台操作页面

项目难点:

  • 政府网站服务器质量较差,采集失败率高,且目标网站性能极大影响查询反应效率
  • 商标网反爬机制非常严格
  • 需要图片识别技术来实现自动化文书比对
  • 定制专属页面需详细调研客户业务流程
  • 客户对数据安全有较高要求

解决方案:

  1. 通过周期性批量采集的方式,可以有效提高采集成功率(失败时重发)。同时,操作人在使用时其实是直接从本地打开数据,反应效率极高
  2. 千台爬虫机 + 优质代理IP池可以最大限度降低被目标网站屏蔽的几率。经过不断研究,我们还破解了商标网的滑动验证码
  3. 经过客户现场的实地调研,详细了解客户的业务流程,开发出符合客户工作习惯的后台管理系统。
  4. 实现了商标文书的图像识别,极大地提高了生产效率
  5. 支持私有云部署,保证客户数据资产的安全