客户需求:

依托于多方数据源,构建海量企业信息库

需求要点:

  • 数据源包括中国工商网、天眼查、企查查、启信宝等
  • 将同一企业的信息整合
  • 定期更新,保证时效性

项目难点:

  • 数据量庞大,对采集效率要就极高
  • 此类网站的反爬机制都比较严格,不易采集

解决方案:

  1. 上千台云爬虫机构成集群,以及高度优化的分布式调度机制,保证海量数据的采集效率
  2. 在反爬领域有丰富的经验,能够破解滑动验证码等复杂验证机制
  3. 完善的采集计划监控机制,保证采集数据的正确、完整