客户需求:

采集金融投资类知名公众号历史文章

需求要点:

  • 采集历史文章,并每日更新最新内容
  • 文章格式需处理,将分页内容整合到一起,并去掉广告内容
  • 文章相关图片需独立保存

项目难点:

  • 微信反爬机制严格,新号无法采集
  • 文章内容处理,广告内容识别
  • 独立图片文件存储空间

解决方案:

  1. 拥有大量真实微信号,不易被屏蔽
  2. 在文章内容识别、分页处理、图片识别方面有丰富经验
  3. 提供一定免费存储空间,不足的部分可以灵活增加
  4. 成熟的图片资源独立存储方案