客户需求:

采集各省级税务局官方网站上的全部税务知识文章,并转化成Word/PDF格式,用以构建客户本地税务知识库

需求要点:

  • 采集内容是非结构化的文章数据,需保持原本样式不变
  • 全部文章采集,并根据规则去重
  • 生成Word/PDF格式文档

项目难点:

  • 政府网站服务器质量较差,采集效率低
  • 非结构化数据存储(包括图片、表格、文章格式)
  • HTML格式的文章转化成Word/PDF格式,并保持原样式

解决方案:

  1. 通过httpClient的方式直接访问网站内容,提高采集速率。且失败后间隔重发,保证采集数据完整度
  2. 通过数据清洗将文章内容拆分成结构化数据及文件,分别存储
  3. 通过JNI调用Office API的方式,将HTML的文章转化为Word格式,且保留原始样式