首先是爬虫抓取环节,爬虫系统自动读取后台要解析的独立模版来解析对应的网站内容;其次是爬虫监控环节,包括监控每个种类每个爬虫抓取的数据量,以及监控爬虫的错误日志信息,部分问题可采用自动纠错机制来解决;
接着是数据清理环节,主要是将垃圾信息过滤,重复信息删除,相同信息合并,敏感信息标敏等等;最后则是整个系统中最需要注重稳定和效率的分析环节,因为分析的结果和效率是用户可看的,整个数据的结果集也相当重要。
通过搜索引擎的搜索对数据进行分析固化,分析结果为空的要进行纠错或重试处理,错误日志收集,失败请求次数收集,分析数据量收集,用户关键字收集等操作来建设更稳定的系统设计方案。