建议你用用前嗅的ForeSpider数据采集软件,我之前就用这个软件采集过京东的所有商品评论,并且能够在软件里进行数据挖掘和分类、统计、数据分析。
ForeSpider内部集成了数据挖掘的功能,可以快速进行聚类分类、统计分析等,采集结果入库后就可以形成分析报表。
而且这软件是可视化操作,自己就只需要简单配置几步就可以采集。
要是有的网站很复杂,他是自带爬虫脚本语言,自己写几行脚本,就可以采集所有的公开数据了。
软件还自带免费的数据库,数据采集直接存入数据库,也可以导出成excel文件。
不过我之前就想自己配置,前嗅他们是可以配置采集模板的,我就直接从前嗅买的模板。
我看你可以去下载一个免费版试一试,免费版不限制功能,也没有到期时间。