思路
网站地图(首先爬一个网站的首页,然后得到首页里面的超链接,这样就可以得到这个网站的二级页面,然后继续,最终爬去这个网站所有的页面)
互联网(假如你得到了一个超链接,那么就可以得到另一个,就可以继续得到另一个,继续下去,就可以得到整个互联网)
注意:
抓取数据时,需要分析特定网站的结构,一遍能抓取特定的数据
抓取的时候,应该支持多线程,这样才能在有限的生命中爬取完需要的数据
思路
网站地图(首先爬一个网站的首页,然后得到首页里面的超链接,这样就可以得到这个网站的二级页面,然后继续,最终爬去这个网站所有的页面)
互联网(假如你得到了一个超链接,那么就可以得到另一个,就可以继续得到另一个,继续下去,就可以得到整个互联网)
注意:
抓取数据时,需要分析特定网站的结构,一遍能抓取特定的数据
抓取的时候,应该支持多线程,这样才能在有限的生命中爬取完需要的数据