Python网站爬虫只能爬自己所选的网址?

2022-03-18 科技 34阅读

思路

  1. 网站地图(首先爬一个网站的首页,然后得到首页里面的超链接,这样就可以得到这个网站的二级页面,然后继续,最终爬去这个网站所有的页面)

  2. 互联网(假如你得到了一个超链接,那么就可以得到另一个,就可以继续得到另一个,继续下去,就可以得到整个互联网)

注意:

  1. 抓取数据时,需要分析特定网站的结构,一遍能抓取特定的数据

  2. 抓取的时候,应该支持多线程,这样才能在有限的生命中爬取完需要的数据

声明:你问我答网所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系fangmu6661024@163.com