因为Python提供了如urllib、re、json、pyquery等模块,同时又有很多成型框架,如Scrapy框架、PySpider爬虫系统等,本身又是十分的简洁方便,所以和爬虫联系在一起。
Python是完全面向对象的语言。函数、模块、数字、字符串都是对象。并且完全支持继承、重载、派生、多继承,有益于增强源代码的复用性。Python支持重载运算符和动态类型。相对于Lisp这种传统的函数式编程语言,Python对函数式设计只提供了有限的支持。有两个标准库(functools, itertools)提供了Haskell和Standard ML中久经考验的函数式程序设计工具。
扩展资料:
网页爬虫的行为通常是四种策略组合的结果。
1、选择策略,决定所要下载的页面;
2、重新访问策略,决定什么时候检查页面的更新变化;
3、平衡礼貌策略,指出怎样避免站点超载;
4、并行策略,指出怎么协同达到分布式抓取的效果。
参考资料来源:百度百科-网络爬虫
参考资料来源:百度百科-Python