在抓取您的网站之前,蜘蛛会访问您的robots.txt文件,以确定您的网站是否会阻止蜘蛛抓取任何网页或网址。如果您的robots.txt文件存在但无法访问(也就是说,如果它没有返回200或404HTTP状态代码),我们就会推迟抓取,以免抓取到禁止网址。在上述情况下,蜘蛛会在成功访问您的robots.txt文件后立即返回您的网站并进行抓取。
(只有当您的网站包含您不想让搜索引擎编入索引的内容时,才需要使用robots.txt文件。如果您希望搜索引擎将网站上的所有内容都编入索引,就无需要使用robots.txt文件,甚至连空的robots.txt文件也不需要。如果您没有robots.txt文件,那么您的服务器会在蜘蛛请求该文件时返回404,我们就会继续抓取您的网站。这不会出现任何问题。)