robots.txt文件应该放置在网站根目录下。比如说,当spider访问一个网站(例如http://www.chinaz.com)时,首先会检查该网站中是否存在http://www.chinaz.com/robots.txt这个文件,如果Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。也叫机器人排除标准(Robots Exclusion Standard),网站使用的文本文件,用于与网络机器人(最常见的SE机器人)进行通信,以处理网站的每个页面。在这里,您可以将某些页面设置为漫游器的禁区,并仅扫描最有用的内容。
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。