以下是我从站长网上看到的文章。

“robots.txt是搜索引擎行业里公认的网站对搜索引擎爬虫作出索引指示的文件,存放在网站根目录。也就是说,这个文件描述了哪些页面允许爬取,哪些不允许。

  但百度虽然口里说尊重robots.txt,但实际上可能还会派匿名爬虫去爬不允许百度收录的网站。

  淘宝前几天在robots.txt里限制了百度爬虫,不让百度收录其任何页面,我相信百度不会敢动淘宝,不然就会是大笑话了。”

我自己要说的是:百度就是不尊重robots.txt。因为我拿一个域名测试过,上面设置了禁止所有的搜索引擎收录,而google就没有收录,过了一阵子百度收录了。(一般来说都是google收录快吧)