如何配置使网站不被搜索引擎收录
网站搭建完成后,自然期望网页被搜索引擎收录得越多越好,但有时我们也会遇到网站不希望被搜索引擎收录的情况。
例如,需要启用一个新的域名作为镜像网站,主要用于PPC推广,这时就需要设法阻止搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录,可能会影响官网在搜索引擎的权重。
以下列举了屏蔽主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种方法。注意:是整站屏蔽,而且是尽可能屏蔽掉所有主流搜索引擎的爬虫(蜘蛛)。
1、通过robots.txt文件屏蔽
可以说robots.txt文件是最重要的途径(能与搜索引擎直接对话),以下是一些建议:
User-agent: Baiduspider
Disallow: /
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Disallow: /
User-agent: Googlebot-Image
Disallow: /
User-agent: Mediapartners-Google
Disallow: /
User-agent: Adsbot-Google
Disallow: /
User-agent: Feedfetcher-Google
Disallow: /
User-agent: Yahoo! Slurp
Disallow: /
User-agent: Yahoo! Slurp China
Disallow: /
User-agent: Yahoo!-AdCrawler
Disallow: /
User-agent: YoudaoBot
Disallow: /
User-agent: Sosospider
Disallow: /
User-agent: Sogou spider
Disallow: /
User-agent: Sogou web spider
Disallow: /
User-agent: MSNBot
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: Tomato Bot
Disallow: /
User-agent: *
Disallow: /
2、通过meta tag屏蔽
在所有网页的头部文件中添加如下语句:
3、通过服务器(如:Linux/nginx)配置文件设置
直接过滤spider/robots的IP段。
小贴士:第1招和第2招只对“君子”有效,防止“小人”使用第3招(“君子”和“小人”分别泛指遵守与不遵守robots.txt协议的spider/robots),因此网站上线后要不断跟踪分析日志,筛选出这些badbot的IP,然后屏蔽之。
如何使我的网页不被百度收录
百度严格遵守搜索引擎Robots协议。用户可以设置一个Robots文件以限制您的网站全部网页或部分目录下网页不被百度收录。
如果您的网站在被百度收录后才设置Robots文件禁止抓取,那么新的Robots文件通常会在48小时内生效,生效后的新网页将不再被索引。需要注意的是,robots.txt禁止收录以前百度已收录的内容,从搜索结果中去除可能需要数月的时间。
提示:如果您的拒绝被收录需求非常紧急,可以在反馈中心反馈,百度会尽快处理。
以上所转载内容均来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2020@163.com,本人将予以删除。