2020-12-12 乐帮网
seo google
robots.txt 文件规定了搜索引擎抓取工具可以或者不需要抓取网站上的哪些网页或文件。有些内容可能我不需要搜索引擎收录,这样可以提高我们站点网页的整体质量。但是如果做不好风险也是很大,运维过程中不要在robots上犯低级错误。它的影响面确实很大,所以应该谨慎。
robots文件应该放到站点的根目录。完整名称robots.txt。还要注意文件的编码为UTF-8。
下面介绍如何针对主流搜索引擎配置robots文件。主流引擎(百度,bing,google)
先了解下通用规则:
User-agent: [必不可少,每个组需含一个或多个 User-agent 条目] 搜索引擎抓取工具的名称。这是每条规则的首行内容。支持使用星号 (*) 通配符表示路径前缀、后缀或整个字符。
Disallow: [每条规则需含至少一个或多个 Disallow 或 Allow 条目] 用来指定不抓取的目录或网页。支持使用通配符“*”表示路径前缀、后缀或整个字符串。
Allow: [每条规则需含至少一个或多个 Disallow 或 Allow 条目] 允许抓取已禁止访问的目录中的子目录或网页。如果是网页,配置完整网页名称;如果是目录,则应以标记“/”结尾。支持使用通配符“*”表示路径前缀、后缀或整个字符串。
Sitemap: [可选,每个文件可含零个或多个 Sitemap 条目] 相应网站的站点地图的位置。必须是完全Url路径。
站点的所有URL默认是Allow的,如果想禁止整个站点则
User-agent: *
Disallow: /
允许所有内容被搜索抓取可以这么写
User-agent: *
Allow: /
下面写一个自定义示例:
# google
User-agent: googlebot
Disallow: /Login
Disallow: /Privacy
Disallow: /Web/
Disallow: .bmp$
Allow: /Privacy/usermap/
# 百度
User-agent: Baiduspider
Disallow: /Login
Disallow: /Privacy
Disallow: /Web/
Disallow: .bmp$
Allow: /Privacy/usermap/
# bing
User-agent: Bingbot
Disallow: /Login
Disallow: /Privacy
Disallow: /Web/
Disallow: .bmp$
Allow: /Privacy/usermap/
# Sitemap: https://lebang2020.cn/sitemap.xml
看到这里可能你已经会自己配置了。
google爬虫名称可以查看这里:https://lebang2020.cn/details/2012122la1maih.html
相关文章:
Google 云服务器免费申请使用12个月Google Cloud
关注我的微信公众号
在公众号里留言交流
投稿邮箱:1052839972@qq.com
庭院深深深几许?杨柳堆烟,帘幕无重数。
玉勒雕鞍游冶处,楼高不见章台路。
雨横风狂三月暮。门掩黄昏,无计留春住。
泪眼问花花不语,乱红飞过秋千去。
如果感觉对您有帮助
欢迎向作者提供捐赠
这将是创作的最大动力