robots.txt设置
注意: 1.不分大小写 2.空白文档:允许所有搜索引擎抓取所有文档 3.robots文件正确放置与网站更目录 注释:文本前加"#"字符 通配符: "*":匹配0或多个任意字符 "$":匹配行结尾字符 基础设置: User-agent: * 1.指定搜索引擎 2.首字母必须大写,后面全小写 3.“*”正则通配,所有搜索引擎(可指定,百度:Baiduspider,谷歌:Googlebot) 组合设置: Disallow: / 禁止抓取,根目录下的所有内容 Disallow: /d 禁止抓取,d字母开头的所有目录 Disallow: /dir/ 禁止抓取,指定目录 Disallow: /dir/*.html 禁止抓取,指定目录下后缀为.html的文件 Disallow: .png$ 禁止抓取,所有后缀是png的文件 Allow: 允许抓取,用法参考Disallow 例子:(仅允许抓取指定目录,指定后缀文件) User-agent: * Disallow:/ Allow:/dir/.html$ 例子:(禁止动态链接的页面,如:index.html?name=abc) User-agent: * Disallow:/*?* 例子:(表示指定目录下,除Allow指定文件,其余都不能抓取) User-agent: * #允许所有爬虫 Allow:/data/*/index.html #允许抓取指定路径的指定文件 Disallow:/data/ #禁止抓取指定目录文件 ========================================================== 时间:2024/3/3 网址:www.liboke.cn ==========================================================