Robots.txt 是你穿告诉搜索机器人什么页面你会喜欢他们不可以够访问你的网站的文本 (而不是 html) 文件。 Robots.txt 是否强制性的搜索引擎,但搜索引擎一般遵守他们都问什么不该做。 务必要澄清 robots.txt 不从预防搜索引擎抓取你的网站 (即它是不一的防火墙或密码保护的一种) 的一种办法,你放置一个 robots.txt 文件的事实是有点像把一条注解"请勿输入"一个解锁的门 — — 上如不可以预防小偷进去,但好人,将不打开门,然后输入。 也就是为何大家说是不是真的有森 sitive 数据,是太依靠 robots.txt,以预防被索引,并显示在搜索结果的不健全。
robots.txt 的地方是尤为重要的。 它需要是主目录中,由于不然用户代理 (搜索引擎) 不会可以找到它 — — 他们不中搜索名为 robots.txt 的文件的整个站点。 相反,他们第一主目录 (如 http://mydomain.com/robots.txt) 中查找和他们那里找不到它,假如他们只不过假定此站点没 robots.txt 文件,因此他们索引他们发现路上的所有。 因此,假如你不穿 robots.txt 中适合的地方,不要惊讶搜索引擎索引了你的整个站点。
定义与结构的 robots.txt 已进步了十多年前,假如你感兴趣进一步知道它,请访问 http://www.robotstxt.org/ 或由于这篇文章中,大家会处置只与一个 robots.txt 文件的非常重要的环节,你可以转到 标准的机器人排除 直。 下一步大家会与结构继续 robots.txt 文件。
Robots.txt File 的结构
一个 robots.txt 的结构是相当简单 (和几乎不可以灵活) – 它是用户代理和不允许的文件和目录的一个无穷列表。 基本上,语法如下所示:
用户代理:
不允许:
"用户代理" 是搜索引擎的抓取工具和 不允许: 列出的文件和要从索引中排除的目录。 在"用户代理:"和"不允许:"条目,你可以包括注解行 – 只不过在行的开头放置,# 号:
# 所有用户代理不都允许以查询该 /temp 目录。
用户代理: *
不允许: /temp/
Robots.txt File 的陷阱
当你开始做复杂的文件 – 即你决定允许不一样的用户代理访问不一样的目录 – 可以开始问题,假如你没支付成本的 robots.txt 文件陷阱,特别看重。 容易见到的错误包含打字错误和有冲突的指令。 拼写错误的用户-代理后用户代理和 Disallow,, 缺少冒号的目录包含拼写错误等。 打字错误可以非常难找到,但在某些状况下验证工具的帮忙。
更紧急的问题是有逻辑错误。 比如:
用户代理: *
不允许: /temp/
用户代理: 谷歌bot
不允许: /images/
不允许: /temp/
不允许: /cgi-bin /
上面的示例中是一个允许访问除在 /temp 站点上的所有内容的所有代理的 robots.txt 从目录。 达在这里非常不错,但更高版本在那里是另一个记录,为 谷歌bot 指定限制性更强的条约。 谷歌bot 开始读取 robots.txt,它会看到所有文件夹除外/temp/并都允许的 (包含 谷歌bot 本身) 的所有用户代理。 这是足够的认知,它不会读到文件和所有除去 /temp/-包含 /images/ 和 /cgi-bin,会索引 /,你觉得你已经告诉它不要 谷歌bot。 你看到一个 robots.txt 文件结构的简单但仍紧急的错误可以便捷地进行。
用于生成和验证 Robots.txt 文件工具
记住,你可以有一个 robots.txt 文件的简单语法,你可以一直阅读这所有都是可以的但它是更易于用验证程序类似如此: http://tool.motoricerca.info/robots-checker.phtml。 这类工具报告有关容易见到的错误,如缺少斜杠或冒号,测试不到的如该会危及你的努力。 为比如果你键入:
user-agent: *
不允许: /temp/
这是不对的由于有"用户"和"代理"之间没斜杠和语法不正确。
在这样的情况下当你有一个复杂的 robots.txt 文件 – 即你给不一样的用户代理的不同指令或你有一长串的目录和子目录中排除,撰写文件手工可以一个真的的痛苦。 但不需要担忧,— — 有些工具,将为你生成该文件。 什么是更多有允许选择什么文件,并点的可视化工具,是要排除的文件夹。 即便你不喜欢为 robots.txt 代买一个图形化的工具,但在在线工具为你提供帮助。 为例 服务器端机器人发电机 提供的用户代理的下拉列表,你可以列出文件的文本框,你不期望打造索引。 坦白的说,它不好帮了除非你想要设置特定的规则,为不一样的搜索引擎,由于在任何状况下,你键入的目录列表,但不仅仅是什么。
本文由网站制作公司博久网络发布,转载请注明文章出处!