Robots.txt:如何在 WordPress 网站上优化此文件
已发表: 2022-01-21如果我让你在 WordPress 上定义什么是robots.txt文件,你能给我一个直接的答案吗?
不容易,是吗? 此外,在不知情的情况下,您的网站上可能已经有一个。
问题是,我们并不总是理解这个著名的文件。 这有什么用途? 你在里面放什么? 为什么它的代码看起来很难理解?
如果你曾经研究过这个主题,我敢打赌你已经问过自己这些问题。
有点像炸药,这个文件必须小心处理。
如果您没有正确设置它,您可能会损坏您网站的 SEO。 所以要小心爆炸!

在这篇文章中,我将向您展示如何避免灾难,以及如何优化您的 WordPress robots.txt文件。 您将发现它的用途、工作原理、创建它的两种方法以及放入其中的内容。
概述
- 什么是 WordPress robots.txt 文件?
- 如何创建 WordPress robots.txt 文件?
- 如何检查您的 robots.txt 文件是否正常工作?
- 如何在 WordPress 上优化您的 robots.txt 文件?
- 结论
什么是 WordPress robots.txt 文件?
推介会
WordPress robots.txt文件是位于您网站根目录的文本文件,根据 Google 在其网站管理员帮助网站上给出的定义,它“告诉搜索引擎爬虫爬虫可以在您的网站上访问哪些 URL” 。
也称为“机器人排除标准/协议”,它允许搜索引擎避免索引某些无用和/或私人内容(例如您的登录页面、敏感文件夹和文件)。
简而言之,该协议告诉搜索引擎的机器人他们可以或不能在您的网站上做什么。
下面是它的工作原理。 当机器人将要抓取您网站的 URL 时(即,它将探索和检索信息以对其进行索引),它会首先查看您的robots.txt文件。
如果它找到它,它将读取它,然后按照您给它的指令执行(如果您禁止它,它将无法抓取某个文件)。
如果没有找到,它将以正常方式抓取您的网站,不排除任何内容。
看看这个 WordPress robots.txt文件的例子,看看它是什么样子的:

不一定要停留在它的内容上。 正如您稍后将看到的,没有可以适应任何站点的标准文件。 无论如何,不建议这样做。
如果您还必须记住关于我们今天主题的另外 4 件事,请记住这一点:
- 正如 Google 所解释的,您在
robots.txt文件中提供的信息“无法强制抓取工具遵循您网站的规则” 。 如果“严重”的爬虫(谷歌、必应、雅虎、Yandex、百度等)会尊重它们,那么恶意机器人就不会出现这种情况,它们会试图破坏您网站的安全性。
此外,并非所有机器人都以相同的方式解释指令,因此请务必遵守 Google 指示的语法。 -
robots.txt文件是公共文件。 任何人都可以通过键入以下模板来访问它:yoursite.com/robots.txt。 因此,不要用它来隐藏内容,人们会很快找到它隐藏的位置……如果您希望某些内容保持私密,请不要将其放在此文件中,而是使用密码保护它。 - 如果您不希望某些页面出现在搜索结果中, “不要使用
robots.txt文件隐藏您的网页” ,Google 会说。 事实上,如果许多链接指向该页面,Google 可能会将其编入索引并将其显示在其搜索结果中,而不知道它包含什么内容,即使您已在robots.txt文件中阻止了它。
为了防止页面出现在搜索结果中,Google 建议使用所谓的noindex标签(它可以在 Yoast SEO 中通过取消选中每个帖子下方的“允许搜索引擎在搜索结果中显示此帖子?”框轻松激活/设置选项卡中的页面)。 -
robots.txt文件有一个名为 human.txt 的表亲。
这是一个 TXT 文件,也位于您网站的根目录,其中包含有关为其设计做出贡献的不同人员的信息。
例如,开发人员、网页设计师、编辑等。这不是强制性的,但如果您认为将其集成到您的 WordPress 网站上很有用,则必须将其添加到您网站的根目录中,在robots.txt文件(例如,查看来自 WPMarmite 的文件)。

你真的需要robots.txt文件吗?
默认情况下,即使没有robots.txt文件,搜索引擎也会正常抓取网站并为其编制索引。
因此后者不是强制性的。 正如 WordPress SEO 专家 Daniel Roch 解释的那样, “如果您想为所有页面、内容和媒体编制索引,请不要使用robots.txt文件:它对您没有任何好处” 。
但是,在剩下的时间里,这个文件有什么用呢?
主要的好处是在您的 SEO 方面。 事实上, robots.txt文件可以让你保存所谓的抓取预算,这篇来自 Yoast SEO 博客的帖子说。
这是相当技术性的,但简单地说,通过对您网站上对 SEO 不感兴趣的页面取消索引,您将为 Google 留出更多时间和精力来抓取其他页面。
如果你想更深入地研究这个主题,来自 Backlinko 的 Brian Dean 会在这里讨论它。
现在是时候继续配置文件了。 这很重要,相信我。 如果它没有得到适当的优化,你可能会严重惩罚你在搜索引擎上的存在。
如何创建 WordPress robots.txt文件?
默认情况下,WordPress 会创建一个虚拟robots.txt文件。 它在您的服务器上无法访问,但您可以在线查看。
以前牙买加短跑明星 Usain Bolt 的网站为例。

要查看它,您只需在浏览器中输入http://usainbolt.com/robots.txt 。
这是您将得到的:
这个虚拟文件有效。 但是你如何在你的 WordPress 网站上修改这个robots.txt ?
好吧,您将不得不创建自己的文件来替换它。
有两种方法可以做到这一点:
- 使用插件
- 手动创建
我将向您详细展示如何操作。
如何使用 Yoast SEO 在 WordPress 上创建robots.txt文件
我敢打赌你知道 Yoast SEO,对吧? 你知道,它是一个 SEO 插件,是有史以来下载次数最多的插件之一。
WPMarmite 使用它,我还将使用它来向您展示它如何帮助您创建 WordPress robots.txt文件。
当然前提是你已经安装并激活了这个插件。
首先转到您的 WordPress 仪表板,然后选择Yoast SEO > 工具。

单击“文件编辑器”继续。

如果您还没有专用文件,请单击按钮创建一个。 我的网站上已经有一个,所以我只能编辑它。 完成后不要忘记保存。

你去吧。
不用担心,我会在这部分的最后解释在这个文件中放入什么信息。
目前,让我们转向第二种方法:你将不得不使用你的小手。
手动方法
无论您是否使用专用插件,也可以手动在您的 WordPress 网站上添加robots.txt文件。 这很简单,你会看到的。
首先,您需要一个文本编辑器。 其中,我可以推荐:
- 括号
- 记事本++
- 崇高的文本
否则,你的旧记事本也会做得很好。
创建一个新文档,并将其保存在您的计算机上,名称为robots.txt 。
它的名称必须始终小写,并且不要忘记在 robots 一词中加上一个“s”(不要写
robot.txt)。
接下来,连接到您的 FTP 客户端。 这是一个允许您与服务器通信的软件。
就个人而言,我使用 Filezilla。 但您也可以使用 Cyberduck。 有关如何使用 FTP 的更多信息,请查看我们的帖子:如何使用 FTP 访问您的 WordPress 文件。
此外,FTP 将在 WordPress 的安装过程中对您有用。 阅读我们的指南:如何安装 WordPress:分步指南。
第三步也是最后一步:将文件添加到站点的根目录。 我重复一遍,在您网站的根目录中,而不是在子目录中。 否则,搜索引擎将不会考虑它。
例如,如果您的站点可通过https://www.yoursite.com/访问,则robots.txt文件应位于https://www.yoursite.com/robots.txt 。
此位置(根)可能因一台主机而异。 在 Bluehost(附属链接),它被称为
public_html。 在 OVH,您会在www名称下找到它。
在您的网站上,它的最终实现应该如下所示:

要知道的基本规则
恭喜,您的robots.txt文件现在在您的服务器上。 目前,它是空的,但您可以随时编辑它。
从逻辑上讲,您需要问自己在其中放置什么样的指令。
在我们开始之前,有必要了解这个文件的特定语法。
正如谷歌在其 Search Console 帮助中解释的那样,“每个规则都会阻止或允许给定爬虫访问该网站中的指定文件路径” 。
两个主要规则被称为:
-
User-agent:指规则适用的搜索引擎机器人的名称。 -
Disallow:指定相对于根域的目录或页面,不应由user-agent抓取。 请记住,默认情况下,机器人可以浏览未被Disallow规则阻止的页面或目录。
让我们研究一个简单的例子,以便您理解。
在第一行,星号*就是我们所说的通配符。 它指的是所有搜索引擎机器人( user-agent )。
在第二行,您disallow通过斜杠/访问这些搜索引擎对您网站的所有目录和页面的访问。
您不需要在斜杠前输入您的域名(例如mysite.com/ ),因为robots.txt文件使用相对 URL。 简单地说,它知道斜线是指你的域名的根。
显然,如果您希望您的网站被抓取和索引,上面的代码几乎没有用处。 但是当您处于站点的创建阶段时,它会很有用。
如果您不希望特定类型的机器人抓取您的网站,例如 Yahoo 的(Slurp 是与 Yahoo 的机器人相关联的名称),您必须这样做:
有关机器人名称的更多信息,请参阅 Yoast SEO 网站的此屏幕截图。

一些额外的规则
我告诉过你最常用的User-agent和Disallow 。 您应该知道还有其他语法规则,但并非所有机器人都考虑到它们(谷歌的,是的)。 其中,有:
-
Allow:允许探索不允许的目录中的子目录或页面(Disallow)。 -
Sitemap:告诉机器人您的站点地图所在的位置。 此行是可选的。 我建议您通过专用工具(例如 Google Search Console)将站点地图提交给搜索引擎。 我在这篇文章中向您解释了如何做到这一点。
为确保您理解,让我们通过提供 3 个新示例来进一步了解。
如何阻止对目录的访问
我要求所有机器人不要探索wp-admin目录的所有内容。
如何阻止对页面或文件的访问
在此示例中,我要求所有机器人不要索引 WordPress 登录页面以及照片。
您还可以看到#符号出现。 它介绍了一条评论。 后面的文字将不予考虑。
还要记住,规则是区分大小写的。
例如, Disallow: /myphoto.jpg匹配http://www.mysite.com/myphoto.jpg ,但不匹配http://www.mysite.com/Myphoto.jpg 。
如何为不同的机器人创建不同的规则
规则总是从上到下处理。 请记住,它们始终以User-agent语句开头,该语句指示规则适用的机器人。
在第一个中,我要求所有机器人不要索引登录页面( wp-login.php )。
在第二个中,我特别要求谷歌的爬虫(Googlebot),不要爬取我的整个网站。
如何允许访问被阻止目录中的文件
我们使用Allow语句。 在此示例中,除了widgets.php文件之外,所有wp-admin目录都被阻止。
如何检查您的 robots.txt 文件是否正常工作?
为确保您的文件设置正确,您可以在 Google Search Console 上检查和验证它,这是一个免费且必不可少的工具,用于管理您的网站(以及其他)的 SEO。
打开 robots.txt 文件测试工具(您需要先在那里注册您的网站)。
在提供的编辑器中输入您选择的说明后,您可以测试您的文件。
如果一切顺利,您应该在编辑器底部看到以下消息。

如果不是,您的文件包含逻辑错误或语法警告。 最后,记得提交文件,点击“提交”按钮。
如何在 WordPress 上优化您的 robots.txt 文件?
您应该在robots.txt文件中放入或不放入什么?
是否有可以适应每个站点的预定义模板?
答案是:是也不是。
事实上,每个网站都是不同的,很难复制和粘贴彼得、保罗或詹姆斯在他们的网站上提出的建议。 他们的问题很可能与您的问题不同。
不过,我们可以为您提供适合大多数网站的基本robots.txt文件:
说实话,即使在 WordPress 社区内,也不可能让每个人都同意。 意见不一。
有些人,比如 Yoast 的创始人 Joost de Valk,提倡极简主义。 这实际上是目前的趋势。
从本质上讲,他们认为,由于 Google 能够完整地解释您的网站(包括 CSS 和 JavaScript 代码,而不仅仅是 HTML),它不应该阻止对 CSS 和 JavaScript 文件的访问,以便它可以看到您的页面在他们的全部。 否则,它可能会影响您的 SEO。
要验证 Google 是否有权访问正确显示您的页面所需的所有资源,您可以返回 Google Search Console。 转到“URL 检查”选项卡,单击“查看测试页面”,然后单击“屏幕截图”。
如果您的网站看起来不应该(例如某些样式未应用),可能是因为您的robots.txt文件中的某些规则需要审查。
但回到Yoast。 查看他们的robots.txt文件:
如您所见,没有任何东西被阻止!
其他人则主张为您的网站采用更广泛、“安全”的方法。 他们建议,除其他外:
- 阻止访问两个关键的 WordPress 目录,例如
wp-admin文件夹(您网站的管理项目所在的位置)和wp-includes文件夹(其中包含所有 WordPress 文件)。 - 取消索引登录页面
(wp-login.php)。 - 或取消索引
readme.html文件,因为它包含您正在使用的 WordPress 版本。
简而言之,要通过所有这些建议找到自己的方式并不容易!
总结一下,我建议你:
- 如果您不确定自己在做什么,请坚持最低限度。 否则,对您的搜索引擎优化的后果可能是不幸的。
- 在提交之前检查您的文件是否在 Search Console 上没有错误。
如何优化您的#WordPress 网站的 robots.txt 文件? 从 WPMarmite 在本教程中回答。
结论
如您所见, robots.txt文件对您的 SEO 来说是一个有趣的工具。 它允许您告诉搜索引擎机器人他们应该和不应该抓取什么。
但必须小心处理。 错误的配置可能会导致您的站点完全取消索引(例如,如果您使用Disallow: / )。 所以,要小心!

为了结束这篇文章,让我们做一个总结。 在这些行中,我详细说明了:
-
robots.txt文件是什么。 - 如何在 WordPress 上安装它。
- 如何在 WordPress 上针对 SEO 优化您的
robots.txt文件。
现在轮到你了。 告诉我您是否使用这种类型的文件以及如何设置它。
在评论中分享您的想法和反馈。




