Robots.txt:如何在 WordPress 网站上优化此文件

已发表: 2022-01-21

如果我让你在 WordPress 上定义什么是robots.txt文件,你能给我一个直接的答案吗?

不容易,是吗? 此外,在不知情的情况下,您的网站上可能已经有一个。

问题是,我们并不总是理解这个著名的文件。 这有什么用途? 你在里面放什么? 为什么它的代码看起来很难理解?

如果你曾经研究过这个主题,我敢打赌你已经问过自己这些问题。

有点像炸药,这个文件必须小心处理

如果您没有正确设置它,您可能会损坏您网站的 SEO。 所以要小心爆炸!

看着炸药的人。

在这篇文章中,我将向您展示如何避免灾难,以及如何优化您的 WordPress robots.txt文件。 您将发现它的用途、工作原理、创建它的两种方法以及放入其中的内容。

概述

  1. 什么是 WordPress robots.txt 文件?
    1. 如何创建 WordPress robots.txt 文件?
      1. 如何检查您的 robots.txt 文件是否正常工作?
        1. 如何在 WordPress 上优化您的 robots.txt 文件?
          1. 结论

            您最好的 WordPress 项目需要最好的主机!

            WPMarmite 推荐 Bluehost:出色的性能,出色的支持。 所有你需要一个好的开始。

            试试 Bluehost
            CTA Bluehost WPMarmite

            什么是 WordPress robots.txt 文件?

            推介会

            WordPress robots.txt文件是位于您网站根目录的文本文件,根据 Google 在其网站管理员帮助网站上给出的定义,它“告诉搜索引擎爬虫爬虫可以在您的网站上访问哪些 URL”

            也称为“机器人排除标准/协议”,它允许搜索引擎避免索引某些无用和/或私人内容(例如您的登录页面、敏感文件夹和文件)。

            简而言之,该协议告诉搜索引擎的机器人他们可以或不能在您的网站上做什么。

            下面是它的工作原理。 当机器人将要抓取您网站的 URL 时(即,它将探索和检索信息以对其进行索引),它会首先查看您的robots.txt文件。

            如果它找到它,它将读取它,然后按照您给它的指令执行(如果您禁止它,它将无法抓取某个文件)。

            如果没有找到,它将以正常方式抓取您的网站,不排除任何内容。

            看看这个 WordPress robots.txt文件的例子,看看它是什么样子的:

            WordPress robots.txt 文件的示例。

            不一定要停留在它的内容上。 正如您稍后将看到的,没有可以适应任何站点的标准文件。 无论如何,不​​建议这样做。

            如果您还必须记住关于我们今天主题的另外 4 件事,请记住这一点:

            1. 正如 Google 所解释的,您在robots.txt文件中提供的信息“无法强制抓取工具遵循您网站的规则” 。 如果“严重”的爬虫(谷歌、必应、雅虎、Yandex、百度等)会尊重它们,那么恶意机器人就不会出现这种情况,它们会试图破坏您网站的安全性。
              此外,并非所有机器人都以相同的方式解释指令,因此请务必遵守 Google 指示的语法。
            2. robots.txt文件是公共文件。 任何人都可以通过键入以下模板来访问它: yoursite.com/robots.txt 。 因此,不要用它来隐藏内容,人们会很快找到它隐藏的位置……如果您希望某些内容保持私密,请不要将其放在此文件中,而是使用密码保护它。
            3. 如果您不希望某些页面出现在搜索结果中, “不要使用robots.txt文件隐藏您的网页” ,Google 会说。 事实上,如果许多链接指向该页面,Google 可能会将其编入索引并将其显示在其搜索结果中,而不知道它包含什么内容,即使您已在robots.txt文件中阻止了它。
              为了防止页面出现在搜索结果中,Google 建议使用所谓的noindex标签(它可以在 Yoast SEO 中通过取消选中每个帖子下方的“允许搜索引擎在搜索结果中显示此帖子?”框轻松激活/设置选项卡中的页面)。
            4. robots.txt文件有一个名为 human.txt 的表亲
              这是一个 TXT 文件,也位于您网站的根目录,其中包含有关为其设计做出贡献的不同人员的信息。
              例如,开发人员、网页设计师、编辑等。这不是强制性的,但如果您认为将其集成到您的 WordPress 网站上很有用,则必须将其添加到您网站的根目录中,在robots.txt文件(例如,查看来自 WPMarmite 的文件)。
            human.txt 是 robots.txt 文件的表亲。

            你真的需要robots.txt文件吗?

            默认情况下,即使没有robots.txt文件,搜索引擎也会正常抓取网站并为其编制索引。

            因此后者不是强制性的。 正如 WordPress SEO 专家 Daniel Roch 解释的那样, “如果您想为所有页面、内容和媒体编制索引,请不要使用robots.txt文件:它对您没有任何好处”

            但是,在剩下的时间里,这个文件有什么用呢?

            主要的好处是在您的 SEO 方面。 事实上, robots.txt文件可以让你保存所谓的抓取预算,这篇来自 Yoast SEO 博客的帖子说。

            这是相当技术性的,但简单地说,通过对您网站上对 SEO 不感兴趣的页面取消索引,您将为 Google 留出更多时间和精力来抓取其他页面。

            如果你想更深入地研究这个主题,来自 Backlinko 的 Brian Dean 会在这里讨论它。

            加入 WPMarmite 订阅者

            获取最新的 WPMarmite 帖子(以及独家资源)。

            现在订阅
            WPMarmite 英文通讯

            现在是时候继续配置文件了。 这很重要,相信我。 如果它没有得到适当的优化,你可能会严重惩罚你在搜索引擎上的存在。

            如何创建 WordPress robots.txt文件?

            默认情况下,WordPress 会创建一个虚拟robots.txt文件。 它在您的服务器上无法访问,但您可以在线查看。

            以前牙买加短跑明星 Usain Bolt 的网站为例。

            博尔特。
            是的,甚至 Usain Bolt 的网站也是建立在 WordPress 之上的。

            要查看它,您只需在浏览器中输入http://usainbolt.com/robots.txt

            这是您将得到的:

            纯文本

            这个虚拟文件有效。 但是你如何在你的 WordPress 网站上修改这个robots.txt

            好吧,您将不得不创建自己的文件来替换它。

            有两种方法可以做到这一点:

            • 使用插件
            • 手动创建

            我将向您详细展示如何操作。

            如何使用 Yoast SEO 在 WordPress 上创建robots.txt文件

            我敢打赌你知道 Yoast SEO,对吧? 你知道,它是一个 SEO 插件,是有史以来下载次数最多的插件之一。

            WPMarmite 使用它,我还将使用它来向您展示它如何帮助您创建 WordPress robots.txt文件。

            当然前提是你已经安装并激活了这个插件。

            首先转到您的 WordPress 仪表板,然后选择Yoast SEO > 工具

            可以从 Yoast SEO 插件的“工具”选项卡在 WordPress 上创建 robots.txt 文件。

            单击“文件编辑器”继续。

            Yoast SEO 文件编辑器允许您编辑 WordPress 网站的 robots.txt 文件。

            如果您还没有专用文件,请单击按钮创建一个。 我的网站上已经有一个,所以我只能编辑它。 完成后不要忘记保存。

            通过 Yoast SEO 修改 WordPress 上的 robots.txt 文件。

            你去吧。

            不用担心,我会在这部分的最后解释在这个文件中放入什么信息。

            目前,让我们转向第二种方法:你将不得不使用你的小手。

            手动方法

            无论您是否使用专用插件,也可以手动在您的 WordPress 网站上添加robots.txt文件。 这很简单,你会看到的。

            首先,您需要一个文本编辑器。 其中,我可以推荐:

            • 括号
            • 记事本++
            • 崇高的文本

            否则,你的旧记事本也会做得很好。

            创建一个新文档,并将其保存在您的计算机上,名称为robots.txt

            它的名称必须始终小写,并且不要忘记在 robots 一词中加上一个“s”(不要写robot.txt )。

            接下来,连接到您的 FTP 客户端。 这是一个允许您与服务器通信的软件。

            就个人而言,我使用 Filezilla。 但您也可以使用 Cyber​​duck。 有关如何使用 FTP 的更多信息,请查看我们的帖子:如何使用 FTP 访问您的 WordPress 文件。

            此外,FTP 将在 WordPress 的安装过程中对您有用。 阅读我们的指南:如何安装 WordPress:分步指南。

            第三步也是最后一步:将文件添加到站点的根目录。 我重复一遍,在您网站的根目录中,而不是在子目录中。 否则,搜索引擎将不会考虑它。

            例如,如果您的站点可通过https://www.yoursite.com/访问,则robots.txt文件应位于https://www.yoursite.com/robots.txt

            此位置(根)可能因一台主机而异。 在 Bluehost(附属链接),它被称为public_html 。 在 OVH,您会在www名称下找到它。

            在您的网站上,它的最终实现应该如下所示:

            您服务器上的 robots.txt 文件。

            要知道的基本规则

            恭喜,您的robots.txt文件现在在您的服务器上。 目前,它是空的,但您可以随时编辑它。

            从逻辑上讲,您需要问自己在其中放置什么样的指令。

            在我们开始之前,有必要了解这个文件的特定语法。

            正如谷歌在其 Search Console 帮助中解释的那样,“每个规则都会阻止或允许给定爬虫访问该网站中的指定文件路径”

            两个主要规则被称为:

            • User-agent :指规则适用的搜索引擎机器人的名称。
            • Disallow :指定相对于根域的目录或页面,不应由user-agent抓取。 请记住,默认情况下,机器人可以浏览未被Disallow规则阻止的页面或目录。

            让我们研究一个简单的例子,以便您理解。

            纯文本

            在第一行,星号*就是我们所说的通配符。 它指的是所有搜索引擎机器人( user-agent )。

            在第二行,您disallow通过斜杠/访问这些搜索引擎对您网站的所有目录和页面的访问。

            您不需要在斜杠前输入您的域名(例如mysite.com/ ),因为robots.txt文件使用相对 URL。 简单地说,它知道斜线是指你的域名的根。

            显然,如果您希望您的网站被抓取和索引,上面的代码几乎没有用处。 但是当您处于站点的创建阶段时,它会很有用。

            如果您不希望特定类型的机器人抓取您的网站,例如 Yahoo 的(Slurp 是与 Yahoo 的机器人相关联的名称),您必须这样做:

            纯文本

            有关机器人名称的更多信息,请参阅 Yoast SEO 网站的此屏幕截图。

            搜索引擎机器人列表。

            一些额外的规则

            我告诉过你最常用的User-agentDisallow 。 您应该知道还有其他语法规则,但并非所有机器人都考虑到它们(谷歌的,是的)。 其中,有:

            • Allow :允许探索不允许的目录中的子目录或页面( Disallow )。
            • Sitemap :告诉机器人您的站点地图所在的位置。 此行是可选的。 我建议您通过专用工具(例如 Google Search Console)将站点地图提交给搜索引擎。 我在这篇文章中向您解释了如何做到这一点。

            为确保您理解,让我们通过提供 3 个新示例来进一步了解。

            如何阻止对目录的访问

            纯文本

            我要求所有机器人不要探索wp-admin目录的所有内容。

            如何阻止对页面或文件的访问

            纯文本

            在此示例中,我要求所有机器人不要索引 WordPress 登录页面以及照片。

            您还可以看到#符号出现。 它介绍了一条评论。 后面的文字将不予考虑。

            还要记住,规则是区分大小写的。

            例如, Disallow: /myphoto.jpg匹配http://www.mysite.com/myphoto.jpg ,但不匹配http://www.mysite.com/Myphoto.jpg

            如何为不同的机器人创建不同的规则

            纯文本

            规则总是从上到下处理。 请记住,它们始终以User-agent语句开头,该语句指示规则适用的机器人。

            在第一个中,我要求所有机器人不要索引登录页面( wp-login.php )。

            在第二个中,我特别要求谷歌的爬虫(Googlebot),不要爬取我的整个网站。

            如何允许访问被阻止目录中的文件

            纯文本

            我们使用Allow语句。 在此示例中,除了widgets.php文件之外,所有wp-admin目录都被阻止。

            寻找最好的 WordPress 专家

            Codeable 致力于为您匹配专家,他们可以帮助您完成从 WordPress 主题设计或安装到自定义插件开发的任何事情。

            尝试可编码

            如何检查您的 robots.txt 文件是否正常工作?

            为确保您的文件设置正确,您可以在 Google Search Console 上检查和验证它​​,这是一个免费且必不可少的工具,用于管理您的网站(以及其他)的 SEO。

            打开 robots.txt 文件测试工具(您需要先在那里注册您的网站)。

            在提供的编辑器中输入您选择的说明后,您可以测试您的文件。

            如果一切顺利,您应该在编辑器底部看到以下消息。

            Google robots.txt 测试工具底部的消息会告诉您文件是否包含任何错误或警告。

            如果不是,您的文件包含逻辑错误或语法警告。 最后,记得提交文件,点击“提交”按钮。

            如何在 WordPress 上优化您的 robots.txt 文件?

            您应该在robots.txt文件中放入或不放入什么?

            是否有可以适应每个站点的预定义模板?

            答案是:是也不是。

            事实上,每个网站都是不同的,很难复制和粘贴彼得、保罗或詹姆斯在他们的网站上提出的建议。 他们的问题很可能与您的问题不同。

            不过,我们可以为您提供适合大多数网站的基本robots.txt文件:

            纯文本

            说实话,即使在 WordPress 社区内,也不可能让每个人都同意。 意见不一。

            有些人,比如 Yoast 的创始人 Joost de Valk,提倡极简主义。 这实际上是目前的趋势

            从本质上讲,他们认为,由于 Google 能够完整地解释您的网站(包括 CSS 和 JavaScript 代码,而不仅仅是 HTML),它不应该阻止对 CSS 和 JavaScript 文件的访问,以便它可以看到您的页面在他们的全部。 否则,它可能会影响您的 SEO。

            要验证 Google 是否有权访问正确显示您的页面所需的所有资源,您可以返回 Google Search Console。 转到“URL 检查”选项卡,单击“查看测试页面”,然后单击“屏幕截图”。

            如果您的网站看起来不应该(例如某些样式未应用),可能是因为您的robots.txt文件中的某些规则需要审查。

            但回到Yoast。 查看他们的robots.txt文件:

            纯文本

            如您所见,没有任何东西被阻止!

            其他人则主张为您的网站采用更广泛、“安全”的方法。 他们建议,除其他外:

            • 阻止访问两个关键的 WordPress 目录,例如wp-admin文件夹(您网站的管理项目所在的位置)和wp-includes文件夹(其中包含所有 WordPress 文件)。
            • 取消索引登录页面(wp-login.php )。
            • 取消索引readme.html文件,因为它包含您正在使用的 WordPress 版本。

            简而言之,要通过所有这些建议找到自己的方式并不容易!

            总结一下,我建议你:

            • 如果您不确定自己在做什么,请坚持最低限度。 否则,对您的搜索引擎优化的后果可能是不幸的。
            • 在提交之前检查您的文件是否在 Search Console 上没有错误

            如何优化您的#WordPress 网站的 robots.txt 文件? 从 WPMarmite 在本教程中回答。

            点击推文

            结论

            如您所见, robots.txt文件对您的 SEO 来说是一个有趣的工具。 它允许您告诉搜索引擎机器人他们应该和不应该抓取什么。

            但必须小心处理。 错误的配置可能会导致您的站点完全取消索引(例如,如果您使用Disallow: / )。 所以,要小心!

            红色警告闪烁 GIF。

            为了结束这篇文章,让我们做一个总结。 在这些行中,我详细说明了:

            • robots.txt文件是什么
            • 如何在 WordPress 上安装它
            • 如何在 WordPress 上针对 SEO 优化您的robots.txt文件。

            现在轮到你了。 告诉我您是否使用这种类型的文件以及如何设置它。

            在评论中分享您的想法和反馈。