Robots.txt:如何在 WordPress 網站上優化此文件

已發表: 2022-01-21

如果我讓你在 WordPress 上定義什麼是robots.txt文件,你能給我一個直接的答案嗎?

不容易,是嗎? 此外,在不知情的情況下,您的網站上可能已經有一個。

問題是,我們並不總是理解這個著名的文件。 這有什麼用途? 你在裡面放什麼? 為什麼它的代碼看起來很難理解?

如果你曾經研究過這個主題,我敢打賭你已經問過自己這些問題。

有點像炸藥,這個文件必須小心處理

如果您沒有正確設置它,您可能會損壞您網站的 SEO。 所以要小心爆炸!

看著炸藥的人。

在這篇文章中,我將向您展示如何避免災難,以及如何優化您的 WordPress robots.txt文件。 您將發現它的用途、工作原理、創建它的兩種方法以及放入其中的內容。

概述

  1. 什麼是 WordPress robots.txt 文件?
    1. 如何創建 WordPress robots.txt 文件?
      1. 如何檢查您的 robots.txt 文件是否正常工作?
        1. 如何在 WordPress 上優化您的 robots.txt 文件?
          1. 結論

            您最好的 WordPress 項目需要最好的主機!

            WPMarmite 推薦 Bluehost:出色的性能,出色的支持。 所有你需要一個好的開始。

            試試 Bluehost
            CTA Bluehost WPMarmite

            什麼是 WordPress robots.txt 文件?

            推介會

            WordPress robots.txt文件是位於您網站根目錄的文本文件,根據 Google 在其網站管理員幫助網站上給出的定義,它“告訴搜索引擎爬蟲爬蟲可以在您的網站上訪問哪些 URL”

            也稱為“機器人排除標準/協議”,它允許搜索引擎避免索引某些無用和/或私人內容(例如您的登錄頁面、敏感文件夾和文件)。

            簡而言之,該協議告訴搜索引擎的機器人他們可以或不能在您的網站上做什麼。

            下面是它的工作原理。 當機器人將要抓取您網站的 URL 時(即,它將探索和檢索信息以對其進行索引),它會首先查看您的robots.txt文件。

            如果它找到它,它將讀取它,然後按照您給它的指令執行(如果您禁止它,它將無法抓取某個文件)。

            如果沒有找到,它將以正常方式抓取您的網站,不排除任何內容。

            看看這個 WordPress robots.txt文件的例子,看看它是什麼樣子的:

            WordPress robots.txt 文件的示例。

            不一定要停留在它的內容上。 正如您稍後將看到的,沒有可以適應任何站點的標准文件。 無論如何,不建議這樣做。

            如果您還必須記住關於我們今天主題的另外 4 件事,請記住這一點:

            1. 正如 Google 所解釋的,您在robots.txt文件中提供的信息“無法強制抓取工具遵循您網站的規則” 。 如果“嚴重”的爬蟲(谷歌、必應、雅虎、Yandex、百度等)會尊重它們,那麼惡意機器人就不會出現這種情況,它們會試圖破壞您網站的安全性。
              此外,並非所有機器人都以相同的方式解釋指令,因此請務必遵守 Google 指示的語法。
            2. robots.txt文件是公共文件。 任何人都可以通過鍵入以下模板來訪問它: yoursite.com/robots.txt 。 因此,不要用它來隱藏內容,人們會很快找到它隱藏的位置……如果您希望某些內容保持私密,請不要將其放在此文件中,而是使用密碼保護它。
            3. 如果您不希望某些頁面出現在搜索結果中, “不要使用robots.txt文件隱藏您的網頁” ,Google 會說。 事實上,如果許多鏈接指向該頁面,Google 可能會將其編入索引並將其顯示在其搜索結果中,而不知道它包含什麼內容,即使您已在robots.txt文件中阻止了它。
              為了防止頁面出現在搜索結果中,Google 建議使用所謂的noindex標籤(它可以在 Yoast SEO 中通過取消選中每個帖子下方的“允許搜索引擎在搜索結果中顯示此帖子?”框輕鬆激活/設置選項卡中的頁面)。
            4. robots.txt文件有一個名為 human.txt 的表親
              這是一個 TXT 文件,也位於您網站的根目錄,其中包含有關為其設計做出貢獻的不同人員的信息。
              例如,開發人員、網頁設計師、編輯等。這不是強制性的,但如果您認為將其集成到您的 WordPress 網站上很有用,則必須將其添加到您網站的根目錄中,在robots.txt文件(例如,查看來自 WPMarmite 的文件)。
            human.txt 是 robots.txt 文件的表親。

            你真的需要robots.txt文件嗎?

            默認情況下,即使沒有robots.txt文件,搜索引擎也會正常抓取網站並為其編制索引。

            因此後者不是強制性的。 正如 WordPress SEO 專家 Daniel Roch 解釋的那樣, “如果您想為所有頁面、內容和媒體編制索引,請不要使用robots.txt文件:它對您沒有任何好處”

            但是,在剩下的時間裡,這個文件有什麼用呢?

            主要的好處是在您的 SEO 方面。 事實上, robots.txt文件可以讓你保存所謂的抓取預算,這篇來自 Yoast SEO 博客的帖子說。

            這是相當技術性的,但簡單地說,通過對您網站上對 SEO 不感興趣的頁面取消索引,您將為 Google 留出更多時間和精力來抓取其他頁面。

            如果你想更深入地研究這個主題,來自 Backlinko 的 Brian Dean 會在這裡討論它。

            加入 WPMarmite 訂閱者

            獲取最新的 WPMarmite 帖子(以及獨家資源)。

            現在訂閱
            WPMarmite 英文通訊

            現在是時候繼續配置文件了。 這很重要,相信我。 如果它沒有得到適當的優化,你可能會嚴重懲罰你在搜索引擎上的存在。

            如何創建 WordPress robots.txt文件?

            默認情況下,WordPress 會創建一個虛擬robots.txt文件。 它在您的服務器上無法訪問,但您可以在線查看。

            以前牙買加短跑明星 Usain Bolt 的網站為例。

            博爾特。
            是的,甚至 Usain Bolt 的網站也是建立在 WordPress 之上的。

            要查看它,您只需在瀏覽器中輸入http://usainbolt.com/robots.txt

            這是您將得到的:

            純文本

            這個虛擬文件有效。 但是你如何在你的 WordPress 網站上修改這個robots.txt

            好吧,您將不得不創建自己的文件來替換它。

            有兩種方法可以做到這一點:

            • 使用插件
            • 手動創建

            我將向您詳細展示如何操作。

            如何使用 Yoast SEO 在 WordPress 上創建robots.txt文件

            我敢打賭你知道 Yoast SEO,對吧? 你知道,它是一個 SEO 插件,是有史以來下載次數最多的插件之一。

            WPMarmite 使用它,我還將使用它來向您展示它如何幫助您創建 WordPress robots.txt文件。

            當然前提是你已經安裝並激活了這個插件。

            首先轉到您的 WordPress 儀表板,然後選擇Yoast SEO > 工具

            可以從 Yoast SEO 插件的“工具”選項卡在 WordPress 上創建 robots.txt 文件。

            單擊“文件編輯器”繼續。

            Yoast SEO 文件編輯器允許您編輯 WordPress 網站的 robots.txt 文件。

            如果您還沒有專用文件,請單擊按鈕創建一個。 我的網站上已經有一個,所以我只能編輯它。 完成後不要忘記保存。

            通過 Yoast SEO 修改 WordPress 上的 robots.txt 文件。

            你去吧。

            不用擔心,我會在這部分的最後解釋在這個文件中放入什麼信息。

            目前,讓我們轉向第二種方法:你將不得不使用你的小手。

            手動方法

            無論您是否使用專用插件,也可以手動在您的 WordPress 網站上添加robots.txt文件。 這很簡單,你會看到的。

            首先,您需要一個文本編輯器。 其中,我可以推薦:

            • 括號
            • 記事本++
            • 崇高的文本

            否則,你的舊記事本也會做得很好。

            創建一個新文檔,並將其保存在您的計算機上,名稱為robots.txt

            它的名稱必須始終小寫,並且不要忘記在 robots 一詞中加上一個“s”(不要寫robot.txt )。

            接下來,連接到您的 FTP 客戶端。 這是一個允許您與服務器通信的軟件。

            就個人而言,我使用 Filezilla。 但您也可以使用 Cyber​​duck。 有關如何使用 FTP 的更多信息,請查看我們的帖子:如何使用 FTP 訪問您的 WordPress 文件。

            此外,FTP 將在 WordPress 的安裝過程中對您有用。 閱讀我們的指南:如何安裝 WordPress:分步指南。

            第三步也是最後一步:將文件添加到站點的根目錄。 我重複一遍,在您網站的根目錄中,而不是在子目錄中。 否則,搜索引擎將不會考慮它。

            例如,如果您的站點可通過https://www.yoursite.com/訪問,則robots.txt文件應位於https://www.yoursite.com/robots.txt

            此位置(根)可能因一台主機而異。 在 Bluehost(附屬鏈接),它被稱為public_html 。 在 OVH,您會在www名稱下找到它。

            在您的網站上,它的最終實現應該如下所示:

            您服務器上的 robots.txt 文件。

            要知道的基本規則

            恭喜,您的robots.txt文件現在在您的服務器上。 目前,它是空的,但您可以隨時編輯它。

            從邏輯上講,您需要問自己在其中放置什麼樣的指令。

            在我們開始之前,有必要了解這個文件的特定語法。

            正如穀歌在其 Search Console 幫助中解釋的那樣,“每個規則都會阻止或允許給定爬蟲訪問該網站中的指定文件路徑”

            兩個主要規則被稱為:

            • User-agent :指規則適用的搜索引擎機器人的名稱。
            • Disallow :指定相對於根域的目錄或頁面,不應由user-agent抓取。 請記住,默認情況下,機器人可以瀏覽未被Disallow規則阻止的頁面或目錄。

            讓我們研究一個簡單的例子,以便您理解。

            純文本

            在第一行,星號*就是我們所說的通配符。 它指的是所有搜索引擎機器人( user-agent )。

            在第二行,您disallow通過斜杠/訪問這些搜索引擎對您網站的所有目錄和頁面的訪問。

            您不需要在斜杠前輸入您的域名(例如mysite.com/ ),因為robots.txt文件使用相對 URL。 簡單地說,它知道斜線是指你的域名的根。

            顯然,如果您希望您的網站被抓取和索引,上面的代碼幾乎沒有用處。 但是當您處於站點的創建階段時,它會很有用。

            如果您不希望特定類型的機器人抓取您的網站,例如 Yahoo 的(Slurp 是與 Yahoo 的機器人相關聯的名稱),您必須這樣做:

            純文本

            有關機器人名稱的更多信息,請參閱 Yoast SEO 網站的此屏幕截圖。

            搜索引擎機器人列表。

            一些額外的規則

            我告訴過你最常用的User-agentDisallow 。 您應該知道還有其他語法規則,但並非所有機器人都考慮到它們(谷歌的,是的)。 其中,有:

            • Allow :允許探索不允許的目錄中的子目錄或頁面( Disallow )。
            • Sitemap :告訴機器人您的站點地圖所在的位置。 此行是可選的。 我建議您通過專用工具(例如 Google Search Console)將站點地圖提交給搜索引擎。 我在這篇文章中向您解釋瞭如何做到這一點。

            為確保您理解,讓我們通過提供 3 個新示例來進一步了解。

            如何阻止對目錄的訪問

            純文本

            我要求所有機器人不要探索wp-admin目錄的所有內容。

            如何阻止對頁面或文件的訪問

            純文本

            在此示例中,我要求所有機器人不要索引 WordPress 登錄頁面以及照片。

            您還可以看到#符號出現。 它介紹了一條評論。 後面的文字將不予考慮。

            還要記住,規則是區分大小寫的。

            例如, Disallow: /myphoto.jpg匹配http://www.mysite.com/myphoto.jpg ,但不匹配http://www.mysite.com/Myphoto.jpg

            如何為不同的機器人創建不同的規則

            純文本

            規則總是從上到下處理。 請記住,它們始終以User-agent語句開頭,該語句指示規則適用的機器人。

            在第一個中,我要求所有機器人不要索引登錄頁面( wp-login.php )。

            在第二個中,我特別要求谷歌的爬蟲(Googlebot),不要爬取我的整個網站。

            如何允許訪問被阻止目錄中的文件

            純文本

            我們使用Allow語句。 在此示例中,除了widgets.php文件之外,所有wp-admin目錄都被阻止。

            尋找最好的 WordPress 專家

            Codeable 致力於為您匹配專家,他們可以幫助您完成從 WordPress 主題設計或安裝到自定義插件開發的任何事情。

            嘗試可編碼

            如何檢查您的 robots.txt 文件是否正常工作?

            為確保您的文件設置正確,您可以在 Google Search Console 上檢查和驗證它,這是一個免費且必不可少的工具,用於管理您的網站(以及其他)的 SEO。

            打開 robots.txt 文件測試工具(您需要先在那裡註冊您的網站)。

            在提供的編輯器中輸入您選擇的說明後,您可以測試您的文件。

            如果一切順利,您應該在編輯器底部看到以下消息。

            Google robots.txt 測試工具底部的消息會告訴您文件是否包含任何錯誤或警告。

            如果不是,您的文件包含邏輯錯誤或語法警告。 最後,記得提交文件,點擊“提交”按鈕。

            如何在 WordPress 上優化您的 robots.txt 文件?

            您應該在robots.txt文件中放入或不放入什麼?

            是否有可以適應每個站點的預定義模板?

            答案是:是也不是。

            事實上,每個網站都是不同的,很難復制和粘貼彼得、保羅或詹姆斯在他們的網站上提出的建議。 他們的問題很可能與您的問題不同。

            不過,我們可以為您提供適合大多數網站的基本robots.txt文件:

            純文本

            說實話,即使在 WordPress 社區內,也不可能讓每個人都同意。 意見不一。

            有些人,比如 Yoast 的創始人 Joost de Valk,提倡極簡主義。 這實際上是目前的趨勢

            從本質上講,他們認為,由於 Google 能夠完整地解釋您的網站(包括 CSS 和 JavaScript 代碼,而不僅僅是 HTML),它不應該阻止對 CSS 和 JavaScript 文件的訪問,以便它可以看到您的頁面在他們的全部。 否則,它可能會影響您的 SEO。

            要驗證 Google 是否有權訪問正確顯示您的頁面所需的所有資源,您可以返回 Google Search Console。 轉到“URL 檢查”選項卡,單擊“查看測試頁面”,然後單擊“屏幕截圖”。

            如果您的網站看起來不應該(例如某些樣式未應用),可能是因為您的robots.txt文件中的某些規則需要審查。

            但回到Yoast。 查看他們的robots.txt文件:

            純文本

            如您所見,沒有任何東西被阻止!

            其他人則主張為您的網站採用更廣泛、“安全”的方法。 他們建議,除其他外:

            • 阻止訪問兩個關鍵的 WordPress 目錄,例如wp-admin文件夾(您網站的管理項目所在的位置)和wp-includes文件夾(其中包含所有 WordPress 文件)。
            • 取消索引登錄頁面(wp-login.php )。
            • 取消索引readme.html文件,因為它包含您正在使用的 WordPress 版本。

            簡而言之,要通過所有這些建議找到自己的方式並不容易!

            總結一下,我建議你:

            • 如果您不確定自己在做什麼,請堅持最低限度。 否則,對您的搜索引擎優化的後果可能是不幸的。
            • 在提交之前檢查您的文件是否在 Search Console 上沒有錯誤

            如何優化您的#WordPress 網站的 robots.txt 文件? 從 WPMarmite 在本教程中回答。

            點擊推文

            結論

            如您所見, robots.txt文件對您的 SEO 來說是一個有趣的工具。 它允許您告訴搜索引擎機器人他們應該和不應該抓取什麼。

            但必須小心處理。 錯誤的配置可能會導致您的站點完全取消索引(例如,如果您使用Disallow: / )。 所以,要小心!

            紅色警告閃爍 GIF。

            為了結束這篇文章,讓我們做一個總結。 在這些行中,我詳細說明了:

            • robots.txt文件是什麼
            • 如何在 WordPress 上安裝它
            • 如何在 WordPress 上針對 SEO 優化您的robots.txt文件。

            現在輪到你了。 告訴我您是否使用這種類型的文件以及如何設置它。

            在評論中分享您的想法和反饋。