Robots.txt: Jak zoptymalizować ten plik w witrynie WordPress

Opublikowany: 2022-01-21

Jeśli poproszę o zdefiniowanie, co to jest plik robots.txt na WordPressie, czy jesteś w stanie udzielić mi prostej odpowiedzi?

Nie jest to łatwe, prawda? Poza tym, nie wiedząc o tym, prawdopodobnie masz już taki na swojej stronie.

Chodzi o to, że nie zawsze rozumiemy ten słynny plik. Do czego jest to używane? Co w to wkładasz? Dlaczego jego kod wygląda na trudny do zrozumienia?

Jeśli kiedykolwiek przyjrzałeś się temu tematowi, założę się, że zadałeś sobie te pytania.

Trochę jak dynamit, z tym plikiem należy obchodzić się bardzo ostrożnie .

Jeśli nie skonfigurujesz go prawidłowo, ryzykujesz uszkodzenie SEO swojej witryny. Więc uważaj na eksplozję!

Mężczyzna patrzący na dynamit.

W tym poście pokażę Ci, jak uniknąć katastrofy i jak zoptymalizować plik robots.txt WordPress. Dowiesz się, do czego służy, jak działa, dwa sposoby na jego stworzenie i co włożyć do środka.

Przegląd

  1. Co to jest plik robots.txt WordPress?
    1. Jak utworzyć plik robots.txt WordPress?
      1. Jak sprawdzić, czy plik robots.txt działa poprawnie?
        1. Jak zoptymalizować plik robots.txt na WordPressie?
          1. Wniosek

            Twoje najlepsze projekty WordPress potrzebują najlepszego hosta!

            WPMarmite poleca Bluehost: świetna wydajność, świetne wsparcie. Wszystko, czego potrzebujesz na dobry początek.

            Wypróbuj Bluehost
            CTA Bluehost WPMarmite

            Co to jest plik robots.txt WordPress?

            Prezentacja

            Plik robots.txt WordPress to plik tekstowy znajdujący się w katalogu głównym Twojej witryny, który „informuje roboty wyszukiwarek, które adresy URL robot może uzyskać w Twojej witrynie” , zgodnie z definicją podaną przez Google w witrynie pomocy dla webmasterów.

            Nazywany również „Standardem/protokołem wykluczenia robotów”, pozwala wyszukiwarkom uniknąć indeksowania niektórych bezużytecznych i/lub prywatnych treści (np. strony logowania, wrażliwych folderów i plików).

            Krótko mówiąc, ten protokół mówi robotom wyszukiwarki, co mogą, a czego nie mogą zrobić w Twojej witrynie.

            Oto jak to działa. Gdy robot ma zaindeksować adres URL Twojej witryny (tj. będzie badał i pobierał informacje, aby móc go zindeksować), najpierw spojrzy na plik robots.txt .

            Jeśli go znajdzie, przeczyta go, a następnie zastosuje się do poleceń, które mu podałeś (nie będzie w stanie zaindeksować takiego a takiego pliku, jeśli tego zabronisz).

            Jeśli go nie znajdzie, zindeksuje Twoją witrynę w normalny sposób, nie wykluczając żadnej treści.

            Spójrz na ten przykład pliku robots.txt WordPress, aby zobaczyć, jak wygląda:

            Przykład pliku robots.txt WordPress.

            Niekoniecznie poprzestawaj na jego zawartości. Jak zobaczysz później, nie ma standardowego pliku, który można dostosować do dowolnej witryny. W każdym razie nie jest to zalecane.

            Jeśli musiałeś zapamiętać jeszcze 4 rzeczy na nasz temat dnia, weź to sobie do głowy:

            1. Jak wyjaśnia Google, informacje podane w pliku robots.txt „nie mogą zmusić robota do przestrzegania reguł witryny” . Jeśli „poważne” roboty indeksujące (Google, Bing, Yahoo, Yandex, Baidu itp.) będą je szanować, nie będzie to miało miejsca w przypadku złośliwych robotów, które starają się podważyć bezpieczeństwo Twojej witryny.
              Co więcej, nie wszystkie roboty interpretują instrukcje w ten sam sposób, dlatego pamiętaj o przestrzeganiu składni wskazanej przez Google.
            2. Plik robots.txt jest plikiem publicznym . Każdy może uzyskać do niego dostęp, wpisując następujący szablon: yoursite.com/robots.txt . Dlatego nie używaj go do ukrywania treści, szybko odkryjesz, gdzie jest ukryta… Jeśli chcesz, aby jakaś treść pozostała prywatna, nie umieszczaj jej w tym pliku, ale zabezpiecz ją np. hasłem.
            3. Jeśli nie chcesz, aby niektóre strony pojawiały się w wynikach wyszukiwania, „nie używaj pliku robots.txt do ukrywania swojej strony internetowej” , mówi Google. Rzeczywiście, jeśli wiele linków wskazuje na tę stronę, możliwe jest, że Google indeksuje ją i wyświetla w swoich wynikach wyszukiwania, nie wiedząc, co zawiera, nawet jeśli zablokowałeś ją w swoim pliku robots.txt .
              Aby zapobiec wyświetlaniu strony w wynikach wyszukiwania, Google zaleca użycie tak zwanego tagu noindex (można go łatwo aktywować w Yoast SEO, odznaczając pole „Zezwalaj wyszukiwarkom na pokazywanie tego posta w wynikach wyszukiwania?” znajdującego się pod każdym postem/ w zakładce ustawień).
            4. Plik robots.txt ma swojego kuzyna o nazwie humans.txt .
              Jest to plik TXT, również znajdujący się w katalogu głównym Twojej witryny, który zawiera informacje o różnych osobach, które przyczyniły się do jej powstania.
              Na przykład programiści, projektanci stron internetowych, redaktorzy itp. Nie jest to obowiązkowe, ale jeśli uważasz, że warto zintegrować go z witryną WordPress, będziesz musiał dodać go do katalogu głównego witryny, obok robots.txt plik robots.txt (spójrz na przykład na ten z WPMarmite).
            humans.txt jest kuzynem pliku robots.txt.

            Czy naprawdę potrzebujesz pliku robots.txt ?

            Domyślnie witryna będzie przeszukiwana i indeksowana normalnie przez wyszukiwarkę, nawet bez obecności pliku robots.txt .

            To ostatnie nie jest zatem obowiązkowe. Jak wyjaśnia Daniel Roch, specjalista SEO WordPress, „jeśli chcesz zindeksować wszystkie swoje strony, treści i multimedia, nie używaj pliku robots.txt : nic ci to nie da” .

            Ale w takim razie, jaki może być użytek z tego pliku przez resztę czasu?

            Główną korzyścią jest to, aby znaleźć się po stronie SEO . W rzeczywistości plik robots.txt pozwala zaoszczędzić tak zwany budżet indeksowania, mówi ten post z bloga Yoast SEO.

            Jest to dość techniczne, ale mówiąc po prostu, deindeksowanie stron w witrynie, które nie są interesujące dla SEO, pozostawisz więcej czasu i energii dla Google na indeksowanie innych.

            Jeśli chcesz zagłębić się w temat, Brian Dean z Backlinko mówi o tym tutaj.

            Dołącz do subskrybentów WPMarmite

            Pobierz ostatnie posty WPMarmite (a także ekskluzywne zasoby).

            ZAPISZ SIĘ TERAZ
            Biuletyn WPMarmite w języku angielskim

            Teraz nadszedł czas, aby przejść do konfiguracji twojego pliku. A to jest ważne, uwierz mi. Jeśli nie jest odpowiednio zoptymalizowany, ryzykujesz poważne utrudnienie swojej obecności w wyszukiwarkach.

            Jak utworzyć plik robots.txt WordPress?

            Domyślnie WordPress tworzy wirtualny plik robots.txt . Nie jest dostępny na Twoim serwerze, ale możesz go wyświetlić online.

            Weź ten na stronie Usaina Bolta, byłej gwiazdy sprintu z Jamajki.

            Usaina Bolta.
            Tak, nawet strona internetowa Usaina Bolta jest oparta na WordPressie.

            Aby go zobaczyć, wystarczy wpisać w przeglądarce http://usainbolt.com/robots.txt .

            Oto, co otrzymasz:

            Zwykły tekst

            Ten wirtualny plik działa. Ale jak zmodyfikować ten robots.txt na swojej stronie WordPress?

            Cóż, będziesz musiał utworzyć własny plik, aby go zastąpić.

            Można to zrobić na dwa sposoby:

            • Użyj wtyczki
            • Utwórz to ręcznie

            Pokażę ci szczegółowo, jak to zrobić.

            Jak utworzyć plik robots.txt na WordPressie za pomocą Yoast SEO

            Założę się, że znasz Yoast SEO, prawda? Wiesz, to wtyczka SEO, jedna z najczęściej pobieranych wszechczasów.

            Używa go WPMarmite i zamierzam go również użyć, aby pokazać, w jaki sposób może pomóc w utworzeniu pliku robots.txt WordPress.

            Oczywiście warunkiem wstępnym jest zainstalowanie i aktywacja tej wtyczki.

            Zacznij od przejścia do pulpitu WordPress i wybierz Yoast SEO > Narzędzia .

            Możliwe jest utworzenie pliku robots.txt na WordPress z zakładki „Narzędzia” wtyczki Yoast SEO.

            Kontynuuj, klikając „Edytor plików”.

            Edytor plików Yoast SEO umożliwia edycję pliku robots.txt witryny WordPress.

            Jeśli nie masz jeszcze dedykowanego pliku, kliknij przycisk, aby go utworzyć. Miałem już taki na swojej stronie, więc mogłem go tylko edytować. I nie zapomnij zapisać, gdy skończysz.

            Modyfikacja pliku robots.txt na WordPress za pośrednictwem Yoast SEO.

            I proszę bardzo.

            Nie martw się, wyjaśnię na końcu tej części, jakie informacje umieścić w tym pliku.

            Na razie przejdźmy do drugiej metody: będziesz musiał użyć swoich małych rączek.

            Metoda ręczna

            Niezależnie od tego, czy korzystasz z dedykowanej wtyczki, czy nie, istnieje również możliwość ręcznego dodania pliku robots.txt do witryny WordPress. Zobaczysz, to bardzo proste.

            Najpierw potrzebujesz edytora tekstu. Wśród nich mogę polecić:

            • Wsporniki
            • Notatnik++
            • Wzniosły tekst

            W przeciwnym razie twój stary dobry Notatnik również będzie działał bardzo dobrze.

            Utwórz nowy dokument i zapisz go na swoim komputerze pod nazwą robots.txt .

            Jego nazwa musi być zawsze pisana małymi literami i nie zapomnij wstawić „s” w słowie robots (nie pisz robot.txt ).

            Następnie połącz się z klientem FTP. Jest to oprogramowanie, które umożliwia komunikację z serwerem.

            Osobiście używam Filezilli. Ale możesz też użyć Cyberkaczki. Aby uzyskać więcej informacji na temat korzystania z FTP, zapoznaj się z naszym postem: Jak korzystać z FTP w celu uzyskania dostępu do plików WordPress.

            FTP przyda się również w procesie instalacji WordPressa. Przeczytaj nasz przewodnik na ten temat: Jak zainstalować WordPress: przewodnik krok po kroku.

            Trzeci i ostatni krok: dodaj plik do katalogu głównego witryny . Powtarzam, w katalogu głównym Twojej witryny, a nie w podkatalogu. W przeciwnym razie wyszukiwarki nie wezmą tego pod uwagę.

            Jeśli na przykład Twoja witryna jest dostępna pod https://www.yoursite.com/ , plik robots.txt powinien znajdować się pod https://www.yoursite.com/robots.txt .

            Ta lokalizacja (korzeń) może się różnić w zależności od hosta. W Bluehost (link afiliacyjny) nazywa się to public_html . W OVH znajdziesz go pod nazwą www .

            Jego ostateczna implementacja powinna wyglądać tak na Twojej stronie:

            Plik robots.txt na Twoim serwerze.

            Podstawowe zasady, które należy znać

            Gratulacje, plik robots.txt znajduje się teraz na serwerze. Na razie jest pusty, ale możesz go edytować, kiedy tylko chcesz.

            Logicznie musisz zadać sobie pytanie, jakie instrukcje tam umieścić.

            Zanim do tego dojdziemy, konieczne jest zrozumienie składni tego pliku.

            „Każda reguła blokuje lub umożliwia dostęp danemu robotowi do określonej ścieżki pliku w tej witrynie” , jak wyjaśnia Google w pomocy Search Console.

            Dwie główne zasady to:

            • User-agent : odnosi się do nazwy robota wyszukiwarki, którego dotyczy reguła.
            • Disallow : wyznacza katalog lub stronę w odniesieniu do domeny głównej, które nie powinny być indeksowane przez klienta user-agent . Pamiętaj, że domyślnie robot może eksplorować stronę lub katalog niezablokowany przez regułę Disallow .

            Przestudiujmy prosty przykład, abyś zrozumiał.

            Zwykły tekst

            W pierwszym wierszu gwiazdka * to coś, co nazywamy symbolem wieloznacznym. Odnosi się do wszystkich robotów wyszukiwarek ( user-agent ).

            W drugim wierszu disallow dostęp do tych wyszukiwarek do wszystkich katalogów i stron Twojej witryny, używając ukośnika / .

            Nie musisz wpisywać nazwy domeny (np mysite.com/ ) przed ukośnikiem, ponieważ plik robots.txt używa względnych adresów URL. Mówiąc najprościej, wie, że ukośnik odnosi się do katalogu głównego nazwy domeny.

            Oczywiście powyższy kod jest mało przydatny, jeśli chcesz, aby Twoja witryna była pobierana i indeksowana. Ale może to być przydatne, gdy jesteś w fazie tworzenia witryny.

            Jeśli nie chcesz, aby dany typ robota indeksował Twoją witrynę, na przykład Yahoo (Slurp to nazwa powiązana z robotem Yahoo), musisz to zrobić:

            Zwykły tekst

            Aby uzyskać więcej informacji na temat nazw robotów, odsyłam do tego zrzutu ekranu ze strony Yoast SEO.

            Lista robotów wyszukiwarek.

            Kilka dodatkowych zasad

            Mówiłem o User-agent i Disallow , które są najczęściej używane. Powinieneś wiedzieć, że istnieją inne reguły składni, ale nie są one brane pod uwagę przez wszystkie roboty (w Google, tak). Wśród nich są:

            • Allow : umożliwia eksplorację podkatalogu lub strony w niedozwolonym katalogu ( Disallow ).
            • Sitemap : informuje roboty, gdzie znajduje się mapa witryny. Ta linia jest opcjonalna. Polecam przesłać mapę witryny do wyszukiwarek za pomocą dedykowanego narzędzia, takiego jak Google Search Console. W tym poście wyjaśniam, jak to zrobić.

            Aby upewnić się, że rozumiesz, przejdźmy trochę dalej, podając 3 nowe przykłady.

            Jak zablokować dostęp do katalogu?

            Zwykły tekst

            Proszę wszystkie roboty, aby nie eksplorowały całej zawartości katalogu wp-admin .

            Jak zablokować dostęp do strony lub pliku

            Zwykły tekst

            W tym przykładzie proszę wszystkie roboty, aby nie indeksowały strony logowania do WordPressa, a także zdjęcia.

            Możesz również zobaczyć pojawienie się symbolu # . Wprowadza komentarz. Tekst za nim nie będzie brany pod uwagę.

            Pamiętaj też, że w regułach jest rozróżniana wielkość liter.

            Na przykład Disallow: /myphoto.jpg odpowiada wartości http://www.mysite.com/myphoto.jpg , ale nie http://www.mysite.com/Myphoto.jpg .

            Jak tworzyć różne zasady dla różnych robotów

            Zwykły tekst

            Reguły są zawsze przetwarzane od góry do dołu. Pamiętaj, że zawsze zaczynają się od instrukcji User-agent , która wskazuje robota, którego dotyczy reguła.

            W pierwszym proszę wszystkie roboty, aby nie indeksowały strony logowania ( wp-login.php ).

            W drugim specjalnie proszę robota Google (Googlebota), aby nie indeksował całej mojej witryny.

            Jak zezwolić na dostęp do pliku w zablokowanym katalogu?

            Zwykły tekst

            Używamy oświadczenia Allow . W tym przykładzie cały katalog wp-admin jest zablokowany, z wyjątkiem pliku widgets.php .

            Znajdź najlepszych ekspertów WordPress

            Codeable ma na celu łączenie Cię z ekspertami, którzy mogą Ci pomóc we wszystkim, od projektowania motywów WordPress lub instalacji po tworzenie niestandardowych wtyczek.

            Wypróbuj kodowalne

            Jak sprawdzić, czy plik robots.txt działa poprawnie?

            Aby mieć pewność, że Twój plik jest poprawnie skonfigurowany, możesz sprawdzić i zweryfikować go w Google Search Console, bezpłatnym i niezbędnym narzędziu do zarządzania SEO Twojej witryny (między innymi).

            Otwórz narzędzie do testowania pliku robots.txt (musisz najpierw zarejestrować tam swoją witrynę).

            Po wprowadzeniu wybranych instrukcji w dostarczonym edytorze możesz przetestować swój plik.

            Jeśli wszystko jest w porządku, na dole edytora powinien pojawić się następujący komunikat.

            Komunikat na dole narzędzia do testowania pliku robots.txt Google informuje, czy plik zawiera błędy lub ostrzeżenia.

            Jeśli nie, plik zawiera błędy logiczne lub ostrzeżenia dotyczące składni. Na koniec pamiętaj o przesłaniu pliku, klikając przycisk „Prześlij”.

            Jak zoptymalizować plik robots.txt na WordPressie?

            Co należy umieścić w pliku robots.txt , a czego nie?

            Czy istnieje predefiniowany szablon, który można dostosować do każdej witryny?

            Odpowiedź: zarówno tak, jak i nie.

            Rzeczywiście, każda strona jest inna i trudno byłoby skopiować i wkleić to, co proponują na swoich stronach Peter, Paul czy James. Ich problemy najprawdopodobniej będą inne niż te, które masz na swoim.

            Niemniej jednak możemy udostępnić podstawowy plik robots.txt , który będzie pasował do większości witryn:

            Zwykły tekst

            Prawdę mówiąc, nawet w społeczności WordPressa nie da się przekonać wszystkich do zgody. Opinie są różne.

            Niektórzy, jak Joost de Valk, założyciel Yoast, opowiadają się za minimalizmem. To jest aktualnie aktualny trend .

            Zasadniczo uważają, że ponieważ Google jest w stanie zinterpretować Twoją witrynę w całości (w tym kod CSS i JavaScript, a nie tylko HTML), nie powinien blokować dostępu do plików CSS i JavaScript, aby mógł zobaczyć Twoje strony w całości. W przeciwnym razie może to wpłynąć na SEO.

            Aby sprawdzić, czy Google ma dostęp do wszystkich zasobów potrzebnych do prawidłowego wyświetlania Twojej strony, możesz wrócić do Google Search Console. Przejdź do zakładki „Kontrola adresów URL”, kliknij „Wyświetl przetestowaną stronę”, a następnie kliknij „Zrzut ekranu”.

            Jeśli Twoja witryna nie wygląda tak, jak powinna (np. niektóre style nie są stosowane), jest to prawdopodobnie spowodowane koniecznością sprawdzenia niektórych reguł w pliku robots.txt .

            Ale wracając do Yoast. Spójrz na ich plik robots.txt :

            Zwykły tekst

            Jak widać, nic nie jest zablokowane!

            Inni opowiadają się za szerszym, „bezpiecznym” podejściem do Twojej witryny. Doradzają m.in.:

            • Blokuj dostęp do dwóch kluczowych katalogów WordPress , takich jak folder wp-admin (w którym znajdują się elementy administracyjne Twojej witryny) i folder wp-includes (w którym znajdują się wszystkie pliki WordPress).
            • Odindeksuj stronę logowania (wp-login.php ).
            • Lub odindeksować plik readme.html , ponieważ zawiera on wersję WordPressa, której używasz.

            Krótko mówiąc, nie jest łatwo znaleźć drogę do wszystkich tych zaleceń!

            Podsumowując, radzę:

            • Trzymaj się absolutnego minimum, jeśli nie jesteś pewien, co robisz . W przeciwnym razie konsekwencje dla SEO mogą być niefortunne.
            • Przed przesłaniem sprawdź, czy plik nie zawiera błędów w Search Console .

            Jak zoptymalizować plik robots.txt swojej witryny #WordPress? Odpowiedz w tym samouczku od WPMarmite.

            Kliknij, aby tweetować

            Wniosek

            Jak już zauważyłeś, plik robots.txt jest interesującym narzędziem dla Twojego SEO. Pozwala powiedzieć robotom wyszukiwarek, co powinny, a czego nie powinny się indeksować.

            Ale należy się z tym obchodzić ostrożnie. Zła konfiguracja może doprowadzić do całkowitej deindeksacji Twojej witryny (np. jeśli używasz Disallow: / ). Więc uważaj!

            Czerwony ostrzegawczy migający GIF.

            Aby zakończyć ten post, zróbmy podsumowanie. W tych wierszach szczegółowo opisałem:

            • Co to jest plik robots.txt .
            • Jak zainstalować go na WordPressie .
            • Jak zoptymalizować plik robots.txt na WordPress pod kątem SEO.

            Teraz twoja kolej. Powiedz mi, czy używasz tego typu pliku i jak go skonfigurowałeś.

            Podziel się swoimi przemyśleniami i opiniami w komentarzach.