Robots.txt: Como otimizar este arquivo em um site WordPress
Publicados: 2022-01-21Se eu pedir para você definir o que é um arquivo robots.txt no WordPress, você pode me dar uma resposta direta?
Não é fácil, é? Além disso, sem saber, você provavelmente já tem um em seu site.
O problema é que nem sempre entendemos esse famoso arquivo. Para que isso é usado? O que você coloca nele? Por que seu código parece difícil de entender?
Se você já se debruçou sobre o assunto, aposto que já se fez essas perguntas.
Um pouco como a dinamite, este arquivo deve ser manuseado com muito cuidado .
Se você não configurá-lo corretamente, corre o risco de prejudicar o SEO do seu site. Portanto, cuidado com a explosão!

Neste post, mostrarei como evitar o desastre e como otimizar seu arquivo robots.txt do WordPress. Você descobrirá para que é usado, como funciona, duas maneiras de criá-lo e o que colocar dentro.
Visão geral
- O que é o arquivo robots.txt do WordPress?
- Como criar um arquivo robots.txt do WordPress?
- Como verificar se o arquivo robots.txt está funcionando corretamente?
- Como otimizar seu arquivo robots.txt no WordPress?
- Conclusão
O que é o arquivo robots.txt do WordPress?
Apresentação
Um arquivo robots.txt do WordPress é um arquivo de texto localizado na raiz do seu site que “informa aos rastreadores do mecanismo de pesquisa quais URLs o rastreador pode acessar em seu site” de acordo com a definição dada pelo Google em seu site de ajuda para webmasters.
Também conhecido como “Padrão/Protocolo de Exclusão de Robôs”, ele permite que os mecanismos de pesquisa evitem a indexação de certos conteúdos inúteis e/ou privados (por exemplo, sua página de login, pastas e arquivos confidenciais).
Resumindo, esse protocolo informa aos robôs de um mecanismo de pesquisa o que eles podem ou não fazer em seu site.
Aqui está como funciona. Quando um robô está prestes a rastrear um URL do seu site (ou seja, ele vai explorar e recuperar informações para poder indexá-lo), ele primeiro examinará seu arquivo robots.txt .
Se o encontrar, ele o lerá e seguirá as diretivas que você forneceu (ele não poderá rastrear tal e tal arquivo se você o proibiu).
Se não encontrar, ele rastreará seu site normalmente, sem excluir nenhum conteúdo.
Veja este exemplo de um arquivo robots.txt do WordPress para ver como é:

Não necessariamente pare em seu conteúdo. Como você verá mais adiante, não existe um arquivo padrão que possa ser adaptado a qualquer site. Em qualquer caso, não é recomendado.
Se você tivesse que lembrar mais 4 coisas sobre o nosso tema do dia, coloque isso na sua cabeça:
- Como o Google explica, as informações que você fornece em seu arquivo
robots.txt“não podem forçar o rastreador a seguir as regras do seu site” . Se os rastreadores “sérios” (Google, Bing, Yahoo, Yandex, Baidu, etc.) os respeitarem, não será o caso de robôs maliciosos, que buscam minar a segurança do seu site.
Além disso, nem todos os robôs interpretam as instruções da mesma maneira, portanto, respeite a sintaxe indicada pelo Google. - O arquivo
robots.txté um arquivo público . Qualquer pessoa pode acessá-lo digitando o seguinte modelo:yoursite.com/robots.txt. Portanto, não o use para ocultar conteúdo, rapidamente descobrirá onde ele está oculto... Se você deseja que algum conteúdo permaneça privado, não o coloque neste arquivo, mas proteja-o com uma senha, por exemplo. - Se você não deseja que determinadas páginas apareçam nos resultados de pesquisa, “não use o arquivo
robots.txtpara ocultar sua página da web”, diz o Google. De fato, se vários links apontam para esta página, é possível que o Google a indexe e a exiba em seus resultados de pesquisa, sem saber o que ela contém, mesmo que você a tenha bloqueado em seu arquivorobots.txt.
Para evitar que uma página apareça nos resultados de pesquisa, o Google recomenda usar o que é chamado de tagnoindex(ela pode ser facilmente ativada no Yoast SEO desmarcando a caixa “Permitir que os mecanismos de pesquisa mostrem esta postagem nos resultados de pesquisa?” localizada em cada postagem/ página na guia de configurações). - O arquivo
robots.txttem um primo chamado humanos.txt .
Este é um arquivo TXT, também localizado na raiz do seu site, que contém informações sobre as diferentes pessoas que contribuíram para o design.
Por exemplo, desenvolvedores, web designers, editores, etc. Não é obrigatório, mas se você achar que é útil integrá-lo em seu site WordPress, você terá que adicioná-lo à raiz do seu site, próximo aorobots.txt(veja o do WPMarmite, por exemplo).

Você realmente precisa de um arquivo robots.txt ?
Por padrão, um site será rastreado e indexado normalmente por um mecanismo de pesquisa, mesmo sem a presença de um arquivo robots.txt .
Este último, portanto, não é obrigatório. Como explica Daniel Roch, especialista em SEO do WordPress, “se você quiser indexar todas as suas páginas, conteúdo e mídia, não use o arquivo robots.txt : não vai adiantar nada” .
Mas então, para que serve esse arquivo, o resto do tempo?
O principal benefício é ser encontrado ao lado do seu SEO . Na verdade, um arquivo robots.txt permite que você salve o que é chamado de orçamento de rastreamento, diz este post do blog Yoast SEO.
É bastante técnico, mas simplesmente, ao desindexar as páginas do seu site que não são de interesse de SEO, você deixará mais tempo e energia para o Google rastrear as outras.
Se você quiser se aprofundar no assunto, Brian Dean, do Backlinko, fala sobre isso aqui.
Agora é hora de passar para a configuração do seu arquivo. E isso é importante, acredite. Se não estiver devidamente otimizado, corre o risco de penalizar seriamente a sua presença nos motores de busca.
Como criar um arquivo robots.txt do WordPress?
Por padrão, o WordPress cria um arquivo virtual robots.txt . Ele não está acessível em seu servidor, mas você pode visualizá-lo online.
Pegue a do site de Usain Bolt, a ex-estrela do sprint jamaicano.

Para vê-lo, basta digitar no seu navegador http://usainbolt.com/robots.txt .
Aqui está o que você vai conseguir:
Este arquivo virtual funciona. Mas como você modifica este robots.txt em seu site WordPress?
Bem, você terá que criar seu próprio arquivo para substituí-lo.
Existem duas maneiras de fazer isso:
- Usar um plug-in
- Crie manualmente
Eu vou te mostrar como fazer isso em detalhes.
Como criar um arquivo robots.txt no WordPress com Yoast SEO
Aposto que você conhece o Yoast SEO, certo? Você sabe, é um plugin de SEO, um dos mais baixados de todos os tempos.
O WPMarmite o usa, e também vou usá-lo para mostrar como ele pode ajudá-lo a criar um arquivo robots.txt do WordPress.
Claro, o pré-requisito é que você tenha instalado e ativado este plugin.
Comece indo ao seu painel do WordPress e selecione Yoast SEO > Ferramentas .

Continue clicando em “Editor de arquivos”.

Se você ainda não tem um arquivo dedicado, clique no botão para criar um. Eu já tinha um no meu site, então só podia editá-lo. E não se esqueça de salvar, quando terminar.

E aí vai.
Não se preocupe, explicarei no final desta parte quais informações colocar neste arquivo.
Por enquanto, vamos para o segundo método: você terá que usar suas mãozinhas.
O método manual
Se você usa um plugin dedicado ou não, também é possível adicionar um arquivo robots.txt em seu site WordPress manualmente. É muito simples, você vai ver.
Primeiro, você precisará de um editor de texto. Entre eles, posso recomendar:
- Suportes
- Bloco de notas++
- Texto sublime
Caso contrário, seu bom e velho Bloco de Notas também funcionará muito bem.
Crie um novo documento e salve-o em seu computador com o nome robots.txt .
Seu nome deve estar sempre em letras minúsculas, e não se esqueça de colocar um “s” na palavra robots (não escreva
robot.txt).
Em seguida, conecte-se ao seu cliente FTP. Este é um software que permite que você se comunique com seu servidor.
Pessoalmente, eu uso o Filezilla. Mas você também pode usar o Cyberduck. Para mais informações sobre como usar um FTP, confira nosso post: Como usar FTP para acessar seus arquivos do WordPress.
Além disso, o FTP será útil para você no processo de instalação do WordPress. Leia nosso guia sobre isso: Como instalar o WordPress: um guia passo a passo.
Terceiro e último passo: adicione seu arquivo à raiz do seu site . Repito, na raiz do seu site, e não em um subdiretório. Caso contrário, os mecanismos de pesquisa não levarão isso em consideração.
Por exemplo, se seu site for acessível por https://www.yoursite.com/ , o arquivo robots.txt deve estar localizado em https://www.yoursite.com/robots.txt .
Esse local (a raiz) pode variar de um host para outro. No Bluehost (link afiliado), é chamado
public_html. Na OVH, encontra-o sob o nomewww.
Sua implementação final deve ficar assim, em seu site:

As regras essenciais para saber
Parabéns, seu arquivo robots.txt está agora em seu servidor. No momento, está vazio, mas você pode editá-lo quando quiser.
Logicamente, você precisa se perguntar que tipo de instruções colocar lá.
Antes de chegarmos a isso, é necessário entender a sintaxe específica desse arquivo.
“Cada regra bloqueia ou permite o acesso de um determinado rastreador a um caminho de arquivo especificado nesse site” , como o Google explica em sua ajuda do Search Console.
As duas regras principais são chamadas:
-
User-agent: Refere-se ao nome de um robô de mecanismo de pesquisa ao qual a regra se aplica. -
Disallow: designa um diretório ou página, relativo ao domínio raiz, que não deve ser rastreado pelouser-agent. Lembre-se de que, por padrão, um robô pode explorar uma página ou um diretório não bloqueado por uma regra de nãoDisallow.
Vamos estudar um exemplo simples para que você entenda.
Na primeira linha, o asterisco * é o que chamamos de curinga. Refere-se a todos os robôs do mecanismo de pesquisa ( user-agent ).
Na segunda linha, você disallow o acesso a esses buscadores a todos os diretórios e páginas do seu site, através da barra / .
Você não precisa inserir seu nome de domínio (por exemplo, mysite.com/ ) antes da barra, porque o arquivo robots.txt usa URLs relativos. Simplificando, ele sabe que a barra se refere à raiz do seu nome de domínio.
Obviamente, o código acima é de pouca utilidade se você quiser que seu site seja rastreado e indexado. Mas pode ser útil quando você está na fase de criação do seu site.
Se você não quiser que um tipo específico de robô rastreie seu site, por exemplo, o do Yahoo (Slurp é o nome associado ao robô do Yahoo), você terá que fazer isso:
Para obter mais informações sobre nomes de robôs, encaminhe você para esta captura de tela do site Yoast SEO.

Algumas regras adicionais
Falei sobre User-agent e Disallow , que são os mais usados. Você deve saber que existem outras regras de sintaxe, mas elas não são levadas em conta por todos os robôs (pelo Google, sim). Entre eles, estão:
-
Allow: Permite a exploração de um subdiretório ou de uma página em um diretório não permitido (Disallow). -
Sitemapdo site : informa aos robôs onde o mapa do site está localizado. Esta linha é opcional. Eu recomendo que você envie seu mapa do site para os mecanismos de pesquisa por meio de uma ferramenta dedicada, como o Google Search Console. Eu explico como fazer isso neste post.
Para ter certeza de que você entendeu, vamos um pouco mais longe, dando-lhe 3 novos exemplos.
Como bloquear o acesso a um diretório
Peço a todos os robôs que não explorem todo o conteúdo do diretório wp-admin .
Como bloquear o acesso a uma página ou arquivo
Neste exemplo, peço a todos os robôs que não indexem a página de login do WordPress, assim como uma foto.
Você também pode ver o símbolo # aparecer. Ele introduz um comentário. O texto por trás dele não será levado em consideração.
Lembre-se também de que as regras diferenciam maiúsculas de minúsculas.
Por exemplo, Disallow: /myphoto.jpg corresponde a http://www.mysite.com/myphoto.jpg , mas não a http://www.mysite.com/Myphoto.jpg .
Como criar regras diferentes para robôs diferentes
As regras são sempre processadas de cima para baixo. Lembre-se, eles sempre começam com a instrução User-agent , que indica o robô ao qual a regra se aplica.
Na primeira, peço a todos os robôs que não indexem a página de login ( wp-login.php ).
Na segunda, peço especificamente ao rastreador do Google (Googlebot), para não rastrear todo o meu site.
Como permitir o acesso a um arquivo em um diretório bloqueado
Usamos a instrução Allow . Neste exemplo, todo o diretório wp-admin está bloqueado, exceto o arquivo widgets.php .
Como verificar se o arquivo robots.txt está funcionando corretamente?
Para ter certeza de que seu arquivo está configurado corretamente, você pode verificá-lo e validá-lo no Google Search Console, uma ferramenta gratuita e essencial para gerenciar o SEO do seu site (entre outras).
Abra a ferramenta de teste do arquivo robots.txt (você precisa registrar seu site lá primeiro).
Depois de inserir as instruções de sua escolha no editor fornecido, você pode testar seu arquivo.
Se tudo estiver bem, você deve ter a seguinte mensagem na parte inferior do editor.

Caso contrário, seu arquivo contém erros de lógica ou avisos de sintaxe. Por fim, lembre-se de enviar o arquivo, clicando no botão “Enviar”.
Como otimizar seu arquivo robots.txt no WordPress?
O que você deve ou não colocar no seu arquivo robots.txt ?
Existe um modelo predefinido que pode ser adaptado a cada site?
A resposta: sim e não.
De fato, cada site é diferente e seria difícil copiar e colar o que Pedro, Paulo ou Tiago propõem em seus sites. Os problemas deles provavelmente serão diferentes dos que você tem no seu.
No entanto, podemos fornecer um arquivo robots.txt básico que será adequado para a maioria dos sites:
Para dizer a verdade, mesmo dentro da comunidade WordPress, é impossível fazer com que todos concordem. As opiniões divergem.
Alguns, como Joost de Valk, fundador do Yoast, defendem o minimalismo. Esta é realmente a tendência atual .
Em essência, eles acreditam que, como o Google é capaz de interpretar seu site em sua totalidade (incluindo o código CSS e JavaScript, e não mais apenas o HTML), ele não deve bloquear o acesso a arquivos CSS e JavaScript para que possa ver suas páginas em sua totalidade. Caso contrário, isso pode afetar seu SEO.
Para verificar se o Google tem acesso a todos os recursos necessários para exibir sua página corretamente, você pode voltar ao Google Search Console. Vá para a guia "Inspeção de URL", clique em "Visualizar página testada" e clique em "Captura de tela".
Se o seu site não parece como deveria (por exemplo, alguns estilos não são aplicados), provavelmente é porque algumas das regras do seu arquivo robots.txt precisam ser revisadas.
Mas voltando ao Yoast. Veja o arquivo robots.txt :
Como você pode ver, nada está bloqueado!
Outros defendem uma abordagem mais ampla e “segura” para o seu site. Eles aconselham, entre outras coisas:
- Impeça o acesso a dois diretórios principais do WordPress , como a pasta
wp-admin(onde os itens administrativos do seu site estão localizados) e a pastawp-includes(que abriga todos os arquivos do WordPress). - Desindexe a página de login
(wp-login.php). - Ou para desindexar o arquivo
readme.html, pois ele contém a versão do WordPress que você está usando.
Em suma, não é fácil encontrar o caminho através de todas essas recomendações!
Para resumir, aconselho:
- Atenha-se ao mínimo se não tiver certeza do que está fazendo . Caso contrário, as consequências no seu SEO podem ser infelizes.
- Verifique se seu arquivo não contém erros no Search Console antes de enviá-lo .
Como otimizar o arquivo robots.txt do seu site #WordPress? Responda neste tutorial do WPMarmite.
Conclusão
Como você viu, o arquivo robots.txt é uma ferramenta interessante para o seu SEO. Ele permite que você diga aos robôs do mecanismo de pesquisa o que eles devem e não devem rastrear.
Mas deve ser manuseado com cuidado. Uma configuração incorreta pode levar a uma desindexação total do seu site (por exemplo, se você usar Disallow: / ). Por isso tem cuidado!

Para finalizar este post, vamos fazer um resumo. Ao longo destas linhas, detalhei:
- O que é o arquivo
robots.txt. - Como instalá-lo no WordPress .
- Como otimizar seu arquivo
robots.txtno WordPress para SEO.
Agora é sua vez. Diga-me se você usa esse tipo de arquivo e como você o configura.
Compartilhe seus pensamentos e feedback nos comentários.




