Robots.txt: cómo optimizar este archivo en un sitio web de WordPress
Publicado: 2022-01-21Si le pido que defina qué es un archivo robots.txt en WordPress, ¿puede darme una respuesta directa?
No es fácil, ¿verdad? Además, sin saberlo, probablemente ya tengas uno en tu sitio web.
Lo que pasa es que no siempre entendemos este famoso archivo. ¿Para qué se usa esto? ¿Qué le pones? ¿Por qué su código parece difícil de entender?
Si alguna vez ha investigado el tema, apuesto a que se ha hecho estas preguntas.
Un poco como la dinamita, este archivo debe manejarse con mucho cuidado .
Si no lo configura correctamente, corre el riesgo de dañar el SEO de su sitio. ¡Así que cuidado con la explosión!

En esta publicación, le mostraré cómo evitar el desastre y cómo optimizar su archivo robots.txt de WordPress. Descubrirás para qué sirve, cómo funciona, dos formas de crearlo y qué poner dentro.
Descripción general
- ¿Qué es el archivo robots.txt de WordPress?
- ¿Cómo crear un archivo robots.txt de WordPress?
- ¿Cómo comprobar que su archivo robots.txt funciona correctamente?
- ¿Cómo optimizar su archivo robots.txt en WordPress?
- Conclusión
¿Qué es el archivo robots.txt de WordPress?
Presentación
Un archivo robots.txt de WordPress es un archivo de texto ubicado en la raíz de su sitio que "le dice a los rastreadores de los motores de búsqueda a qué URL puede acceder el rastreador en su sitio" según la definición dada por Google en su sitio de ayuda para webmasters.
También conocido como "Protocolo/estándar de exclusión de robots", permite que los motores de búsqueda eviten indexar cierto contenido inútil y/o privado (por ejemplo, su página de inicio de sesión, carpetas y archivos confidenciales).
En resumen, este protocolo le dice a los robots de un motor de búsqueda lo que pueden o no hacer en su sitio.
Así es como funciona. Cuando un robot está a punto de rastrear una URL de su sitio (es decir, va a explorar y recuperar información para poder indexarlo), primero mirará su archivo robots.txt .
Si lo encuentra, lo leerá y luego seguirá las instrucciones que le hayas dado (no podrá rastrear tal o cual archivo si lo has prohibido).
Si no lo encuentra, rastreará tu sitio de forma normal, sin excluir ningún contenido.
Mire este ejemplo de un archivo robots.txt de WordPress para ver cómo se ve:

No te detengas necesariamente en su contenido. Como verá más adelante, no existe un archivo estándar que se pueda adaptar a cualquier sitio. En cualquier caso, no es recomendable.
Si tuvieras que recordar 4 cosas más sobre nuestro tema del día, métete esto en la cabeza:
- Como explica Google, la información que proporcione en su archivo
robots.txt“no puede obligar al rastreador a seguir las reglas de su sitio” . Si los rastreadores “serios” (Google, Bing, Yahoo, Yandex, Baidu, etc.) los respetarán, no será el caso de los robots maliciosos, que buscan socavar la seguridad de su sitio.
Además, no todos los robots interpretan las instrucciones de la misma manera, así que asegúrate de respetar la sintaxis indicada por Google. - El archivo
robots.txtes un archivo público . Cualquiera puede acceder escribiendo la siguiente plantilla:yoursite.com/robots.txt. Por lo tanto, no lo use para ocultar contenido, uno encontrará rápidamente dónde está oculto... Si desea que algún contenido permanezca privado, no lo ponga en este archivo, pero protéjalo con una contraseña, por ejemplo. - Si no desea que ciertas páginas aparezcan en los resultados de búsqueda, "no use el archivo
robots.txtpara ocultar su página web" , dice Google. De hecho, si varios enlaces apuntan a esta página, es posible que Google la indexe y la muestre en sus resultados de búsqueda, sin saber qué contiene, incluso si la ha bloqueado en su archivorobots.txt.
Para evitar que una página aparezca en los resultados de búsqueda, Google recomienda usar lo que se llama una etiquetanoindex(se puede activar fácilmente en Yoast SEO desmarcando la casilla "¿Permitir que los motores de búsqueda muestren esta publicación en los resultados de búsqueda?" ubicada debajo de cada publicación/ página en la pestaña de configuración). - El archivo
robots.txttiene un primo llamado human.txt .
Este es un archivo TXT, también ubicado en la raíz de su sitio, que contiene información sobre las diferentes personas que contribuyeron a su diseño.
Por ejemplo, desarrolladores, diseñadores web, editores, etc. No es obligatorio, pero si crees que es útil integrarlo en tu sitio de WordPress, tendrás que agregarlo a la raíz de tu sitio, junto a losrobots.txt(mira el de WPMarmite por ejemplo).

¿Realmente necesita un archivo robots.txt ?
De forma predeterminada, un sitio web será rastreado e indexado normalmente por un motor de búsqueda, incluso sin la presencia de un archivo robots.txt .
Por lo tanto, este último no es obligatorio. Como explica Daniel Roch, especialista en SEO de WordPress, “si quieres indexar todas tus páginas, contenidos y medios, no uses el archivo robots.txt : no te servirá de nada” .
Pero entonces, ¿de qué puede servir este archivo, el resto del tiempo?
El principal beneficio se encuentra del lado de su SEO . De hecho, un archivo robots.txt le permite guardar lo que se llama el presupuesto de rastreo, dice esta publicación del blog Yoast SEO.
Es bastante técnico, pero en pocas palabras, al desindexar las páginas de su sitio que no son de interés para SEO, dejará más tiempo y energía para que Google rastree las demás.
Si quieres profundizar en el tema, Brian Dean, de Backlinko, lo comenta aquí.
Ahora es el momento de pasar a la configuración de su archivo. Y esto es importante, créeme. Si no está correctamente optimizado, corre el riesgo de penalizar seriamente su presencia en los motores de búsqueda.
¿Cómo crear un archivo robots.txt de WordPress?
Por defecto, WordPress crea un archivo virtual robots.txt . No es accesible en su servidor, pero puede verlo en línea.
Tome el que está en el sitio de Usain Bolt, la ex estrella del sprint de Jamaica.

Para verlo solo tienes que teclear en tu navegador http://usainbolt.com/robots.txt .
Esto es lo que obtendrá:
Este archivo virtual funciona. Pero, ¿cómo modifica este robots.txt en su sitio web de WordPress?
Bueno, tendrás que crear tu propio archivo para reemplazarlo.
Hay dos maneras de hacer esto:
- Usa un complemento
- Créalo manualmente
Te mostraré cómo hacerlo en detalle.
Cómo crear un archivo robots.txt en WordPress con Yoast SEO
Estoy dispuesto a apostar que conoces Yoast SEO, ¿verdad? Ya sabes, es un plugin de SEO, uno de los más descargados de todos los tiempos.
WPMarmite lo usa, y también lo usaré para mostrarle cómo puede ayudarlo a crear un archivo robots.txt de WordPress.
Por supuesto, el requisito previo es que haya instalado y activado este complemento.
Comience yendo a su Panel de WordPress y seleccione Yoast SEO > Herramientas .

Continúe haciendo clic en "Editor de archivos".

Si aún no tiene un archivo dedicado, haga clic en el botón para crear uno. Ya tenía uno en mi sitio, así que solo podía editarlo. Y no te olvides de guardar, una vez que hayas terminado.

Y ahí tienes
No se preocupe, le explicaré al final de esta parte qué información poner en este archivo.
Por el momento, pasemos al segundo método: tendrás que usar tus manitas.
el metodo manual
Ya sea que use un complemento dedicado o no, también es posible agregar un archivo robots.txt en su sitio web de WordPress manualmente. Es muy sencillo, ya verás.
Primero, necesitará un editor de texto. Entre ellos, puedo recomendar:
- Soportes
- Bloc de notas++
- Texto sublime
De lo contrario, su buen viejo Bloc de notas también funcionará muy bien.
Cree un nuevo documento y guárdelo en su computadora con el nombre robots.txt .
Su nombre debe ir siempre en minúsculas, y no olvides poner una “s” en la palabra robots (no escribas
robot.txt).
A continuación, conéctese a su cliente FTP. Este es un software que le permite comunicarse con su servidor.
Personalmente, uso Filezilla. Pero también puedes usar Cyberduck. Para obtener más información sobre cómo usar un FTP, consulte nuestra publicación: Cómo usar FTP para acceder a sus archivos de WordPress.
Además, el FTP te será útil en el proceso de instalación de WordPress. Lea nuestra guía al respecto: Cómo instalar WordPress: una guía paso a paso.
Tercer y último paso: agrega tu archivo a la raíz de tu sitio . Repito, en la raíz de tu sitio, y no en un subdirectorio. De lo contrario, los motores de búsqueda no lo tendrán en cuenta.
Por ejemplo, si se puede acceder a su sitio a través de https://www.yoursite.com/ , el archivo robots.txt debe ubicarse en https://www.yoursite.com/robots.txt .
Esta ubicación (la raíz) puede variar de un host a otro. En Bluehost (enlace de afiliado), se llama
public_html. En OVH lo encontrará bajo el nombrewww.
Su implementación final debería verse así, en su sitio:

Las reglas esenciales para saber
Felicitaciones, su archivo robots.txt ahora está en su servidor. De momento está vacío, pero puedes editarlo cuando quieras.
Lógicamente, debes preguntarte qué tipo de instrucciones poner allí.
Antes de llegar a eso, es necesario comprender la sintaxis particular de este archivo.
“Cada regla bloquea o permite el acceso de un rastreador determinado a una ruta de archivo específica en ese sitio web” , como explica Google en la ayuda de Search Console.
Las dos reglas principales se llaman:
-
User-agent: Hace referencia al nombre de un robot de motor de búsqueda al que se aplica la regla. -
Disallow: designa un directorio o una página, relativa al dominio raíz, que eluser-agentno debe rastrear. Recuerde que, por defecto, un robot puede explorar una página o un directorio no bloqueado por una regla deDisallow.
Estudiemos un ejemplo sencillo para que entiendas.
En la primera línea, el asterisco * es lo que llamamos un comodín. Se refiere a todos los robots de motores de búsqueda ( user-agent ).
En la segunda línea, no disallow el acceso de estos motores de búsqueda a todos los directorios y páginas de su sitio, a través de la barra inclinada / .
No necesita ingresar su nombre de dominio (por ejemplo mysite.com/ ) antes de la barra inclinada, porque el archivo robots.txt usa URL relativas. En pocas palabras, sabe que la barra se refiere a la raíz de su nombre de dominio.
Obviamente, el código anterior es de poca utilidad si desea que su sitio sea rastreado e indexado. Pero puede ser útil cuando estás en la fase de creación de tu sitio.
Si no desea que un tipo particular de robot rastree su sitio, por ejemplo, el de Yahoo (Slurp es el nombre asociado con el robot de Yahoo), tendrá que hacer esto:
Para obtener más información sobre los nombres de los robots, lo remito a esta captura de pantalla del sitio Yoast SEO.

Algunas reglas adicionales
Ya te hablé de User-agent y Disallow , que son los más usados. Debes saber que existen otras reglas de sintaxis, pero no las tienen en cuenta todos los robots (los de Google, eso sí). Entre ellos, se encuentran:
-
Allow: Permite la exploración de un subdirectorio o una página en un directorio no permitido (Disallow). -
Sitemapdel sitio: le dice a los robots dónde se encuentra su mapa del sitio. Esta línea es opcional. Le recomiendo que envíe su mapa del sitio a los motores de búsqueda a través de una herramienta dedicada, como Google Search Console. Te explico cómo hacerlo en este post.
Para asegurarnos de que entiendes, vayamos un poco más allá y te daremos 3 nuevos ejemplos.
Cómo bloquear el acceso a un directorio
Pido a todos los robots que no exploren todo el contenido del directorio wp-admin .
Cómo bloquear el acceso a una página o un archivo
En este ejemplo, pido a todos los robots que no indexen la página de inicio de sesión de WordPress, así como una foto.
También puede ver aparecer el símbolo # . Introduce un comentario. El texto que hay detrás no se tendrá en cuenta.
También tenga en cuenta que las reglas distinguen entre mayúsculas y minúsculas.
Por ejemplo, Disallow: /myphoto.jpg coincide con http://www.mysite.com/myphoto.jpg , pero no con http://www.mysite.com/Myphoto.jpg .
Cómo crear diferentes reglas para diferentes robots
Las reglas siempre se procesan de arriba a abajo. Recuerde, siempre comienzan con la instrucción User-agent , que indica el robot al que se aplica la regla.
En el primero, pido a todos los robots que no indexen la página de inicio de sesión ( wp-login.php ).
En el segundo, le pido específicamente al rastreador de Google (Googlebot) que no rastree todo mi sitio.
Cómo permitir el acceso a un archivo en un directorio bloqueado
Usamos la instrucción Allow . En este ejemplo, todo el directorio wp-admin está bloqueado, excepto el archivo widgets.php .
¿Cómo comprobar que su archivo robots.txt funciona correctamente?
Para estar seguro de que su archivo está configurado correctamente, puede verificarlo y validarlo en Google Search Console, una herramienta gratuita y esencial para administrar el SEO de su sitio (entre otros).
Abra la herramienta de prueba de archivos robots.txt (primero debe registrar su sitio web allí).
Una vez que haya ingresado las instrucciones de su elección en el editor provisto, puede probar su archivo.
Si todo está bien, debería tener el siguiente mensaje en la parte inferior del editor.

De lo contrario, su archivo contiene errores lógicos o advertencias de sintaxis. Finalmente, recuerde enviar el archivo, haciendo clic en el botón "Enviar".
¿Cómo optimizar su archivo robots.txt en WordPress?
¿Qué debe poner o no poner en su archivo robots.txt ?
¿Existe una plantilla predefinida que se pueda adaptar a cada sitio?
La respuesta: tanto sí como no.
De hecho, cada sitio es diferente y sería difícil copiar y pegar lo que proponen Peter, Paul o James en sus sitios. Lo más probable es que sus problemas sean diferentes de los que usted tiene con los suyos.
Sin embargo, podemos proporcionarle un archivo robots.txt básico que se adaptará a la mayoría de los sitios:
A decir verdad, incluso dentro de la comunidad de WordPress, es imposible lograr que todos estén de acuerdo. Las opiniones difieren.
Algunos, como Joost de Valk, el fundador de Yoast, abogan por el minimalismo. Esta es en realidad la tendencia actual .
En esencia, creen que dado que Google puede interpretar su sitio en su totalidad (incluido el código CSS y JavaScript, y ya no solo el HTML), no debe bloquear el acceso a los archivos CSS y JavaScript para que pueda ver sus páginas. en su totalidad. De lo contrario, podría afectar su SEO.
Para verificar que Google tiene acceso a todos los recursos que necesita para mostrar su página correctamente, puede volver a Google Search Console. Vaya a la pestaña "Inspección de URL", haga clic en "Ver página probada" y luego haga clic en "Captura de pantalla".
Si su sitio no se ve como debería (por ejemplo, algunos estilos no se aplican), probablemente se deba a que algunas de las reglas en su archivo robots.txt deben revisarse.
Pero volvamos a Yoast. Mira su archivo robots.txt :
Como puedes ver, ¡nada está bloqueado!
Otros abogan por un enfoque más amplio y "seguro" para su sitio. Aconsejan, entre otras cosas, a:
- Evite el acceso a dos directorios clave de WordPress , como la carpeta
wp-admin(donde se encuentran los elementos administrativos de su sitio web) y la carpetawp-includes(que alberga todos los archivos de WordPress). - Desindexe la página de inicio de sesión
(wp-login.php). - O para desindexar el archivo
readme.html, porque contiene la versión de WordPress que está utilizando.
En resumen, ¡no es fácil encontrar el camino a través de todas estas recomendaciones!
En resumen, te aconsejo que:
- Limítese a lo mínimo si no está seguro de lo que está haciendo . De lo contrario, las consecuencias en tu SEO podrían ser desafortunadas.
- Verifique que su archivo no tenga errores en Search Console antes de enviarlo .
¿Cómo optimizar el archivo robots.txt de tu sitio de #WordPress? Responda en este tutorial de WPMarmite.
Conclusión
Como has visto, el archivo robots.txt es una herramienta interesante para tu SEO. Le permite decirle a los robots de los motores de búsqueda qué deben y qué no deben rastrear.
Pero debe manejarse con cuidado. Una mala configuración puede conducir a una desindexación total de su sitio (por ejemplo, si usa Disallow: / ). ¡Así que ten cuidado!

Para terminar este post, hagamos un resumen. A lo largo de estas líneas, he detallado:
- Qué es el archivo
robots.txt. - Cómo instalarlo en WordPress .
- Cómo optimizar su archivo
robots.txten WordPress para SEO.
Ahora es tu turno. Dime si usas este tipo de archivo y cómo lo configuras.
Comparta sus pensamientos y comentarios en los comentarios.




