como crear el archivo robots.txt

Cómo Crear el Archivo Robots.txt Para WordPress

Todos queremos aparecer en los primeros lugares de la SERPS, y  por ello  realizamos diferentes acciones para optimizar nuestro blog lo más que podamos.

Una de esas optimizaciones es crear un archivo robots.txt que nos ayuda a indicarle a los diferentes bots que contenido analizar y cuáles no.

En el artículo de hoy te explicare como crear el archivo robots.txt para wordpress  y de qué manera puede beneficiarte al  posicionamiento de tu blog en los resultados de búsquedas.

Pero antes, vamos a ver que es un archivo robots.txt y para qué sirve.

 

¿Qué es el archivo robots.txt y para que sirve?

El archivo robots.txt, hace referencia al protocolo de exclusión  de robots o bots que analizan el contenido de un sitio web.

Dependiendo como este diseñado este archivo, estos bots al analizar nuestro sitio envían lainformación a los buscadores para luego categorizar nuestro blog en los resultados de búsquedas.

Cuando un bot visita nuestro sitio web lo primero que hace es ver si existe un archivo robots.txt y dependiendo de la información que contenga este archivo el bot analizara las secciones al cual tenga acceso.

También hay que tener en cuenta que muchosbots aran caso omiso a la información que contenga el archivo robots.txt como los robots malware o robots maliciosos.

Para que lo entiendas mejor, un archivo robots.txt sirve para:

  1. Indicarle a los bots a cuales partes de nuestra web tienen acceso.
  2. Denegar el rastreo a cierto contenido y secciones de nuestro blog.
  3. Bloquear el acceso a ciertos bots específicos.
  4. Prohibir la indexación de contenidos eliminados o privados.

Ahora ya teniendo claro cuál es la función del archivo robots.txt vamos a proseguir y crear nuestro archivo robots.txt para wordpress.

 

Cómo configurar el archivo robots.txt en tu blog

Antes de crear un archivo robots.txt en wordpress debemos asegurarnos si nuestro blog cuenta o no con uno.

El archivo robots.txt se instala automáticamente cuando instalamos wordpress en nuestro hosting.

Para ubicar el archivo robots.txt basta con introducir en el navegador la ruta del  archivo que normalmente se encuentra en el directorio raíz de nuestro blog.

Por ejemplo:

http://tu-blog.com/robots.txt

La mayoría de los archivos robots.txt de wordpress tienen un aspecto parecido a este:

User-agent:*

Desallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

En el caso de que tu blog no cuente con el archivo robots.txt, puedes crearlo fácilmente abriendo el blog de nota y subirlo al directorio raíz a través del Cpanel o vía FTP con Filezilla.

Recuerda nombrarlo como: Robots.txt

La configuración de un archivo robots.txt es sencilla ya que sus parámetros son básico y debes tener en cuenta que si configuras mal el archivo puede afectar el SEO de tu blog negativamente.

También cabe destacar que no existe un archivo robots.txt universal, ya que todo depende de las necesidades de cada blogger y del sitio web.

Al momento de crear tu archivo robots.txt debes considerar las siguientes reglas:

  • El archivo robots.txt distingue entre mayúsculas, minúsculas, espacios y signos de puntuación.
  • Dejar una línea en blanco para separar los grupos de comandos User-agent
  • No utilizar parámetros distintos a los permitidos.

Ya teniendo claro esto, vamos a ver los comandos básico de un archivo robots.txt.

 

Comandos básicos del archivo robots.txt

Como te mencione hace un momento el archivo robots.txt le informa a los bots de los distintos buscadores a cuales secciones de la web tienen acceso según los comandos que se incluyan en este archivo.

Los comandos más importantes del archivo robots.txt son:

  • User-agent.
  • Disallow.
  • Allow.
  • Sitemap.
  • Crawl-delay.

Ahora vamos a ver las funciones de cada uno de estos comandos.

 

User-agent :

Este comando indica que tipo de robots deben cumplir con los parámetros que contiene el archivo robots.txt

Ósea, indica cuales robots deben respetar las directivas que se les indique.

Por ejemplo:

El comando User-agent :*está indicando que todos los robots de cualquier buscador deben respetar los parámetros.

Pero en el caso que solo queramos que un robot específico cumpla con estos parámetros debemos incluir el nombre del robot de esta manera:

User-agent: nombre-del-robot

Por otra parte, si queremos permitir el acceso todos los robots y denegarle el acceso a otro robot, el comando seria:

User-agent:*

User-agent: nombre-del-robot

Con esto, estamos denegando el acceso a un robot al contenido de nuestro blog pero permitiendo el acceso al resto de robots.

 

Disallow:

Con este comando denegamos el acceso a los bots aciertos tipos de páginas y carpetas en concreto.

Por ejemplo:

Si queremos que no se indexen una capeta que contenga información privada, utilizamos el siguiente comando:

Disallow: /nombre de la carpeta/

Este parámetro indica que no seaindexado la carpeta y todo el contenido dentro de ella.

Pero en el caso que deseemos prohibir el acceso a un robot especificó a una carpeta, utilizaríamos el siguiente parámetro:

User-agent: nombre-del-robot

Disallow: /nombre-de-la-carpeta/

Y si de lo contrario queremos bloquear el acceso a todos los robots, en este caso el parámetro seria el siguiente:

User-agent: *

Disallow: /nombre-de-la-carpeta/

Con esto denegamos el acceso a todos los bots y evitamos que se indexe todo el contenido de la carpeta.

 

Allow:

Este comando funciona al contrario que Disallow, ya que permite el acceso a carpetas y paginas específicas.También podemos utilizarla para sobrescribir los comandos Disallow.

Por ejemplo:

Disallow: /nombre-de-la-carpeta/ – Esta denegando el acceso a los bots a dicha carpeta.

Pero si queremos que sea indexado solo un contenido de esa carpeta, podemos utilizar el siguiente comando.

Disallow: /nombre-de-la-carpeta/

Allow: /nombre-de-la-carpeta/url-de-la-pagina/

Con estos comandos estamos denegando la indexación de la carpeta pero permitiendo que se indexe solo la página que si deseamos sea indexada.

tambiénestá la posibilidad de permitir el acceso a un bot de indexar el contenido y evitar el acceso de otro bot.

Ejemplo:

User-agent:*

Disallow:

User-agent: Googlebot

Disallow: /nombre-de-la-carpeta/

Allow: /nombre-de-la-carpeta/url-de-la-pagina/

Este parámetro está indicando que todos los bots tienen permiso a todo el contenido del blog, pero con el comando User-agent: Googlebot, estamos indicando que el robot de Google solo tiene acceso a una url especifica.

 

Sitemap

Este comando es básico, indica la dirección del mapa del sitio del blog.

User-agent:*

Disallow:

Sitemap: https://tu-blog.com/sitemap.xml

 

Como te comente, los bost al entrar a nuestro blog lo primero que hacen es ver si existe el archivo robots.txt y podemos aprovechar para indicarle rápidamente la ubicación de nuestro sitemap y con ello la ubicación de nuestro contenido.

 

Crawl-delay 

La función de este comando es indicar cada cuanto tiempo debe pasar el robot por nuestro blog en busca de contenido nuevo:

Por ejemplo:

User-agent:*

Crawl-delay: 3600

Aquí estamos indicando que cada 3600 segundos los robots pueden pasar y analizar el sitio web en busca de algún nuevo contenido a indexar.

Este comando es muy útil para web o blog que actualizan contenido nuevo varias veces al dia, como lo son las revistas y periódicos digitales.

 

Comandos especiales:

El archivo robots.txt también permite incluir parámetro especiales o comodines tales como: “?”  “$”.

Estos comodines suelen usarse para evitar la indexación de rutas especiales.

Por ejemplo:

Si queremos que NO se indexen los comentarios ni las páginas de búsquedas de wordpress, utilizamos los parámetros:

User-agent: *

Disallow: /*?

De esta manera esta excluyendo la indexación de todas las rutas que contengan el símbolo de interrogante, como los comentarios y resultados de búsquedas en nuestro blog.

Este comando e útil para evitar el contenido duplicado generado por las busquedas de los usuarios dentro de nuestro blog.

Ahora, el símbolo de $ se utiliza para denegar el acceso y la indexación de toda una serie especifica

Por ejemplo:

Para evitar que los robots indexen toso las url que terminen con .php, podremos utilizar el comando:

User-agent: *

Disallow: /*.php$

Con ello estamos indicando que ningún robot indexe y enviéinformación a los buscadores de las url que terminen con .php

Ha este este punto, hemos entendido como funciona el archivo robots.txt, ahora vamos a ver algunos ejemplos básicos de este archivo.

 

Ejemplos de robots.txt básicos

Antes de generar nuestro archivo robots.txt, te voy a mostrar algunos ejemplos de este archivo para que tengas una idea de cómo implementarlos y puedas crear el tuyo según tus necesidades y especificaciones.

Ejemplo de robots.txt #1

User-agent: *

Disallow:

Con estos parámetros indicamos que todos los robots tienen permiso a todas las secciones de nuestro blog.

 

Ejemplo de robots.txt #2

User-agent: *

Disallow: /

Con estos parámetros denegamos el acceso a todos los bots a nuestro blog y con ello la indexación de nuestro contenido en los resultados de búsquedas.

 

Ejemplo de robots.txt #3

User-agent: *

Disallow:

User-agent: nombre-del-bot

Disallow: /

Aquí estamos permitiendo el acceso a todos los bots a todo nuestro contenido y a su vez denegando el acceso a un robot especifico.

 

Ejemplo de robots.txt #4

User-agent:  nombre-del-bot

Disallow: /nombre-de-carpeta/

Con estos parametros estamos indicamdo la exclucion de un roborespecifico a un directorio especifo.

 

Ejemplo de robots.txt #5

User-agent: *

Disallow:  /nombre-de-carpeta/

Allow: /nombre-de-la-carpeta/url-de-la-pagina/

Este comando permite solo el acceso a los bots a una urlespecifica dentro de un directorio.

Ya teniedo claro algunos ejemplos de archivos robots.txt es momento de crear nuestro propio archivo de nuestro blog.

 

Cómo crear el archivo robots.txt de nuestro blog wordpress.

Para crear nuestro archivo robots.txt basta con abrir el blog de nota y nombrarlo robots.txt.

Luego de nombrarlo debemos comenzar a añadirle los comandos que contendras nuestro archivo.

En este apartado te voy a deja el archivo robots.txt que utlizo en este mismo blog.

ejemplo archivo robots-txt

Los comandos que contiene este archivo son basicos y su estándar es funcional para cualquier blog de wordpress.

También puedes añadirle cualquier otro comando que creeas necesario, siempre y cuando cumpla con las directrices específicas.

User-agent: *
Disallow: /wp-login
Disallow: /wp-admin
Allow: /wp-admin/admin-ajax.php
Disallow: //wp-includes/
Disallow: /*/feed/
Disallow: /*/trackback/
Disallow: /*/attachment/
Disallow: /author/
Disallow: *?replytocom
Disallow: /tag/*/page/
Disallow: /tag/*/feed/
Disallow: /comments/
Disallow: /xmlrpc.php
Disallow: /*?s=
Disallow: /*/*/*/feed.xml
Disallow: /?attachment_id*
Sitemap: https://tudominio.com/sitemap_index.xml

Luego que hayas creado tu archivo robots.txt deberas subirlo a la raíz de tu blog, puedes hacer atravez del Cpanel o de Filezilla.

Caundo lo tengas instalado en tu blog debes asegurarte que se encuetra en la ruta especifaca, osea en la raíz de tu directorio.

Esto lo puedes verificar introducien en el navegador la url:

https://tu-blog.com/robots.txt.

Si logras visualizar el archivo robots.txt, es por qué esta en el directorio raíz correctamente.


El archivo robots.txt hace referencia al protocolo de exclusión para bots.

Pero como te lo comente muchos bots no aran caso a los parámetros indicado en este archivo. Como los son los bots maliciosos.

Tampoco existe el archivo robots.txt unico y universal para wordpress ya que depende de cada blogger y de las necesidades del sitio web.

Ahora es tu turno.

¿Ya tienes creado tu archivo robots.txt?

Si tienes alguna duda hay están los comentarios, estaré encantado en ayudarte y si te ha gustado el compártelo en tus redes sociales favoritas.

Deja un comentario