Episodio 2. El Robots.txt

En este episodio les hablaré del fichero: robots.txt.


Les dejo algunas notas, enlaces y ejemplos del programa:

Este pequeño archivo, fundamental en nuestras instalaciones es también conocido como estándar de exclusión de robots, es un método para «controlar» los robots de los buscadores u otros programas de rastreo, con ciertas indicaciones o instrucciones que le ofrecemos en el archivo, ubicado en la carpeta raíz de nuestra web.

Es útil para «bloquear» ciertas zonas, o archivos de tu web a buscadores para evitar la indexación de contenido duplicado.

Siempre pongo entre comillas: bloqueo o control, porque como verán en el episodio, no siempre funciona como esperamos. Debemos usar otros métodos como los meta-robots en los encabezados.

El robots.txt tiene unas reglas sencillas pero que nos pueden inducir a ciertos errores:

  1. Debe ir el nombre del robot (user-agent) y la acción.
  2. Es un archivo de texto (txt) no HTML
  3. Siempre va en minúsculas
  4. Puede haber líneas vacías entre los distintos agentes, pero NO entre las directrices
  5. Podemos poner comentarios con la almohadilla (#) ya que será ignorado por buscadores

Algunos ejemplos:

User-agent: Googlebot 
Disallow: 
User-agent: Bingbot
Disallow: / 
# Block all agents from tmp directories
User-agent: *
Disallow: /tmp/

En el ejemplo anterior no bloqueamos nada a Google (el disallow está vacío) y bloqueamos toda la web a Bing al usar (/) que nos lleva a la carpeta raíz de la web.

En la tercera directriz, como señala el comentario, bloqueamos a todos los agentes el directorio: /tmp/.

Cuando queremos dirigirnos a todos los robots, usamos el asterisco (*).

User-agent: Bingbot
Crawl-delay: 5 

El crawl-delay funciona como un retraso en segundos para evitar sobrecargar las peticiones al servidor.

Como señalo en el capítulo, es algo que innecesario para la mayoría de las web. Le veo sentido a grandes webs o medios de comunicación con mucho tráfico.

El robots.txt acepta patrones regulares o comodines, algo muy útil si queremos bloquear ciertos directorios de nuestra web.

Ejemplo: el asterisco (*) para bloquear directorios que empiezan por la misma palabra: /carpeta*/ y bloqueará todos los directorios: carpeta1, carpeta2, etc.

User-agent: Googlebot
Disallow: /carpeta*/

El símbolo del dolar al final de la URL si queremos bloquear por ejemplo una extensión (como un pdf o un gif, por ejemplo ponemos /*.pdf$ ).

User-agent: Bingbot
Disallow: /*.pdf$

¿Qué sucede con el robots.txt por defecto en WordPress?

El robots.txt por defecto de WordPress es bueno porque:

  1. No bloquea ningún recurso del frontend de la web (la parte pública)
  2. Bloquea todos los recursos del backend (parte administrativa de la web) con una excepción:
  3. El admin-ajax.php que ofrece un apoyo a plugins y temas y puede ser utilizado en la parte pública de la web.
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

El ejemplo del robots.txt por defecto de WordPress también nos enseña un factor importante de la sintaxis. El «allow» que sobreescribe una directiva anterior, bloqueamos todo del wp-admin, excepto: al admin-ajax.php.

Debate si debe o no usarse el robots.txt por defecto y les enseño distintas maneras de modificarlo, o con editores de código, con generadores de robots.txt o con plugins. Les dejo al final todos los enlaces.

Ollo ao piollo: Consejo fundamental. Menos es más. Es bueno ser minimalista en este archivo, los buscadores suelen revisarlo con frecuencia. Pensar bien si quieres bloquear algo y porqué.

Enlaces, recursos finales y plugins mencionados en el episodio

Nos vemos la semana que viene donde abordaremos los sitemaps.xml.

Gracias por acompañarme. Si te gusta, comparte, me ayudará a llegar a más personas.

¡Larga vida y prosperidad a WordPress! 😉

Muchas gracias a Unsplash por la fantástica foto que acompaña este post: Photo by Andy Kelly on Unsplash

2 comentarios en «Episodio 2. El Robots.txt»

  1. Me parece muy interesante tu exposicion sobre el rchivo robot.txt. Yo prefiero no utilizarlo ya que una vez lo hice y me daño el SEO. Me ha costado mucho recuperar una parte del trafico.

    Responder
    • Rafael, muchas gracias por tu aportación y comentario. Qué pena, me imagino tuviste algún fallo que bloqueó parte de la web ¿no?

      Me alegra que hayas podido recuperar tu tráfico.

      No es negativo en si, de hecho, es uno de los primeros sitios que visita Googlebot, lo puedes comprobar en el archivo del log de tu servidor.

      Es un protocolo muy utilizado en la web y no es perfecto, pero creo que ha sido positivo para establecer una comunicación más directa con los buscadores, en los últimos 25 años.

      Aunque como habrás visto recientemente, es algo que por fin se está estandarizando y actualizando, si sigues el blog oficial de Google Webmaster.

      Un abrazo y muchas gracias por tu visita y comentario,

      Saludos,

      Responder

Deja un comentario

  Acepto la política de privacidad

Información sobre protección de datos

  • Responsable: Wajari Velásquez | SEO para WP
  • Fin del tratamiento: Controlar el spam, gestión de comentarios
  • Legitimación: Tu consentimiento
  • Comunicación de los datos: No se comunicarán los datos a terceros salvo por obligación legal.
  • Derechos: Acceso, rectificación, portabilidad, olvido.
  • Contacto: hola@seoparawp.com.
  • Información adicional: Más información en nuestra política de privacidad.

 

SEO para WordPress

¿Sigues este podcast?

Suscríbete y recibirás nuestro podcast semanal con novedades y noticias de SEO

Aviso legal

Felicidades. Te has suscrito y recibirás un mail para confirmar tus datos. Bienvenid@

Pin It on Pinterest