En este episodio les hablaré del fichero: robots.txt.
Les dejo algunas notas, enlaces y ejemplos del programa:
Este pequeño archivo, fundamental en nuestras instalaciones es también conocido como estándar de exclusión de robots, es un método para «controlar» los robots de los buscadores u otros programas de rastreo, con ciertas indicaciones o instrucciones que le ofrecemos en el archivo, ubicado en la carpeta raíz de nuestra web.
Es útil para «bloquear» ciertas zonas, o archivos de tu web a buscadores para evitar la indexación de contenido duplicado.
Siempre pongo entre comillas: bloqueo o control, porque como verán en el episodio, no siempre funciona como esperamos. Debemos usar otros métodos como los meta-robots en los encabezados.
El robots.txt tiene unas reglas sencillas pero que nos pueden inducir a ciertos errores:
- Debe ir el nombre del robot (user-agent) y la acción.
- Es un archivo de texto (txt) no HTML
- Siempre va en minúsculas
- Puede haber líneas vacías entre los distintos agentes, pero NO entre las directrices
- Podemos poner comentarios con la almohadilla (#) ya que será ignorado por buscadores
Algunos ejemplos:
User-agent: Googlebot
Disallow:
User-agent: Bingbot
Disallow: /
# Block all agents from tmp directories
User-agent: *
Disallow: /tmp/
En el ejemplo anterior no bloqueamos nada a Google (el disallow está vacío) y bloqueamos toda la web a Bing al usar (/) que nos lleva a la carpeta raíz de la web.
En la tercera directriz, como señala el comentario, bloqueamos a todos los agentes el directorio: /tmp/.
Cuando queremos dirigirnos a todos los robots, usamos el asterisco (*).
User-agent: Bingbot
Crawl-delay: 5
El crawl-delay funciona como un retraso en segundos para evitar sobrecargar las peticiones al servidor.
Como señalo en el capítulo, es algo que innecesario para la mayoría de las web. Le veo sentido a grandes webs o medios de comunicación con mucho tráfico.
El robots.txt acepta patrones regulares o comodines, algo muy útil si queremos bloquear ciertos directorios de nuestra web.
Ejemplo: el asterisco (*) para bloquear directorios que empiezan por la misma palabra: /carpeta*/ y bloqueará todos los directorios: carpeta1, carpeta2, etc.
User-agent: Googlebot
Disallow: /carpeta*/
El símbolo del dolar al final de la URL si queremos bloquear por ejemplo una extensión (como un pdf o un gif, por ejemplo ponemos /*.pdf$ ).
User-agent: Bingbot
Disallow: /*.pdf$
¿Qué sucede con el robots.txt por defecto en WordPress?
El robots.txt por defecto de WordPress es bueno porque:
- No bloquea ningún recurso del frontend de la web (la parte pública)
- Bloquea todos los recursos del backend (parte administrativa de la web) con una excepción:
- El admin-ajax.php que ofrece un apoyo a plugins y temas y puede ser utilizado en la parte pública de la web.
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
El ejemplo del robots.txt por defecto de WordPress también nos enseña un factor importante de la sintaxis. El «allow» que sobreescribe una directiva anterior, bloqueamos todo del wp-admin, excepto: al admin-ajax.php.
Debate si debe o no usarse el robots.txt por defecto y les enseño distintas maneras de modificarlo, o con editores de código, con generadores de robots.txt o con plugins. Les dejo al final todos los enlaces.
Ollo ao piollo: Consejo fundamental. Menos es más. Es bueno ser minimalista en este archivo, los buscadores suelen revisarlo con frecuencia. Pensar bien si quieres bloquear algo y porqué.
Enlaces, recursos finales y plugins mencionados en el episodio
- 101 cosas que deberías saber sobre el robots.txt de Iñaki Huerta
- Archivo robots.txt del blog de Tomás de Teresa
- Estudio de Oncrawl sobre el analisis de logs y cómo el trafico de internet está dominado por bots.
- Artículo de la Vanguardia sobre: Minas en la red.
- Actualización de directrices técnicas de Search Console sobre el bloqueo de archivos CSS y JavaScript
- Un generador de robots.txt
- El robots.txt en WordPress del blog de Juan Padial
- Plugins mencionados: Yoast SEO
Nos vemos la semana que viene donde abordaremos los sitemaps.xml.
Gracias por acompañarme. Si te gusta, comparte, me ayudará a llegar a más personas.
¡Larga vida y prosperidad a WordPress! 😉
Muchas gracias a Unsplash por la fantástica foto que acompaña este post: Photo by Andy Kelly on Unsplash
Me parece muy interesante tu exposicion sobre el rchivo robot.txt. Yo prefiero no utilizarlo ya que una vez lo hice y me daño el SEO. Me ha costado mucho recuperar una parte del trafico.
Rafael, muchas gracias por tu aportación y comentario. Qué pena, me imagino tuviste algún fallo que bloqueó parte de la web ¿no?
Me alegra que hayas podido recuperar tu tráfico.
No es negativo en si, de hecho, es uno de los primeros sitios que visita Googlebot, lo puedes comprobar en el archivo del log de tu servidor.
Es un protocolo muy utilizado en la web y no es perfecto, pero creo que ha sido positivo para establecer una comunicación más directa con los buscadores, en los últimos 25 años.
Aunque como habrás visto recientemente, es algo que por fin se está estandarizando y actualizando, si sigues el blog oficial de Google Webmaster.
Un abrazo y muchas gracias por tu visita y comentario,
Saludos,