¿Qué es un archivo robots.txt?
Robots.txt es un archivo de texto breve que indica a los rastreadores web (por ejemplo, Googlebot) lo que pueden rastrear en su sitio web.
Desde la perspectiva de SEO, robots.txt ayuda a rastrear primero las páginas más importantes y evita que los bots visiten páginas que no son importantes.
Así es como se ve robots.txt:
Dónde encontrar robots.txt
Encontrar archivos robots.txt es bastante sencillo: vaya a la página de inicio de cualquier dominio y agregue «/robots.txt» al final.
Le mostrará un archivo robots.txt real que funciona, aquí hay un ejemplo:
https://yourdomain.com/robots.txt
El archivo Robots.txt es una carpeta pública que se puede consultar prácticamente en cualquier sitio web; incluso se puede encontrar en sitios como Amazon, Facebook o Apple.
¿Por qué es importante robots.txt?
El propósito del archivo robots.txt es decirle a los rastreadores a qué partes de su sitio web pueden acceder y cómo deben interactuar con las páginas.
En términos generales, es importante que el contenido del sitio web se pueda rastrear e indexar primero: los motores de búsqueda tienen que encontrar sus páginas antes de que puedan aparecer como resultados de búsqueda.
Sin embargo, en algunos casos, es mejor prohibir que los rastreadores web visiten ciertas páginas (por ejemplo, páginas vacías, página de inicio de sesión para su sitio web, etc.).
Esto se puede lograr mediante el uso de un archivo robots.txt que los rastreadores siempre verifican antes de comenzar a rastrear el sitio web.
Nota: El archivo Robots.txt puede evitar que los motores de búsqueda rastreen, pero no indexen.
Aunque los rastreadores pueden tener prohibido visitar una determinada página, los motores de búsqueda aún pueden indexarlo si algunos enlaces externos apuntan a él.
Por lo tanto, esta página indexada puede aparecer como un resultado de búsqueda, pero sin ningún contenido útil, ya que los rastreadores no pudieron rastrear ningún dato de la página:
Para evitar que Google indexe sus páginas, utilice otros métodos adecuados (por ejemplo, la metaetiqueta noindex) para indicar que no desea que algunas partes de su sitio web aparezcan como resultados de búsqueda.
Además del propósito fundamental del archivo robots.txt, también hay algunos beneficios de SEO que pueden ser útiles en ciertas situaciones.
1. Optimizar el presupuesto de rastreo
El presupuesto de rastreo determina la cantidad de páginas que los rastreadores web como Googlebot rastrearán (o volverán a rastrear) dentro de un período determinado.
Muchos sitios web más grandes generalmente contienen toneladas de páginas sin importancia que no necesitan ser rastreadas e indexadas con frecuencia (o no en absoluto).
El uso de robots.txt le dice a los motores de búsqueda qué páginas rastrear y cuáles evitar por completo – que optimiza la eficiencia y la frecuencia del rastreo.
2. Administrar contenido duplicado
Robots.txt puede ayudarlo a evitar el rastreo de contenido similar o duplicado en sus páginas.
Muchos sitios web contienen algún tipo de contenido duplicado, ya sea que haya páginas con parámetros de URL, páginas con www o sin www, archivos PDF idénticos, etc.
Al señalar estas páginas a través de robots.txt, puede administrar contenido que no necesita ser rastreado y ayudar al motor de búsqueda a rastrear solo aquellas páginas que desea que aparezcan en la Búsqueda de Google.
3. Evite la sobrecarga del servidor
El uso de robots.txt podría ayudar a evitar que el servidor del sitio web se bloquee.
En términos generales, Googlebot (y otros rastreadores respetables) suelen ser buenos para determinar qué tan rápido deben rastrear su sitio web sin abrumar la capacidad de su servidor.
Sin embargo, es posible que desee bloquear el acceso a los rastreadores que visitan su sitio con demasiada frecuencia.
En estos casos, robots.txt puede decirles a los rastreadores en qué páginas en particular deben enfocarse, dejando en paz otras partes del sitio web y evitando así la sobrecarga del sitio.
o como Martín Splittel Developer Advocate de Google explicó:
«Esa es la tasa de rastreo, básicamente, cuánto estrés podemos poner en su servidor sin bloquear nada o sufrir por matar demasiado su servidor».
Además, es posible que desee bloquear ciertos bots que están causando problemas en el sitio, ya sea que se trate de un bot «malo» que sobrecarga su sitio con solicitudes, o bloquea los raspadores que intentan copiar todo el contenido de su sitio web.
¿Cómo funciona el archivo robots.txt?
Los principios fundamentales de cómo funciona el archivo robots.txt son bastante sencillos: consta de 2 elementos básicos que dictan qué rastreador web debe hacer algo y qué debe ser exactamente:
- Agentes de usuario: especificar qué rastreadores serán dirigidos para evitar (o rastrear) ciertas páginas
- Directivas: le dice a los agentes de usuario qué deben hacer con ciertas páginas.
Este es el ejemplo más simple de cómo puede verse el archivo robots.txt con estos 2 elementos:
User-agent: Googlebot Disallow: /wp-admin/
Echemos un vistazo más de cerca a ambos.
Agentes de usuario
User-agent es el nombre de un rastreador específico que recibirá instrucciones sobre cómo rastrear su sitio web mediante directivas.
Por ejemplo, el agente de usuario para el rastreador general de Google es «Googlebot», para el rastreador de Bing es «BingBot», para Yahoo «Slurp», etc.
Para marcar todos los tipos de rastreadores web para una determinada directiva a la vez, puede usar el símbolo ” *
” (llamado comodín) – representa a todos los bots que “obedecen” al archivo robots.txt.
En el archivo robots.txt, se vería así:
User-agent: * Disallow: /wp-admin/
Nota: Tenga en cuenta que hay muchos tipos de agentes de usuario, cada uno de los cuales se centra en el rastreo para diferentes propósitos.
Si desea ver qué agentes de usuario utiliza Google, consulte este descripción general de los rastreadores de Google.
Directivas
Las directivas de Robots.txt son las reglas que seguirá el agente de usuario especificado.
De forma predeterminada, se indica a los rastreadores que rastreen todas las páginas web disponibles: robots.txt luego especifica qué páginas o secciones de su sitio web no deben rastrearse.
Hay 3 reglas más comunes que se utilizan:
- «Rechazar» – le dice a los rastreadores que no accedan a nada de lo que se especifica en esta directiva. Puede asignar múltiples instrucciones de rechazo a los agentes de usuario.
- «Permitir» – les dice a los rastreadores que pueden acceder a algunas páginas desde la sección del sitio que ya no está permitida.
- “Mapa del sitio” – si ha configurado un mapa del sitio XML, robots.txt puede indicar a los rastreadores web dónde pueden encontrar las páginas que desea rastrear apuntándolas a su mapa del sitio.
Aquí hay un ejemplo de cómo puede verse robots.txt con estas 3 directivas simples:
User-agent: Googlebot Disallow: /wp-admin/ Allow: /wp-admin/random-content.php Sitemap: https://www.example.com/sitemap.xml
Con la primera línea, hemos determinado que la directiva se aplica a un rastreador específico: Googlebot
.
En la segunda línea (la directiva), le dijimos a Googlebot que no queremos que acceda a una determinada carpeta, en este caso, la página de inicio de sesión de un sitio de WordPress.
En la tercera línea, agregamos una excepción, aunque Googlebot no puede acceder a nada que esté bajo la /wp-admin/
carpeta, puede visitar una dirección específica.
Con la cuarta línea, le indicamos a Googlebot dónde encontrar su Sitemap
con una lista de URL que desea que se rastreen.
También hay algunas otras reglas útiles que se pueden aplicar a su archivo robots.txt, especialmente si su sitio contiene miles de páginas que deben administrarse.
* (comodín)
el comodín *
es una directiva que indica una regla para la coincidencia de patrones.
La regla es especialmente útil para sitios web que contienen toneladas de contenido generado, páginas de productos filtradas, etc.
Por ejemplo, en lugar de prohibir todas las páginas de productos bajo el /products/
sección individualmente (como se muestra en el siguiente ejemplo):
User-agent: * Disallow: /products/shoes? Disallow: /products/boots? Disallow: /products/sneakers?
Podemos usar el comodín para no permitirlos todos a la vez:
User-agent: * Disallow: /products/*?
En el ejemplo anterior, se le indica al agente de usuario que no rastree ninguna página bajo el /products/
sección que contiene el signo de interrogación «?» (a menudo se usa para URL de categorías de productos parametrizados).
PS
los $
El símbolo se utiliza para indicar el final de una URL: se puede indicar a los rastreadores que no deben (o deberían) rastrear las URL con un final determinado:
User-agent: * Disallow: /*.gif$
Los » $
El signo » le dice a los bots que deben ignorar todas las URL que terminan con «.gif
“.
#
los #
sign sirve solo como comentario o anotación para lectores humanos; no tiene impacto en ningún agente de usuario, ni sirve como directiva:
# We don't want any crawler to visit our login page! User-agent: * Disallow: /wp-admin/
Cómo crear un archivo robots.txt
Crear su propio archivo robots.txt no es ciencia espacial.
Si está utilizando WordPress para su sitio, tendrá un archivo robots.txt básico ya creado, similar a los que se muestran arriba.
Sin embargo, si planea realizar algunos cambios adicionales en el futuro, existen algunos complementos simples que pueden ayudarlo a administrar su archivo robots.txt, como:
Estos complementos facilitan el control de lo que desea permitir y rechazar, sin tener que escribir ninguna sintaxis complicada usted mismo.
Alternativamente, también puede editar su archivo robots.txt a través de FTP; si confía en acceder y editarlo, entonces cargar un archivo de texto es bastante fácil.
Sin embargo, este método es mucho más complicado y puede introducir errores rápidamente.
Cómo comprobar un archivo robots.txt
Hay muchas maneras de verificar (o probar) su archivo robots.txt; en primer lugar, debe intentar encontrar robots.txt por su cuenta.
A menos que haya indicado una URL específica, su archivo se alojará en «https://yourdomain.com/robots.txt»; si está utilizando otro creador de sitios web, la URL específica puede ser diferente.
Para verificar si los motores de búsqueda como Google realmente pueden encontrar y «obedecer» su archivo robots.txt, puede:
- Usar probador de robots.txt – una herramienta simple de Google que puede ayudarlo a averiguar si su archivo robots.txt funciona correctamente.
- Compruebe la consola de búsqueda de Google – puede buscar cualquier error causado por robots.txt en la pestaña «Cobertura» de Google Search Console. Asegúrese de que no haya URL que informen mensajes «bloqueados por robots.txt» sin querer.
Mejores prácticas de Robots.txt
Los archivos Robots.txt pueden volverse complejos fácilmente, por lo que es mejor mantener las cosas lo más simples posible.
Aquí hay algunos consejos que pueden ayudarlo a crear y actualizar su propio archivo robots.txt:
- Use archivos separados para subdominios – si su sitio web tiene varios subdominios, debe tratarlos como sitios web separados. Cree siempre archivos robots.txt separados para cada subdominio que posea.
- Especifique los agentes de usuario solo una vez – intente fusionar todas las directivas que están asignadas a un agente de usuario específico. Esto establecerá la simplicidad y la organización en su archivo robots.txt.
- Garantizar la especificidad – asegúrese de especificar las rutas URL exactas y preste atención a las barras inclinadas finales o signos específicos que están presentes (o ausentes) en sus URL.