Recibe alertas instantáneas si tu sitio web cae
SMS Llamada Correo
Empezar a monitorizar

¿Qué es el archivo robots.txt y cómo funciona?

Autor: Redacción HOSTTEST   | 6 oct 2021

Was ist die robots.txtGrandes motores de búsqueda como Google y Microsoft Bing, al igual que proveedores más pequeños —por ejemplo DuckDuckGo— rastrean la World Wide Web (WWW) y partes de Internet conectadas con programas especiales (Crawler) de forma permanente y automatizada en busca de contenidos que indexan y analizan. Existen varias formas de controlar su comportamiento: una de las más importantes y versátiles, junto con .htaccess, es el archivo robots.txt, que permite definir instrucciones exactas. Estas pueden aplicarse opcionalmente a todos los clientes o nombrar distintos motores de búsqueda para dictarles ajustes individuales. Por su función y las opciones disponibles, el archivo robots.txt desempeña un papel importante en el SEO, pero también sirve, por ejemplo, para separar partes de un sitio web de otros o para ocultar determinados archivos ante los motores de búsqueda.

¿De qué consta el archivo robots.txt?
¿Qué función tiene el archivo robots.txt?
¿Cómo funciona un archivo robots.txt y qué efectos tiene?
¿Qué hay que tener en cuenta al crear un archivo robots.txt?
¿Cómo es un archivo robots.txt?

¿De qué consta el archivo robots.txt?

El archivo robots.txt es un archivo de texto simple que contiene instrucciones en un formato legible. Por ello, puede crearse sin problemas con un editor de texto básico como gedit o mousepad en Linux o Notepad en Microsoft Windows. El contenido consta de varias líneas que pueden referirse a un crawler concreto, como el googlebot, o aplicarse de forma universal a todos los visitantes. Cada entrada contiene al menos dos indicaciones, separadas por un salto de línea: en la primera posición el robots.txt define a qué motores de búsqueda se refieren las instrucciones siguientes. En una nueva línea siguen después los detalles sobre la manera en que un motor de búsqueda debe rastrear e indexar el sitio web.

¿Qué función tiene el archivo robots.txt?

En general, el archivo robots.txt ofrece cuatro opciones diferentes que se pueden combinar entre sí:

  • Allow: Permiso para rastrear partes concretas de un sitio web
  • Disallow: Bloqueo del acceso a rutas o archivos específicosAllow:
  • Sitemap: Indicación de un archivo externo con instrucciones sobre cómo debe rastrearse un sitio web
  • Crawl-Delay: Retraso entre las solicitudes a páginas individuales (solo algunos crawlers)

El propósito de un robots.txt es que el propietario de un sitio web pueda controlar el tráfico que le generan los motores de búsqueda. Esto es especialmente útil en sitios grandes o con una estructura muy ramificada, aunque, por ejemplo, puede tener un efecto positivo en un pequeño alojamiento web o en un VPS con un rendimiento limitado. Además, el robots.txt resulta útil para excluir deliberadamente archivos grandes, como vídeos u otros contenidos multimedia, del acceso por parte de los motores de búsqueda, con el fin de reducir el ancho de banda y generar un tráfico mínimo. Como los motores de búsqueda, como el Googlebot, actúan de forma neutral en su funcionamiento —es decir, no establecen preferencias de indexación ni realizan por sí mismos el bloqueo de contenidos—, el robots.txt ofrece una forma cómoda de controlarlos. A través de un sitemap también se pueden establecer prioridades para páginas individuales, de modo que, por ejemplo, los contenidos que cambian con frecuencia se rastreen e indexen más a menudo y más rápidamente que la información estática.

¿Cómo funciona un archivo robots.txt y cuál es su efecto?

Cuando un motor de búsqueda, a través de uno de sus crawlers, accede a un sitio web, éste sigue automáticamente cada enlace identificable y recupera los contenidos subyacentes para analizarlos y valorarlos según su propio algoritmo. Como primer archivo, intenta localizar una robots.txt en el directorio raíz —es decir, en la ruta más baja de un dominio— para obtener información sobre el comportamiento deseado. Por este motivo debe guardarse necesariamente en la dirección raíz del sitio web y encontrarse, por ejemplo, en www.example.org/robots.txt o example.com/robots.txt.

Si el Hosting web no permite al usuario el acceso a esa área —por ejemplo, porque utiliza una estructura como https://anbieter.com/Kunde—, lamentablemente no se puede utilizar robots.txt. No obstante, es posible reservar un dominio externo y enlazarlo a ese espacio web, de modo que se produzca una redirección. En ese caso, los ajustes solo afectarían a esa presencia: por ejemplo, si example.com se vincula con http://anbieter.com/example, la robots.txt se aplicaría al primer dominio, pero no al segundo.

Además, hay que tener en cuenta que robots.txt no es una norma oficial o vinculante, sino el Robots Exclusion Standard desarrollado de forma independiente, que en el verano de 2008 fue adoptado por empresas internacionales como Google, Microsoft y Yahoo. El cumplimiento de las reglas establecidas se realiza únicamente de forma voluntaria y no es obligatorio, aunque hoy en día todas las grandes empresas lo respetan. Por este motivo es importante señalar expresamente que un archivo robots.txt no supone un bloqueo efectivo para todos los motores de búsqueda y mucho menos frente a accesos externos con fines delictivos. Además, cada crawler, como el googlebot o el bingbot utilizado por Microsoft, está programado de forma diferente y no necesariamente admite todas las instrucciones más allá de Disallow. Por ejemplo, Crawl-Delay no es compatible con el googlebot; algunos motores de búsqueda como el ruso Yandex o los chinos Baidu y Sogou también ignoran las reglas Allow e interpretan exclusivamente Disallow.

¿Qué hay que tener en cuenta al crear un archivo robots.txt?

La creación de un robots.txt es, en principio, posible con cualquier editor de texto; sin embargo, para garantizar la máxima compatibilidad se recomienda utilizar el estándar de Linux, distinto del de Microsoft Windows. Este difiere especialmente en el carácter especial para el salto de línea y es compatible con programas gratuitos de tipo freeware como Notepad .

El archivo en sí consta de uno o más apartados, separados por una línea en blanco y que contienen distintas instrucciones para determinados crawler. Cada uno de ellos comienza con la indicación User-agent:, que define exactamente a qué bot van dirigidas las instrucciones. Los crawlers legales más frecuentes en Internet y la WWW son:

  • *: Este comodín (wildcard) representa a todos los rastreadores
  • Googlebot: el rastreador más frecuente y activo
  • Bingbot: el rastreador que Microsoft utiliza desde 2010 en lugar de msnbot
  • Slurp: rastreador de Yahoo utilizado principalmente para la indexación de búsquedas móviles
  • DuckDuckBot: el rastreador del buscador orientado a la privacidad DuckDuckGo
  • Baiduspider: el rastreador del mayor motor de búsqueda chino Baidu
  • YandexBot: es utilizado por el motor de búsqueda ruso Yandex
  • FaceBot: es el rastreador de Facebook y solo se activa para enlaces salientes desde la plataforma
  • ia_archiver: proviene de Amazon Alexa y recoge principalmente información estadística

Además de estos "oficiales" rastreadores, que se ajustan a las directrices de robots.txt (si las soportan), también existen agentes que no respetan dichas normas o las ignoran deliberadamente. Entre ellos se encuentran, por ejemplo, PetalBot o DotBot; para bloquearlos de forma eficaz es necesario recurrir a la creación de un archivo .htaccess, mediante el cual los rastreadores pueden redirigirse o denegarse según su identificación como User-agent.

¿Cómo es un archivo robots.txt?

Cada robots.txt consta de uno o varios bloques que un rastreador lee de forma secuencial y aplica las reglas que le correspondan. Como en muchos lenguajes de programación, el símbolo almohadilla # permite insertar comentarios que no se interpretan como código. Algunos ejemplos de un robots.txt son los siguientes:

Ejemplo 1:

User-agent: *
# Bloquea todos los rastreadores
Disallow: /privat/
# Prohíbe el acceso al directorio /privat y a todos sus subdirectorios
Allow: /website/
# Permite explícitamente el acceso a /website y a todos sus subdirectorios

Ejemplo 2:

User-agent: Googlebot
User-agent: Bingbot
# La regla solo aplica a Google y Microsoft Bing
Allow: /website/
# Google y Bing pueden indexar el sitio web
Disallow: /website/privat
# Bloqueo de todos los directorios o archivos que comiencen por privat

User-agent: *
# Bloquea todos los demás bots
Disallow: /
# Prohíbe el acceso a todo el dominio

Hay algunas reglas claras que deben respetarse en un archivo robots.txt:

  • El archivo robots.txt debe ubicarse en el directorio raíz / de un dominio
  • No se distingue entre mayúsculas y minúsculas
  • Los bots deben nombrarse de forma exacta y por su nombre
  • Los espacios en una línea solo están permitidos detrás de los dos puntos (:)
  • Cada robots.txt puede contener como máximo un bloque para todos los rastreadores (*)
  • Se evalúa la primera entrada que sea aplicable a un rastreador
  • Un Disallow: sin más especificación permite todo
  • Los comodines como * son soportados por algunos, pero no por todos los rastreadores
  • La entrada /privat/ se refiere a un directorio, /privat a todos los directorios y archivos que comienzan con privat

Como se trata de un archivo relativamente pequeño y manejable, un robots.txt puede crearse o editarse sin problemas, por ejemplo, mediante un acceso SSH directamente en un Hosting web. Una alternativa es crearlo localmente y subirlo al directorio / mediante FTP o una interfaz web.

Foto: Free-Photos en Pixabay

Escribe un comentario


Más proveedores de hosting


Más artículos interesantes

Error HTTP 403: Prohibido - ¿cuál es la solución?

Error HTTP 403: Prohibido - así podéis solucionar el error.

¿Qué es un Cronjob?

Un Cronjob es una tarea recurrente en el ámbito del servidor que se ejecuta de forma automatizada en un momento determin...