Recibe alertas instantáneas si tu sitio web cae

SMS Llamada Correo

¿Qué es el archivo robots.txt y cómo funciona?

Autor: Redacción HOSTTEST | 6 oct 2021

Was ist die robots.txt Grandes motores de búsqueda como Google y Microsoft Bing, al igual que proveedores más pequeños —por ejemplo DuckDuckGo— rastrean la World Wide Web (WWW) y partes de Internet conectadas con programas especiales (Crawler) de forma permanente y automatizada en busca de contenidos que indexan y analizan. Existen varias formas de controlar su comportamiento: una de las más importantes y versátiles, junto con .htaccess, es el archivo robots.txt, que permite definir instrucciones exactas. Estas pueden aplicarse opcionalmente a todos los clientes o nombrar distintos motores de búsqueda para dictarles ajustes individuales. Por su función y las opciones disponibles, el archivo robots.txt desempeña un papel importante en el SEO, pero también sirve, por ejemplo, para separar partes de un sitio web de otros o para ocultar determinados archivos ante los motores de búsqueda.

¿De qué consta el archivo robots.txt?
¿Qué función tiene el archivo robots.txt?
¿Cómo funciona un archivo robots.txt y qué efectos tiene?
¿Qué hay que tener en cuenta al crear un archivo robots.txt?
¿Cómo es un archivo robots.txt?

¿De qué consta el archivo robots.txt?

El archivo robots.txt es un archivo de texto simple que contiene instrucciones en un formato legible. Por ello, puede crearse sin problemas con un editor de texto básico como gedit o mousepad en Linux o Notepad en Microsoft Windows. El contenido consta de varias líneas que pueden referirse a un crawler concreto, como el googlebot, o aplicarse de forma universal a todos los visitantes. Cada entrada contiene al menos dos indicaciones, separadas por un salto de línea: en la primera posición el robots.txt define a qué motores de búsqueda se refieren las instrucciones siguientes. En una nueva línea siguen después los detalles sobre la manera en que un motor de búsqueda debe rastrear e indexar el sitio web.

¿Qué función tiene el archivo robots.txt?

En general, el archivo robots.txt ofrece cuatro opciones diferentes que se pueden combinar entre sí:

Allow: Permiso para rastrear partes concretas de un sitio web
Disallow: Bloqueo del acceso a rutas o archivos específicosAllow:
Sitemap: Indicación de un archivo externo con instrucciones sobre cómo debe rastrearse un sitio web
Crawl-Delay: Retraso entre las solicitudes a páginas individuales (solo algunos crawlers)

El propósito de un robots.txt es que el propietario de un sitio web pueda controlar el tráfico que le generan los motores de búsqueda. Esto es especialmente útil en sitios grandes o con una estructura muy ramificada, aunque, por ejemplo, puede tener un efecto positivo en un pequeño alojamiento web o en un VPS con un rendimiento limitado. Además, el robots.txt resulta útil para excluir deliberadamente archivos grandes, como vídeos u otros contenidos multimedia, del acceso por parte de los motores de búsqueda, con el fin de reducir el ancho de banda y generar un tráfico mínimo. Como los motores de búsqueda, como el Googlebot, actúan de forma neutral en su funcionamiento —es decir, no establecen preferencias de indexación ni realizan por sí mismos el bloqueo de contenidos—, el robots.txt ofrece una forma cómoda de controlarlos. A través de un sitemap también se pueden establecer prioridades para páginas individuales, de modo que, por ejemplo, los contenidos que cambian con frecuencia se rastreen e indexen más a menudo y más rápidamente que la información estática.

¿Cómo funciona un archivo robots.txt y cuál es su efecto?

Cuando un motor de búsqueda, a través de uno de sus crawlers, accede a un sitio web, éste sigue automáticamente cada enlace identificable y recupera los contenidos subyacentes para analizarlos y valorarlos según su propio algoritmo. Como primer archivo, intenta localizar una robots.txt en el directorio raíz —es decir, en la ruta más baja de un dominio— para obtener información sobre el comportamiento deseado. Por este motivo debe guardarse necesariamente en la dirección raíz del sitio web y encontrarse, por ejemplo, en www.example.org/robots.txt o example.com/robots.txt.

Si el Hosting web no permite al usuario el acceso a esa área —por ejemplo, porque utiliza una estructura como https://anbieter.com/Kunde—, lamentablemente no se puede utilizar robots.txt. No obstante, es posible reservar un dominio externo y enlazarlo a ese espacio web, de modo que se produzca una redirección. En ese caso, los ajustes solo afectarían a esa presencia: por ejemplo, si example.com se vincula con http://anbieter.com/example, la robots.txt se aplicaría al primer dominio, pero no al segundo.

Además, hay que tener en cuenta que robots.txt no es una norma oficial o vinculante, sino el Robots Exclusion Standard desarrollado de forma independiente, que en el verano de 2008 fue adoptado por empresas internacionales como Google, Microsoft y Yahoo. El cumplimiento de las reglas establecidas se realiza únicamente de forma voluntaria y no es obligatorio, aunque hoy en día todas las grandes empresas lo respetan. Por este motivo es importante señalar expresamente que un archivo robots.txt no supone un bloqueo efectivo para todos los motores de búsqueda y mucho menos frente a accesos externos con fines delictivos. Además, cada crawler, como el googlebot o el bingbot utilizado por Microsoft, está programado de forma diferente y no necesariamente admite todas las instrucciones más allá de Disallow. Por ejemplo, Crawl-Delay no es compatible con el googlebot; algunos motores de búsqueda como el ruso Yandex o los chinos Baidu y Sogou también ignoran las reglas Allow e interpretan exclusivamente Disallow.

¿Qué hay que tener en cuenta al crear un archivo robots.txt?

La creación de un robots.txt es, en principio, posible con cualquier editor de texto; sin embargo, para garantizar la máxima compatibilidad se recomienda utilizar el estándar de Linux, distinto del de Microsoft Windows. Este difiere especialmente en el carácter especial para el salto de línea y es compatible con programas gratuitos de tipo freeware como Notepad .

El archivo en sí consta de uno o más apartados, separados por una línea en blanco y que contienen distintas instrucciones para determinados crawler. Cada uno de ellos comienza con la indicación User-agent:, que define exactamente a qué bot van dirigidas las instrucciones. Los crawlers legales más frecuentes en Internet y la WWW son:

*: Este comodín (wildcard) representa a todos los rastreadores
Googlebot: el rastreador más frecuente y activo
Bingbot: el rastreador que Microsoft utiliza desde 2010 en lugar de msnbot
Slurp: rastreador de Yahoo utilizado principalmente para la indexación de búsquedas móviles
DuckDuckBot: el rastreador del buscador orientado a la privacidad DuckDuckGo
Baiduspider: el rastreador del mayor motor de búsqueda chino Baidu
YandexBot: es utilizado por el motor de búsqueda ruso Yandex
FaceBot: es el rastreador de Facebook y solo se activa para enlaces salientes desde la plataforma
ia_archiver: proviene de Amazon Alexa y recoge principalmente información estadística

Además de estos "oficiales" rastreadores, que se ajustan a las directrices de robots.txt (si las soportan), también existen agentes que no respetan dichas normas o las ignoran deliberadamente. Entre ellos se encuentran, por ejemplo, PetalBot o DotBot; para bloquearlos de forma eficaz es necesario recurrir a la creación de un archivo .htaccess, mediante el cual los rastreadores pueden redirigirse o denegarse según su identificación como User-agent.

¿Cómo es un archivo robots.txt?

Cada robots.txt consta de uno o varios bloques que un rastreador lee de forma secuencial y aplica las reglas que le correspondan. Como en muchos lenguajes de programación, el símbolo almohadilla # permite insertar comentarios que no se interpretan como código. Algunos ejemplos de un robots.txt son los siguientes:

Ejemplo 1:

User-agent: *
# Bloquea todos los rastreadores
Disallow: /privat/
# Prohíbe el acceso al directorio /privat y a todos sus subdirectorios
Allow: /website/
# Permite explícitamente el acceso a /website y a todos sus subdirectorios

Ejemplo 2:

User-agent: Googlebot
User-agent: Bingbot
# La regla solo aplica a Google y Microsoft Bing
Allow: /website/
# Google y Bing pueden indexar el sitio web
Disallow: /website/privat
# Bloqueo de todos los directorios o archivos que comiencen por privat

User-agent: *
# Bloquea todos los demás bots
Disallow: /
# Prohíbe el acceso a todo el dominio

Hay algunas reglas claras que deben respetarse en un archivo robots.txt:

El archivo robots.txt debe ubicarse en el directorio raíz / de un dominio
No se distingue entre mayúsculas y minúsculas
Los bots deben nombrarse de forma exacta y por su nombre
Los espacios en una línea solo están permitidos detrás de los dos puntos (:)
Cada robots.txt puede contener como máximo un bloque para todos los rastreadores (*)
Se evalúa la primera entrada que sea aplicable a un rastreador
Un Disallow: sin más especificación permite todo
Los comodines como * son soportados por algunos, pero no por todos los rastreadores
La entrada /privat/ se refiere a un directorio, /privat a todos los directorios y archivos que comienzan con privat

Como se trata de un archivo relativamente pequeño y manejable, un robots.txt puede crearse o editarse sin problemas, por ejemplo, mediante un acceso SSH directamente en un Hosting web. Una alternativa es crearlo localmente y subirlo al directorio / mediante FTP o una interfaz web.

Foto: Free-Photos en Pixabay

Escribe un comentario

Etiquetas de este artículo

HTTP

Más proveedores de hosting

Más artículos interesantes

Error HTTP 403: Prohibido - ¿cuál es la solución?

Error HTTP 403: Prohibido - así podéis solucionar el error.

¿Qué es la petición HTTP? Explicado de forma sencilla

Os explicamos de forma sencilla qué es una petición HTTP.

HTTP Error 410 - Así se eliminan rápidamente contenidos de Google y compañía

El HTTP Error 410 está pensado para indicar a usuarios y a los motores de búsqueda el estado 'Gone'. Te explicamos cómo ...

Redirección 301\/Reenvío - ¿cómo afecta el código de estado HTTP 301?

Una redirección 301 es siempre importante cuando una URL ha cambiado. Le mostramos en qué debe fijarse.

Error 401 - ¿cómo solucionar el error HTTP No autorizado?

Te mostramos cómo corregir fácilmente el error 401 "No autorizado".

Código de estado 302 - ¿qué significa y cómo afecta?

El código de estado 302 solo debería utilizarse en pocos casos. Les mostramos dónde tiene sentido su uso.

Socio de medios:

Sobre hosttest

Lanzamos hosttest en 2006 para aportar mayor transparencia al mercado del alojamiento web en la región de habla alemana. En 2025, presentamos hosttest.es. Con más de 400 proveedores de hosting y más de 10.000 ofertas, te ofrecemos la base ideal para encontrar el proveedor de alojamiento adecuado.

Desde 2015, otorgamos anualmente nuestro premio al Hoster del Año y nos encantaría recibir tu voto en el futuro.
Más sobre nosotros...

Últimas noticias de la página principal

Configurar la monitorización DNS: así...

10 jul 2026

Configurar monitorización SSL: así ma...

3 jul 2026

Configurar monitorización HTTP: así m...

24 jun 2026

MSP GLOBAL 2026: Asegura ahora tus en...

28 may 2026

Últimos proveedores de hosting

Proveedores de hosting más populares

Servicio

Empleo
¿Quién aloja a quién?
Compromiso social
Nuestros métodos de prueba
¿Problemas con tu proveedor de hosting?
Sobre nosotros
Registrarse como proveedor
Hoster del Año
Últimas reseñas
Todos los proveedores de hosting
Glosario de hosting

¿Qué es el archivo robots.txt y cómo funciona?

Screen resolution less than 1400px