Question 1

¿Qué es robots.txt?

Accepted Answer

Es un archivo de texto en la raíz de tu dominio (/robots.txt) que indica a los rastreadores qué URLs pueden o no visitar. No sustituye la indexación real: Google también usa meta robots y cabeceras HTTP.

Question 2

¿Qué significa User-agent, Allow y Disallow?

Accepted Answer

User-agent identifica al bot (por ejemplo * = todos, Googlebot = solo Google). Cada bloque agrupa reglas para ese bot. Allow permite rastrear una ruta; Disallow la bloquea. Se evalúan en orden: la regla más específica que coincida suele prevalecer. Las rutas empiezan por / (raíz del dominio).

Question 3

¿Para qué sirve la directiva Host?

Accepted Answer

La línea Host: www.ejemplo.com indica a Yandex cuál es el dominio preferido (con o sin www). Google ignora Host; para Google usa redirecciones 301 y la URL canónica en cada página. Solo rellena este campo si publicas en Yandex o quieres documentar el host principal. Deja el campo vacío si no lo necesitas.

Question 4

¿Qué es el sitemap y cómo lo indico a Google?

Accepted Answer

El sitemap de una web suele ser un archivo sitemap.xml con la lista de URLs importantes. En robots.txt declaras una o más líneas Sitemap: con la URL absoluta (por ejemplo https://tudominio.com/sitemap.xml). Googlebot y otros rastreadores la consultan para descubrir páginas. Puedes listar varios sitemaps (índice, imágenes, noticias…). Eso ayuda al rastreo, pero conviene también enviar el sitemap a Google en Search Console y comprobar allí que se procesa correctamente. Si aún no lo tienes, créalo con el generador de sitemap.xml y pega aquí la URL.

Question 5

¿Qué es Crawl-delay y cuándo usarlo?

Accepted Answer

Crawl-delay es una directiva opcional dentro de cada bloque User-agent. Indica cuántos segundos debe esperar el bot entre una petición y la siguiente (por ejemplo Crawl-delay: 10). Sirve para reducir la carga del servidor cuando un rastreador visita muchas URLs seguidas. Google ignora Crawl-delay y gestiona el ritmo de rastreo por su cuenta (Search Console, presupuesto de rastreo). Bing y Yandex lo han respetado en el pasado, aunque no todos los bots lo aplican. No lo uses por defecto: un valor alto puede ralentizar la indexación en buscadores que sí lo obedecen. Úsalo solo si tu hosting se satura con crawlers agresivos o en sitios muy pequeños con recursos limitados. Para la mayoría de webs públicas es mejor dejar el campo vacío.

Question 6

¿Qué plantilla debo elegir?

Accepted Answer

Permitir todo: sitio público sin restricciones especiales. WordPress: blog o web corporativa en WP (bloquea admin, mantiene AJAX). WordPress + SEO: WP con bloqueos habituales de plugins SEO (búsqueda interna, REST API). WooCommerce: tienda online (bloquea carrito, checkout y cuenta). Shopify / PrestaShop: patrones básicos para esas plataformas. Bloquear UTM: evita rastrear URLs con parámetros de campaña. Priorizar Googlebot: solo Google rastrea todo; el resto bloqueado. Bloquear todo: solo staging o entornos que no deben indexarse. Bloquear bots de IA: limita crawlers de entrenamiento (GPTBot, ClaudeBot…) manteniendo Allow para el resto.

Question 7

¿Puedo usar comodines * y $ en las rutas?

Accepted Answer

Sí, Google admite * (cualquier secuencia de caracteres) y $ (fin de URL) en Allow/Disallow. Ejemplo: Disallow: /*?utm_ bloquea URLs con parámetros UTM. El simulador de rastreo de esta herramienta tiene en cuenta estos comodines de forma orientativa.

Question 8

¿Qué pasa si no tengo robots.txt?

Accepted Answer

Sin archivo, los buscadores asumen que pueden rastrear todo el sitio (salvo restricciones en meta robots o cabeceras HTTP por URL). Tener un robots.txt explícito ayuda a documentar qué bloquear y dónde está el sitemap, pero no es obligatorio para indexar.

Question 9

¿Qué es Clean-param (Yandex)?

Accepted Answer

Clean-param es una directiva de Yandex para indicar parámetros de URL que no cambian el contenido (sesión, tracking…). No la generamos en el formulario porque Google no la usa; si publicas en Yandex, puedes añadirla en modo «Editar texto directamente».

Question 10

¿Dónde subo el archivo generado?

Accepted Answer

Debe estar accesible en https://tudominio.com/robots.txt. En WordPress puedes usar un plugin SEO, la raíz del hosting o la configuración de tu CDN.

Question 11

¿Cómo probar o validar mi robots.txt?

Accepted Answer

Antes de publicar, revisa la vista previa y los avisos del generador: actúan como un validador orientativo de reglas, sitemaps y rutas vacías. Tras subir el archivo, usa Comprobar robots.txt en vivo para ver el texto que devuelve tu dominio y compararlo con lo generado. El simulador de rastreo funciona como un probador por URL: indica si Googlebot u otro bot quedaría permitido o bloqueado. También puedes importar un robots.txt existente, editarlo y repetir el test sin depender de un checker externo.

Question 12

¿Disallow impide que Google indexe una página?

Accepted Answer

Disallow evita el rastreo, pero una URL ya conocida puede seguir apareciendo sin snippet si tiene enlaces externos. Para no indexar usa noindex en meta robots o en el generador de meta tags.

Question 13

¿Guardáis mi configuración?

Accepted Answer

No. Las reglas se generan en tu navegador. Solo guardamos un borrador local si activas recordar (localStorage en tu dispositivo).

Generador de robots.txt

Generador de robots.txt

Vista previa robots.txt

Checklist antes de publicar

Preguntas frecuentes