Generador de robots.txt

Generador de robots.txt

Crea un archivo robots.txt con reglas Allow/Disallow, Sitemap y plantillas para WordPress, staging o e-commerce. Copia o descarga el .txt.

Generación en tu navegador. Revisa las reglas antes de publicar robots.txt en producción.

Importar robots.txt existente

Carga un robots.txt ya publicado o de otro generador para editarlo aquí. Se ignoran líneas de comentario (#).

Configuración

Añade líneas # explicativas al inicio. Útil para ti o tu equipo; los bots las ignoran. Desactívalo si quieres un archivo mínimo.

Reglas por bot (User-agent)

Cada bloque define reglas para un rastreador. User-agent * aplica a todos los bots que no tengan un bloque propio. Allow abre una ruta; Disallow la cierra. Puedes usar comodines * y $ en rutas (p. ej. /*?utm_). Reordena bloques y reglas con ↑↓ o usa los atajos de rutas WP/Woo.

Crawl-delay (opcional): segundos de pausa entre peticiones. Algunos buscadores lo ignoran; Bing lo tuvo en cuenta históricamente. Úsalo solo si necesitas limitar la carga del servidor.

Sitemap y Host
Comprobar robots.txt en vivo

Descarga el robots.txt publicado en tu dominio y compáralo con la vista previa.


							

Simulador de rastreo

Orientativo: aplica la regla más específica del bloque User-agent correspondiente (incluye comodines * y $).

Vista previa robots.txt

Checklist antes de publicar

  • Sube el archivo a la raíz: https://tudominio.com/robots.txt
  • Comprueba que no bloqueas /sitemap.xml ni páginas importantes.
  • Usa «Comprobar robots.txt en vivo» para verificar lo publicado.
  • Envía el sitemap en Google Search Console.
  • Para no indexar URLs concretas usa noindex (meta tags), no solo Disallow.

Preguntas frecuentes

¿Qué es robots.txt?

Es un archivo de texto en la raíz de tu dominio (/robots.txt) que indica a los rastreadores qué URLs pueden o no visitar. No sustituye la indexación real: Google también usa meta robots y cabeceras HTTP.

¿Qué significa User-agent, Allow y Disallow?

User-agent identifica al bot (por ejemplo * = todos, Googlebot = solo Google). Cada bloque agrupa reglas para ese bot.

Allow permite rastrear una ruta; Disallow la bloquea. Se evalúan en orden: la regla más específica que coincida suele prevalecer. Las rutas empiezan por / (raíz del dominio).

¿Para qué sirve la directiva Host?

La línea Host: www.ejemplo.com indica a Yandex cuál es el dominio preferido (con o sin www). Google ignora Host; para Google usa redirecciones 301 y la URL canónica en cada página.

Solo rellena este campo si publicas en Yandex o quieres documentar el host principal. Deja el campo vacío si no lo necesitas.

¿Qué es el sitemap y cómo lo indico a Google?

El sitemap de una web suele ser un archivo sitemap.xml con la lista de URLs importantes. En robots.txt declaras una o más líneas Sitemap: con la URL absoluta (por ejemplo https://tudominio.com/sitemap.xml). Googlebot y otros rastreadores la consultan para descubrir páginas.

Puedes listar varios sitemaps (índice, imágenes, noticias…). Eso ayuda al rastreo, pero conviene también enviar el sitemap a Google en Search Console y comprobar allí que se procesa correctamente. Si aún no lo tienes, créalo con el generador de sitemap.xml y pega aquí la URL.

¿Qué es Crawl-delay y cuándo usarlo?

Crawl-delay es una directiva opcional dentro de cada bloque User-agent. Indica cuántos segundos debe esperar el bot entre una petición y la siguiente (por ejemplo Crawl-delay: 10). Sirve para reducir la carga del servidor cuando un rastreador visita muchas URLs seguidas.

Google ignora Crawl-delay y gestiona el ritmo de rastreo por su cuenta (Search Console, presupuesto de rastreo). Bing y Yandex lo han respetado en el pasado, aunque no todos los bots lo aplican. No lo uses por defecto: un valor alto puede ralentizar la indexación en buscadores que sí lo obedecen.

Úsalo solo si tu hosting se satura con crawlers agresivos o en sitios muy pequeños con recursos limitados. Para la mayoría de webs públicas es mejor dejar el campo vacío.

¿Qué plantilla debo elegir?

Permitir todo: sitio público sin restricciones especiales.

WordPress: blog o web corporativa en WP (bloquea admin, mantiene AJAX).

WordPress + SEO: WP con bloqueos habituales de plugins SEO (búsqueda interna, REST API).

WooCommerce: tienda online (bloquea carrito, checkout y cuenta).

Shopify / PrestaShop: patrones básicos para esas plataformas.

Bloquear UTM: evita rastrear URLs con parámetros de campaña.

Priorizar Googlebot: solo Google rastrea todo; el resto bloqueado.

Bloquear todo: solo staging o entornos que no deben indexarse.

Bloquear bots de IA: limita crawlers de entrenamiento (GPTBot, ClaudeBot…) manteniendo Allow para el resto.

¿Puedo usar comodines * y $ en las rutas?

Sí, Google admite * (cualquier secuencia de caracteres) y $ (fin de URL) en Allow/Disallow. Ejemplo: Disallow: /*?utm_ bloquea URLs con parámetros UTM. El simulador de rastreo de esta herramienta tiene en cuenta estos comodines de forma orientativa.

¿Qué pasa si no tengo robots.txt?

Sin archivo, los buscadores asumen que pueden rastrear todo el sitio (salvo restricciones en meta robots o cabeceras HTTP por URL). Tener un robots.txt explícito ayuda a documentar qué bloquear y dónde está el sitemap, pero no es obligatorio para indexar.

¿Qué es Clean-param (Yandex)?

Clean-param es una directiva de Yandex para indicar parámetros de URL que no cambian el contenido (sesión, tracking…). No la generamos en el formulario porque Google no la usa; si publicas en Yandex, puedes añadirla en modo «Editar texto directamente».

¿Dónde subo el archivo generado?

Debe estar accesible en https://tudominio.com/robots.txt. En WordPress puedes usar un plugin SEO, la raíz del hosting o la configuración de tu CDN.

¿Cómo probar o validar mi robots.txt?

Antes de publicar, revisa la vista previa y los avisos del generador: actúan como un validador orientativo de reglas, sitemaps y rutas vacías. Tras subir el archivo, usa Comprobar robots.txt en vivo para ver el texto que devuelve tu dominio y compararlo con lo generado.

El simulador de rastreo funciona como un probador por URL: indica si Googlebot u otro bot quedaría permitido o bloqueado. También puedes importar un robots.txt existente, editarlo y repetir el test sin depender de un checker externo.

¿Disallow impide que Google indexe una página?

Disallow evita el rastreo, pero una URL ya conocida puede seguir apareciendo sin snippet si tiene enlaces externos. Para no indexar usa noindex en meta robots o en el generador de meta tags.

¿Guardáis mi configuración?

No. Las reglas se generan en tu navegador. Solo guardamos un borrador local si activas recordar (localStorage en tu dispositivo).