Generador de robots.txt en línea

Configure sus reglas
Vista previa robots.txt

Generador de robots.txt gratuito en línea

El generador de robots.txt de Twaino te permite crear visualmente un archivo robots.txt completo y válido para tu sitio web. Este archivo es esencial para controlar la forma en que los motores de búsqueda exploran e indexan tu sitio. Gracias a nuestra interfaz intuitiva, puedes añadir reglas User-Agent, directivas Allow y Disallow, y especificar la URL de tu sitemap sin escribir una sola línea de código manualmente.

El archivo robots.txt se coloca en la raíz de tu sitio web y constituye lo primero que consultan los robots de los motores de búsqueda antes de explorar tus páginas. Un robots.txt mal configurado puede bloquear la indexación de páginas importantes o, por el contrario, permitir que los bots accedan a recursos que deseas mantener privados.

¿Cómo utilizar el generador de robots.txt?

La herramienta comienza con una regla predeterminada para el User-Agent « * » (todos los robots). Puedes añadir directivas Allow o Disallow para cada User-Agent haciendo clic en « + Directiva ». Para dirigirse a un robot específico como Googlebot o Bingbot, haz clic en « + Añadir un User-Agent » e introduce su nombre. Completa la URL de tu sitemap en el campo previsto y la vista previa se actualiza en tiempo real a la derecha. Copia el resultado con un clic y pégalo en tu archivo robots.txt.

¿Qué es el archivo robots.txt?

El archivo robots.txt es un archivo de texto que respeta el Robots Exclusion Protocol. Indica a los robots de los motores de búsqueda qué partes de tu sitio pueden o no explorar. Cada conjunto de reglas comienza con una directiva User-agent que identifica el robot en cuestión, seguida de directivas Allow (permitir) y Disallow (prohibir) que especifican los caminos accesibles o bloqueados.

La directiva Sitemap al final del archivo indica a los motores de búsqueda dónde encontrar tu mapa del sitio XML, lo que facilita el descubrimiento e indexación de todas tus páginas.

Buenas prácticas para robots.txt

Aquí hay algunas recomendaciones esenciales para un robots.txt efectivo. Nunca bloquees tus archivos CSS y JavaScript porque Google los necesita para renderizar correctamente tus páginas. Utiliza robots.txt para bloquear páginas de bajo valor SEO como páginas de resultados de búsqueda interna, páginas de ordenamiento o archivos de etiquetas poco relevantes. Siempre indica la URL de tu sitemap XML para facilitar el rastreo.

No utilices robots.txt para ocultar páginas sensibles porque es público y legible por todos. Para proteger contenido confidencial, utiliza en su lugar autenticación o la etiqueta meta noindex.

Ejemplos comunes de directivas

Para un sitio WordPress, es común bloquear el acceso a la carpeta wp-admin mientras se autoriza wp-admin/admin-ajax.php que es necesario para el funcionamiento del sitio. También se bloquean generalmente las páginas de búsqueda con Disallow: /?s= y las páginas de etiquetas duplicadas. Para un sitio de comercio electrónico, puedes bloquear las páginas de filtros y ordenamiento que crean contenido duplicado.

FAQ

¿Impide robots.txt la indexación de mis páginas?

robots.txt impide el rastreo (crawl) pero no necesariamente la indexación. Si otros sitios enlazan a una página bloqueada, Google puede indexarla sin visitarla. Para impedir la indexación, utiliza la etiqueta meta noindex.

¿Qué significa User-agent: *?

El asterisco significa « todos los robots ». Las reglas bajo este User-agent se aplican a todos los motores de búsqueda excepto aquellos que tienen reglas específicas definidas anteriormente en el archivo.

¿Puedo bloquear solo Google sin afectar a Bing?

Sí, crea un grupo específico con User-agent: Googlebot y añade tus directivas Disallow. Los otros motores seguirán las reglas del User-agent: * que no contienen estas restricciones.

¿Cómo pruebo mi robots.txt?

Utiliza la herramienta de prueba de robots.txt en Google Search Console. Te permite verificar si una URL específica está bloqueada o permitida por tus reglas.

¿Con qué frecuencia consultan los robots el robots.txt?

Googlebot almacena en caché robots.txt y lo consulta aproximadamente una vez al día. Por lo tanto, los cambios no se aplican instantáneamente.