Cos’è il file Robots.txt e come si usa?

Se è uno sviluppatore di un sito web o di una pagina web, dovrebbe sapere che è essenziale per lei avere il file robots.txt.

Molte persone potrebbero già chiedersi che cosa intendo, soprattutto se non hanno alcuna conoscenza di SEO o sviluppo web.

Si ricordi che questo è un file di testo molto importante. Viene utilizzato per gestire le richieste di esplorazione del suo sito da parte dei crawler di Google.

Fichiers robots.txt

Questa mini guida le fornirà una comprensione più approfondita di ciò che si intende per robots.txt.

Troverà anche il processo di creazione e impostazione di robots.txt, nonché le migliori pratiche per utilizzarlo.

Capitolo 1: Che cos’è un file robots.txt e qual è il suo scopo?

In questo primo capitolo, imparerà il vero significato di robots.txt e la sua utilità.

1.1 Che cos’è un robots.txt e come si presenta?

Il robot.txt rappresenta i dati di un computer. Più precisamente, si tratta di un file di testo che viene utilizzato sui siti web per indicare ai crawler (principalmente i motori di ricerca) come effettuare la scansione delle pagine dei siti web.

Più tecnicamente, fanno parte di un protocollo di esclusione e rappresentano gli standard che regolano il modo in cui i crawler effettuano il crawling del web, accedono e indicizzano i contenuti

Viene incluso nella radice del suo sito web, in modo che se l’indirizzo del suo sito web è: www.monsite.com, l’URL che conduce al robots.txt è www.monsite.com/robots.txt.

L adresse de site www monsite.com

Tuttavia, se non è presente, riceverà un messaggio di errore del tipo 404.

Page d erreur 404

1.2) Qual è l’importanza del file robots.txt per un sito web?

Come avrà intuito, i robots.txt svolgono un ruolo importante nel suo sito web, controllando il modo in cui viene navigato dai crawler

Può quindi :

  • Impedisce ai robot di Google di strisciare i contenuti duplicati;
  • Rifiuta di visualizzare una parte privata del sito nelle SERP;
  • Negare la visualizzazione delle pagine dei risultati di ricerca interni del sito nei risultati di ricerca di Google;
  • Rifiuta l’indicizzazione da parte dei motori di ricerca di alcuni elementi del suo sito;
  • Specifichi un tempo di crawl per evitare di sovraccaricare il suo sito;
  • Ottimizza l’uso delle risorse del suo server impedendo ai bot di sprecare le risorse del suo sito.

Ora che sa cos’è un robot.txt e perché è importante, vediamo come crearlo e implementarlo in un sito web

Capitolo 2: Come creare il file robots.txt per il suo sito web

Dopo aver spiegato il processo di creazione del file robots.txt per un sito web, spiegherò come procedere per scoprire se il file funziona o meno.

2.1. Creazione del file robots.txt per il suo sito web

Il file robots.txt può essere creato manualmente o generato automaticamente sulla maggior parte dei CMS come WordPress

Passeremo in rassegna entrambi i processi di creazione. Tuttavia, prima di cercare di installare il file robots.txt, si assicuri che il suo sito non ne abbia già uno

2.1.1. Creare il proprio file robot.txt

Per creare il suo file robot.txt, ha bisogno di un editor di testo (si tratta di un software per creare e modificare file di testo) Blocco note e testo sublime sono degli esempi.

Una volta scelto e scaricato il suo editor, per creare il file robot.txt dovrà seguire alcune regole. Queste regole riguardano:

La posizione e il formato del file robots.txt

  • Il suo file deve essere denominato robots.txt ;
  • Le è consentito un solo file robots.txt sul suo sito;
  • Il suo file robots.txt deve trovarsi nella radice del suo sito.

La sintassi del suo file robots.txt

  • Il file robots.txt deve rispettare la codifica UTF-8;
  • Il file è composto da uno o più gruppi di istruzioni;
  • La regola, una dichiarazione per riga e per riga vuota, deve essere rispettata.

I comandi (istruzioni o direttive) da utilizzare per costruire il suo file robots.txt:

  • Agente utente questa è la prima riga e contiene il nome del robot del motore di ricerca. Può consultare database dei robot per trovare il nome del robot che vuole bandire;
  • Disconoscere : In questo comando, dovrà inserire l’URL della pagina o della cartella che desidera vietare l’accesso ai robot;
  • Consenti : Permette di autorizzare l’esplorazione di un URL o di una cartella da parte dei robot;
  • Mappa del sito questa istruzione opzionale le consente di indicare ai robot di Google le parti del suo sito che devono esplorare.

Per maggiori informazioni su queste diverse regole, dia un’occhiata alla sezione supporto di Google.

Ecco un esempio di file robots.txt

Un exemple de fichier robots txt

fonte anthedesign

Una volta che il suo file di testo è pronto, il passo successivo sarà quello di installarlo sul suo sito web.

Per farlo, deve semplicemente accedere alla radice del suo sito dal suo client FTP e rilasciare il file robots.txt nella directory www

Le fichier robots txt dans le répertoire www

Fonte Web-eau

Ecco fatto, il file robots.txt è stato creato e installato sul suo sito.

2.1.2. Creazione del file robots.txt con WordPress

In WordPress, viene creato automaticamente un file robots.txt per il suo sito

Se utilizza un sito WordPress, basta digitare nella barra di ricerca l’URL del suo sito seguito da: /robots.txt per verificare la presenza del file robots.txt.

In ogni caso, può creare il suo file robots.txt utilizzando plugin come SEO YOAST o TUTTI IN SEO.

Per creare il suo file robots.txt con SEO YOAST, basta cercare, scaricare e installare l’estensione SEO YOAST in WordPress.

Le fichier robots txt avec WordPress

Quindi lo attivi e vada alle impostazioni dell’estensione.

Les parametres de l extension

Una volta nelle impostazioni, selezioni “editor di file” e attenda il caricamento della nuova finestra.

La nouvelle fentre outils Yoast SEO

Scelga “Crea file robots.txt”.

Le fichier robots txt

Infine, modifichi il contenuto del robots.txt virtuale creato da WordPress e salvi le modifiche.

Può anche creare il file robots.txt dall’estensione ALL In SEO. Per farlo, deve prima scaricare, installare e attivare l’estensione.

L extension ALL In SEO

Poi, una volta entrato nelle opzioni dell’estensione, selezioni la gestione dei moduli e attenda il caricamento della nuova finestra con i diversi moduli.

La gestion de modules

Cerchi il modulo robots.txt e prema attivare per impostare il suo file robots.txt.

Ora ha creato il suo file robots.txt manualmente o utilizzando un plugin su WordPress

Il passo successivo sarà verificare se il file robots.txt creato funziona.

Per farlo, dovrà fare un test.

2.3. Verifichi il suo file robots.txt.

Per testare il suo file robots.txt, segua semplicemente le indicazioni di istruzioni da Google istruzioni su questo argomento

In particolare, deve andare nella sua console di ricerca e clicca sulla scheda Crawl e poi su test robots.txt

Avrà quindi accesso a una finestra che le consentirà di inviare il suo file robots.txt a Google.

Tester votre fichier robots txt

fonte kinsa

Non dimentichi di integrare le modifiche al suo file prima di caricarlo sul server del suo sito.

Capitolo 3: I diversi usi di robots.txt.

Qui vedremo alcuni degli usi di robots.txt. Ma prima parleremo dello scopo ultimo di un file robots.txt.

3.1. Lo scopo di robots.txt

Una volta creato e installato con successo il file, è importante sapere come utilizzarlo

Lo scopo principale dell’utilizzo dei file robots.txt è quello di negare e consentire ai robot dei motori di ricerca l’accesso al suo sito

Infatti, le istruzioni non hanno la stessa modalità operativa. Il servizio fornito varia da una direttiva all’altra. Tuttavia, il funzionamento delle istruzioni può essere riassunto in due espressioni: autorizzazione e rifiuto.

3.1.1. Autorizzazione

Questo consiste nel permettere a tutti i robot web di esplorare tutti i comparti e le pagine web del suo sito. Se questo è il suo desiderio, la presenza del file robots.txt è quindi inutile, poiché le istruzioni sono prive di missioni

Di conseguenza, non sono più in grado di riconoscere e controllare i robot web. Si raccomanda pertanto di astenersi dall’installare il file in queste circostanze

D’altra parte, se lo possiede già, è semplicemente consigliabile eliminarlo. Tuttavia, se desidera conservarlo, dovrebbe lasciarlo completamente vuoto senza alcuna modifica.

3.1.2. Rifiuto

Potrebbe voler vietare a tutti i robot web di esplorare il suo sito. Per raggiungere questo obiettivo, è importante l’installazione del file robots.txt. Si tratta di integrare un’unica istruzione: bloccare l’accesso al suo sito a tutti i robot web.

Ora che conosciamo i due obiettivi finali di un robots.txt, vediamo come utilizzarlo per consentire e negare l’accesso ai robot.

3.2. Come utilizzare robots.txt per bloccare l’accesso a un intero sito

Per impedire ai robot di strisciare il suo sito per qualsiasi motivo, è sufficiente aggiungere al suo file robots.txt il codice :

Agente utente : *

Disallow: /

In questo codice, l’asterisco significa: Tutti i robot e la barra in disallow significa che desidera negare l’accesso a tutte le pagine del dominio del suo sito.

3.come si utilizza il file robots.txt per impedire che un singolo robot effettui il crawling del suo sito?

Se desidera escludere il crawler di un motore di ricerca specifico dal crawling del suo sito, può utilizzare il codice :

User-agent: nome del robot

Disallow :/

L’utilizzo di questo codice le consentirà di applicare la regola di esclusione solo ad un robot specifico.

3.3) Come impedire ai robot di effettuare il crawling di una cartella o di un file sul suo sito?

Per evitare che i robot effettuino il crawling di un file o di una cartella sul suo sito, è sufficiente utilizzare il codice :

Agente utente : *

Disallow: nome della cartella

3.4. Come utilizzare i robot. Txt per consentire un file contenuto in una cartella non autorizzata.

Per chiedere ai crawler di indicizzare un contenuto che si trova in una cartella che non vuole che i crawler esplorino completamente, deve solo utilizzare il codice :

Agente utente : *

Disallow : percorso della cartella non autorizzata

Consenti : percorso del file da esplorare

Al di là di questi usi, si noti che il file robots.txt può essere modificato e che può anche scegliere di escludere determinate pagine dal file robots.txt

3.5. Come modificare un file robots.txt?

Certo, è molto raro modificare un file robots.txt già installato. Tuttavia, è possibile modificarlo. Solo che deve aspettarsi una riconfigurazione del suo sito.

Se ha creato e installato il file manualmente, deve aprire il file robots.txt nella radice del suo sito e apportare le varie modifiche che desidera. Una volta terminato, deve salvare le modifiche e salvare il suo file.

Tuttavia, se utilizza un CMS come WordPress, può modificare il suo file utilizzando i plugin SEO YOAST e All In SEO, seguendo le istruzioni della parte 2.2.

3.6. Come escludere alcune pagine dal suo file robots.txt?

Poiché è possibile modificare questo file, è anche possibile escludere determinate pagine dal suo database robots.txt. Questo comporta la sottrazione di alcuni URL che sono autorizzati ad accedere al motore di ricerca del suo sito.

Per farlo, deve tornare alla radice del suo sito. Deve poter accedere al contenuto del file. Poi vada alla cartella Disallow statement. Questa direttiva è la memoria di tutti gli URL autorizzati.

Fonction du fichier robots txt

Sta a lei identificare gli indirizzi indesiderati che desidera estrarre dal suo database. Basta deselezionarli e ora sono considerati come URL non autorizzati

Ora che sa tutto sull’uso del robots txt, le presento nel capitolo alcune buone pratiche da adottare.

Capitolo 4: Alcune buone pratiche per il suo file txt

Per utilizzare correttamente i suoi file robots.txt:

  • Nella configurazione del suo file robots.txt, si assicuri che vengano bloccate solo le pagine che non hanno valore
  • Si assicuri di non bloccare i file JavaScript e CSS sul suo sito;
  • Esegua sempre un test dopo aver impostato il file robots.txt per assicurarsi di non aver bloccato nulla per sbaglio;
  • Collochi sempre il file robots.txt nella directory principale del suo sito;
  • Si assicuri di nominare il suo file “robots.txt”;
  • Aggiunga la posizione della sua sitemap al suo file robots.txt.

E questo è tutto, abbiamo finito con le cose da tenere a mente quando si tratta di gestire il suo file robots.txt.

In poche parole

I file Robots.txt sono file di testo installati nella root dei siti web per controllare il crawling e l’indicizzazione dei loro contenuti da parte di vari spider dei motori di ricerca.

In questo articolo, scoprirà non solo come possono essere utili per il suo sito, ma anche come utilizzarli al meglio.

Categorie SEO

Lascia un commento