Cosa sono Robots.txt e ADS.TXT

Scopri cosa sono Robots.txt e ADS.TXT e come vengono utilizzati per la SEO i crawler e gli spider dei motori di ricerca

09/01/2025 di Redazione Giornalettismo

Di cosa si parla quando sentiamo termini come robots.txt e ads.txt? In questo articolo di approfondimento stiamo parlando di programmi che vengono utilizzati dai motori di ricerca per andare a esplorare il web e per indicizzare le pagine dei siti. In particolar modo, i Robots.txt si sono rivelati cruciali in ambito di strategie SEO.

Indice

Cosa è il robots.txt

Robots.txt è un file che viene utilizzato dai webmaster per comunicare con i motori di ricerca e indicare quali pagine o file del sito non devono essere indicizzati.

Questo file si trova nella directory principale del sito (root) e può essere creato e gestito facilmente dai webmaster per controllare quali pagine possono essere sottoposte alla scansione dei crawler dei motori di ricerca. Ma come funzionano i crawler e gli spider dei motori di ricerca e come fornirgli le istruzioni giuste?

Si tratta comunque di uno strumento fondamentale per la gestione dell’accesso dei bot dei motori di ricerca al tuo sito web. Aiuta a migliorare la privacy, ottimizzare la gestione delle risorse del server e garantire che solo le parti rilevanti del sito vengano esplorate e indicizzate dai motori di ricerca. Tuttavia, va ricordato che non è una soluzione di sicurezza e non può impedire a un bot malintenzionato di accedere al sito. Per proteggere i contenuti sensibili, è necessario utilizzare altre misure di sicurezza, come la protezione con password o l’uso dei meta tag “noindex”.

Come funzionano i crawler e gli spider dei motori di ricerca

I crawler, o spider, sono programmi utilizzati dai motori di ricerca per esplorare il web e indicizzare le pagine dei siti. Questi programmi scansionano il contenuto delle pagine, seguono i link presenti e analizzano i metadati per determinare la pertinenza della pagina per determinate query di ricerca.

Gli spider possono anche scoprire nuove pagine attraverso i link e le sitemap presenti sul sito web e indicizzarle nel motore di ricerca. I link e le sitemap svolgono quindi un ruolo molto importante poiché suggeriscono ai crawler le pagine prioritarie da scandagliare. Gli spider, infatti, non esaminano tutte le pagine esistenti, ma dedicano ad ogni sito un crawl budget, ovvero un valore limitato di tempo e risorse che può variare in base al sito.

Quali sono le principali funzionalità del robots.txt

Per fornire le istruzioni a determinati crawler e bloccare o consentirgli l’accesso a risorse del sito, è necessario attenersi a precise regole di sintassi, come indica Google nella sua guida alla creazione di un robots.txt. Vi sono alcune funzionalità specifiche, fra le principali ricordiamo:

  • User-agent: consente di indicare a quali robot vengono applicate le regole (es. Googlebot)
  • Disallow: permette di nascondere le pagine indicate agli spider e quindi evitare che finiscano in serp
  • Allow: si usa come eccezione alla direttiva disallow per specifiche pagine o sezioni (solo Googlebot lo rispetta)
  • Sitemap: permette di indicare la sitemap del sito (es. https://www.example.com/sitemap.xml).
  • Per assicurarsi che il file funzioni correttamente e che gli spider rispettino le indicazioni, è possibile utilizzare strumenti come la Search Console di Google.

Cos’è il file ads.txt

L’ads.txt è un file utilizzato per prevenire la frode pubblicitaria online. Nato da un’iniziativa di IAB Tech Lab, contribuisce a prevenire la diffusione di annunci pubblicitari fraudolenti, garantendo la trasparenza nell’ecosistema della pubblicità digitale. Sostanzialmente, quindi, con questo file ogni editore dichiara pubblicamente quali sono gli inserzionisti autorizzati a vendere il proprio inventario digitale.

Così come il file Robots.txt, l’Ads.txt può essere gestito dai webmaster e si trova nella root del sito. Poiché si tratta di un semplice testo (attenzione: un unico file anche se collabori con più rivenditori), si può creare con un comune editor di testo, ma deve includere alcuni elementi precisi, altrimenti i crawler potrebbero ignorare l’intero file.

Le frodi pubblicitarie, come l’ad fraud (fraude nella pubblicità) e lo spoofing (falsificazione dell’identità dei venditori), sono pratiche comuni in cui i truffatori cercano di vendere spazi pubblicitari non autorizzati o di far apparire che il traffico provenga da un sito legittimo quando in realtà non è così. Con il file ads.txt, i publisher possono limitare questi comportamenti e ridurre le frodi. I brand e gli acquirenti di pubblicità (ad esempio, le agenzie pubblicitarie) possono fare riferimento al file ads.txt di un sito per verificare se i venditori sono effettivamente autorizzati, riducendo il rischio di pagare per impressioni pubblicitarie non valide.

Quali sono le principali regole dell’ads.txt

Per integrare il file ads.txt sul proprio sito bisogna innanzitutto creare la lista degli inserzionisti autorizzati del proprio inventario pubblicitario. Inoltre, ogni riga della lista deve includere tre voci, separate da una virgola: il nome del dominio del venditore, l’ID dell’account e il tipo di relazione con il fornitore pubblicitario. Solitamente, sono i fornitori stessi a fornire tutte le informazioni necessarie e a convalidare la corretta impostazione del file ads.txt.

Ricordiamo che né il robots.txt che il file ads.txt sono obbligatori, tuttavia l’integrazione di questi file è fortemente consigliata. Nel primo caso, in generale, perché la sua ottimizzazione può aiutare il posizionamento del sito web, nel secondo, per contrastare i venditori illegittimi e monetizzare meglio il traffico del proprio portale online.

Share this article