llms.txt vs robots.txt: guida pratica per farti citare dalle AI
Se le AI non capiscono il tuo sito, non esisti nel momento in cui l’utente decide. Ecco come usare llms.txt e robots.txt — due file con scopi opposti — per controllare l’accesso dei crawler e spiegare la tua autorità ai modelli linguistici.
[IMMAGINE: Schema visivo che mostra due file distinti — robots.txt come cancello fisico e llms.txt come indice ragionato — con frecce che puntano verso crawler tradizionali e LLM separati]
Il problema che nessuno ti ha spiegato
Per anni la regola era semplice: se Google non ti indicizza, non esisti.
Nel 2026, quella regola è ancora valida. Ma ne è nata un’altra, parallela e più sottile: se un modello AI non ti capisce — o non ti cita — non esisti nel punto in cui l’utente smette di cercare e inizia a decidere.
ChatGPT, Perplexity, Claude, Gemini. Questi strumenti rispondono a domande dirette. Consigliano fornitori, strumenti, agenzie. Spiegano come funziona un processo. E lo fanno citando fonti.
La domanda concreta è: quando un LLM (Large Language Model, ovvero un modello AI che elabora e genera testo) risponde a una domanda rilevante per il tuo business, cita te o un tuo concorrente?
La risposta dipende da tre livelli distinti:
- Chi può accedere al tuo sito (robots.txt)
- Come il tuo sito si presenta alle AI (llms.txt)
- Quanto il tuo contenuto è considerato autorevole e affidabile
Confondere questi tre livelli è il modo più rapido per sprecare risorse e non ottenere risultati.
robots.txt: è un cancello, non un manuale
robots.txt è un file di testo che dice ai crawler — i programmi automatici che scansionano il web — cosa possono o non possono leggere del tuo sito.
Esiste dal 1994. Funziona con un protocollo chiamato REP (Robots Exclusion Protocol). È pubblico, leggibile da chiunque, e viene posizionato nella root del dominio: tuosito.com/robots.txt.
La logica è binaria: accesso consentito o accesso negato.
User-agent: *
Disallow: /admin/
Disallow: /checkout/
Allow: /blog/
Questo dice a tutti i crawler: puoi leggere il blog, non toccare admin e checkout.
Il file non spiega nulla. Non descrive il sito. Non racconta chi sei. Non dice perché un contenuto è rilevante. È un cancello. Aperto o chiuso.
[IMMAGINE: Rappresentazione visiva di robots.txt come barriera fisica con semaforo verde/rosso per sezioni diverse del sito]
Cosa robots.txt non può fare
- Non garantisce che un crawler rispetti le istruzioni (i crawler malevoli le ignorano)
- Non protegge le pagine dalla comparsa nei risultati di ricerca se sono già state indicizzate
- Non comunica nulla sul valore o l’autorità del contenuto
- Non influenza direttamente come un LLM interpreta o cita il tuo sito
È uno strumento di controllo dell’accesso. Nulla di più.
Mettere un agent AI nel robots.txt: ha senso?
Sì, ma con un obiettivo preciso: decidere quali crawler AI possono accedere ai tuoi contenuti e a quali sezioni.
Alcuni LLM e motori di ricerca AI usano crawler propri. OpenAI usa GPTBot. Google usa GoogleOther per i dati di addestramento Gemini. Anthropic usa ClaudeBot. Perplexity usa PerplexityBot.
Puoi bloccarli o autorizzarli in modo selettivo:
User-agent: GPTBot
Disallow: /
User-agent: PerplexityBot
Allow: /blog/
Allow: /casi-studio/
Disallow: /
In questo esempio stai bloccando OpenAI dall’accedere al sito ma permettendo a Perplexity di leggere blog e casi studio.
Quando ha senso bloccare un crawler AI?
- Hai contenuti proprietari (metodi, framework, database) che non vuoi vengano usati per addestrare modelli
- Gestisci dati sensibili di clienti in aree non protette da autenticazione
- Vuoi proteggere contenuti a pagamento dall’estrazione automatica
Quando ha senso autorizzare un crawler AI?
- Vuoi che Perplexity o altri motori AI citino i tuoi contenuti nelle risposte
- Stai costruendo autorità di marca attraverso contenuti pubblici
- Il tuo modello di business beneficia dalla visibilità nelle risposte AI
[INTERNAL_LINK: guida ai crawler AI e come tracciarli nel tuo server log]
La scelta non è ideologica. È strategica. Decidi in base all’obiettivo di business, non per principio.
llms.txt: non è un cancello. È un indice ragionato per i modelli AI
llms.txt è un file in formato Markdown, proposto nel 2024 da Answer.AI, che fornisce a un LLM una mappa strutturata e ragionata del tuo sito.
Non è uno standard ufficiale W3C. Non è obbligatorio. Ma è già adottato da [DATO DA VERIFICARE: Fonte: survey Answer.AI/adozione llms.txt 2025] migliaia di siti tecnici, agenzie e aziende SaaS che vogliono essere compresi — non solo scansionati — dai modelli AI.
Il concetto di base: un LLM non ha bisogno di crawlare ogni pagina. Ha bisogno di capire cosa sei, cosa fai, quali contenuti hai e perché sei rilevante per una certa domanda.
robots.txt dice “puoi entrare qui”. llms.txt dice “ecco cosa trovi, ecco perché conta”.
Come è strutturato un llms.txt efficace
Il file va in tuosito.com/llms.txt. La struttura tipica include:
# Nome Azienda
> Una frase che descrive chiaramente cosa fai e per chi.
## Cosa facciamo
Breve descrizione dei servizi o prodotti principali.
## Contenuti chiave
- [Titolo pagina](URL): descrizione sintetica del contenuto e del suo valore
- [Caso studio: Cliente X](URL): risultato ottenuto, metodo usato, contesto
- [Guida: Topic Y](URL): per chi è utile, cosa risolve
## Non indicizzare
- /area-clienti/ — contenuti riservati
- /preventivi/ — form interno
La differenza rispetto a una sitemap XML è sostanziale. Una sitemap dice “queste pagine esistono”. llms.txt dice “queste pagine esistono, ecco perché valgono, ecco il contesto”.
[IMMAGINE: Confronto visivo affiancato tra una sitemap XML (lista di URL) e un file llms.txt (struttura Markdown con contesto e descrizioni)]
llms.txt esiste anche in versione estesa
Puoi creare anche llms-full.txt, che contiene il testo completo delle pagine principali in formato Markdown. Utile per siti con poco contenuto pubblico o per chi vuole massimizzare la comprensione da parte di modelli che fanno retrieval diretto.
[INTERNAL_LINK: come creare llms.txt per un sito Astro o Next.js in modo automatico]
Allora quale usare? Entrambi, ma con scopi diversi
La risposta diretta: non si scelgono. Si usano insieme, perché risolvono problemi diversi.
Ecco la distinzione operativa:
| Obiettivo | Strumento |
|---|---|
| Bloccare crawler specifici | robots.txt |
| Autorizzare crawler AI selettivi | robots.txt |
| Proteggere contenuti sensibili | robots.txt |
| Spiegare il sito a un LLM | llms.txt |
| Migliorare la comprensione contestuale | llms.txt |
| Aumentare le probabilità di citazione | llms.txt + contenuto autorevole |
Un errore comune: usare robots.txt per “gestire” l’AI. Bloccare GPTBot non migliora la tua posizione nelle risposte di ChatGPT. Semmai la peggiora, perché il modello avrà meno dati recenti da associare al tuo brand.
Un altro errore frequente: pensare che llms.txt da solo basti per essere citati. Non basta. È una condizione necessaria, non sufficiente.
La terza via che molti dimenticano: i segnali che contano davvero per la citazione
Essere citati da un LLM non dipende solo da file tecnici. Dipende dalla qualità percepita del tuo contenuto da parte del modello.
I modelli AI imparano da enormi quantità di testo. Quando generano una risposta e devono citare una fonte, scelgono in base a segnali che riflettono autorità, chiarezza e coerenza nel tempo.
Ecco i segnali concreti che aumentano la probabilità di citazione:
1. Contenuto strutturato per rispondere a domande dirette
I modelli preferiscono contenuti che iniziano con la risposta, non con il contesto. Ogni sezione dovrebbe rispondere a una domanda implicita in modo autonomo. Questo articolo è scritto in quel modo.
2. Coerenza semantica tra URL, titolo, H1 e contenuto
Se il tuo URL dice /guida-fatturazione-elettronica/ ma il contenuto parla di software gestionale generico, il modello registra incoerenza. Le tue probabilità di citazione su “fatturazione elettronica” scendono.
3. Dati, numeri e casi concreti
I modelli valorizzano i contenuti che contengono informazioni verificabili. Un articolo con percentuali, risultati misurabili e casi studio specifici ha più peso di un articolo generico sullo stesso tema.
[DATO DA VERIFICARE: Fonte: analisi Perplexity/citazioni per tipo di contenuto 2025]
4. Menzioni esterne e citazioni da terze parti
Quando altri siti autorevoli citano i tuoi contenuti, il modello registra quel segnale. È l’equivalente del backlink per la SEO tradizionale, ma per l’ecosistema AI.
5. Presenza nei dataset di addestramento
Alcuni modelli (come GPT-4 e Claude) sono stati addestrati su dati con cut-off precisi. Contenuti pubblicati dopo quel cut-off entrano nel sistema solo tramite retrieval (accesso in tempo reale, come fa Perplexity). Pubblicare con costanza aumenta la probabilità di essere presenti in entrambi i canali.
[INTERNAL_LINK: come costruire un piano editoriale per la visibilità AI nel 2026]
FAQ: domande dirette su llms.txt e robots.txt
Cos’è llms.txt e a cosa serve?
llms.txt è un file Markdown che descrive il tuo sito ai modelli AI. Spiega cosa fai, quali contenuti hai e perché sono rilevanti. Non è obbligatorio, ma aumenta la comprensione del tuo sito da parte degli LLM e può migliorare la probabilità di citazione nelle risposte AI.
Devo bloccare GPTBot nel mio robots.txt?
Dipende dall’obiettivo. Se vuoi proteggere contenuti proprietari dall’uso per l’addestramento, sì. Se invece vuoi che ChatGPT conosca e citi i tuoi contenuti, bloccarlo è controproducente. La scelta deve essere strategica, non ideologica.
llms.txt migliora il posizionamento su Google?
No direttamente. llms.txt è pensato per i modelli AI, non per i motori di ricerca tradizionali. Il posizionamento Google rimane legato a fattori SEO classici: qualità del contenuto, backlink, Core Web Vitals, struttura tecnica.
robots.txt e llms.txt possono coesistere?
Sì, e devono farlo. Sono due file con funzioni complementari. robots.txt controlla l’accesso. llms.txt comunica il contesto. Puoi, per esempio, autorizzare PerplexityBot in robots.txt e contemporaneamente avere un llms.txt che descrive i tuoi contenuti principali a tutti gli LLM.
Quanto lungo deve essere un llms.txt?
Abbastanza da essere utile, abbastanza corto da essere letto. Una struttura efficace include: una descrizione dell’azienda in 2-3 righe, i link alle pagine più importanti con una riga di contesto per ciascuna, e le sezioni da escludere. In genere 300-800 parole sono sufficienti per un sito PMI.
Conclusione: robots ti difende, llms ti presenta, la citazione ti premia
Questi tre livelli non sono alternativi. Sono sequenziali.
Prima decidi chi può accedere al tuo sito (robots.txt). Poi spieghi alle AI chi sei e cosa fai (llms.txt). Infine costruisci contenuti che meritano di essere citati, perché rispondono a domande reali con informazioni concrete.
Il punto non è “essere presenti su internet”. Il punto è esistere nel momento in cui un potenziale cliente fa una domanda a un’AI e quella AI deve scegliere chi citare.
Nel 2026, quella scelta ha un impatto diretto sul fatturato. Non è una questione tecnica. È una questione di posizionamento competitivo.
Vuoi sapere se il tuo sito è visibile — e citabile — dai principali modelli AI?
In LEVERA facciamo un’analisi tecnica e strategica della tua visibilità AI: robots.txt, llms.txt, struttura dei contenuti, segnali di autorità. Il risultato è un piano d’azione concreto, con priorità e impatto stimato.