Será que o ficheiro LLMs.txt já se tornou uma promessa ilusória de SEO antes mesmo de ser adotado ?

SEO
Homme d'affaires entouré d'icônes marketing numérique et analytics

Com o avanço das inteligências artificiais generativas, surgiu naturalmente uma questão: como permitir que as IA leiam e compreendam melhor o conteúdo dos sites? Foi neste contexto que surgiu o ficheiro LLMs.txt.

Apresentado como o equivalente ao robots.txt para os modelos de linguagem, este padrão proposto suscita, no entanto, mais ceticismo do que entusiasmo. O próprio John Mueller, figura de referência na Google, comparou-o à meta tag keywords, uma relíquia do SEO, ignorada há anos.

Mas será isto uma revolução para a sua visibilidade ou apenas mais um erro no que diz respeito aos metadados?

Para esclarecer este debate que agita o mundo do SEO, analisaremos primeiro a natureza técnica do ficheiro LLMs.txt e as expectativas que rodearam a sua criação.

O que é, concretamente, o ficheiro LLMs.txt ?

Trata-se essencialmente de um ficheiro Markdown localizado na raiz do seu domínio. Enquanto o ficheiro robots.txt indica aos robôs as áreas proibidas, o llms.txt direciona-os para o seu conteúdo mais relevante.

Fornece uma descrição clara e detalhada da arquitetura do seu site.

O princípio é simples: fornecer uma versão simplificada do conteúdo, geralmente em formato Markdown, sem navegação, sem publicidade e sem elementos desnecessários.

O que não é:

  • Não se trata de um ficheiro robots.txt: não bloqueia o acesso dos rastreadores.
  • Não se trata de uma norma oficial reconhecida pela indústria.
  • Não se trata de uma baliza HTML, mas sim de um ficheiro de texto colocado na raiz do site.

A intenção inicial é louvável. Mas a intenção não basta se ninguém ler o ficheiro.

Por que razão foi criado o modelo LLMs.txt para a era da IA ?

O surgimento deste formato responde a necessidades técnicas específicas para facilitar a comunicação entre o seu site e os algoritmos de última geração. Eis os pilares que justificam a existência deste ficheiro:

1. Otimização da janela de contexto: a memória das IA é limitada. Um texto simples e estruturado permite maximizar o espaço disponível para o processamento de dados.

2. Redução dos erros de interpretação: ao fornecer diretamente os factos essenciais, limita-se o risco de erros de interpretação e melhora-se a precisão das respostas geradas.

3. Exploração simplificada: este ficheiro oferece acesso direto ao conteúdo. Assim, as IA já não precisam de descodificar arquiteturas JavaScript que, por vezes, são demasiado complexas.

4. Otimização para motores de busca (GEO): trata-se de uma alavanca estratégica para a Otimização de Motores de Busca Generativa. Aumenta as suas hipóteses de aparecer como fonte fiável nas respostas da IA.

Por que é que a Google se mostra tão cética quanto à utilidade real do ficheiro LLMs.txt ?

A dúvida não surge por acaso, vem diretamente das instâncias do Google. Durante uma discussão no Reddit, uma constatação chamou a atenção da comunidade de SEO. 

Um webmaster reparou que o seu ficheiro nunca aparecia nos registos do servidor. Concretamente, nenhum agente de inteligência artificial o consultava.

John Mueller, porta-voz da Google, esclareceu a questão com uma analogia histórica. Ele compara este novo ficheiro à antiga baliza meta keywords. Segundo ele, trata-se simplesmente do que o proprietário afirma ser o tema do seu site. 

Esta declaração destaca três falhas importantes que impedem a adoção deste modelo:

  • A impossibilidade de verificação: o ficheiro é meramente declarativo e baseia-se exclusivamente na boa-fé do site.
  • A falta de adoção por parte dos gigantes da IA: nem o ChatGPT, nem o Gemini, nem o Claude parecem utilizar este ficheiro para navegar.
  • O risco de manipulação através do cloaking: um site poderia fazer batota, apresentando um conteúdo otimizado para as IA e outro diferente para os utilizadores.

A comparação com as meta keywords é um sinal de alerta para os especialistas. Esta baliza foi banida porque permitia manipular facilmente os resultados. 

O ficheiro llms.txt apresenta exatamente o mesmo defeito estrutural. Na ausência de provas concretas, o Google prefere ignorar este sinal, dando prioridade aos seus próprios algoritmos.

Qual é a situação atual da adoção do ficheiro LLMs.txt ?

Apesar do alarido mediático, os números revelam uma realidade contrastante. A adoção varia enormemente consoante o grau de maturidade tecnológica dos setores de atividade. 

Eis um resumo das tendências observadas no terreno:

Indicador de utilizaçãoNível de adoçãoPerfis em causa
Taxa de adoção elevadaGrande dinamismoTécnicas de documentação, API, startups com prioridade na IA
Baixa adesãoQuase inexistenteSites de notícias, PME locais, blogs pessoais
Atividade dos botsEm crescimentoA OpenAI e o Claude começam a analisar esses ficheiros
Apoio oficialNuloNenhum motor de busca (Google, Bing) considera isso um critério de SEO

Não encare este ficheiro como um fator de otimização de classificação, mas sim como uma cortesia técnica. Não melhora o seu SEO, mas prepara o terreno para o dia em que as IA se tornarem os principais navegadores da web.

Deve realmente incluir o ficheiro LLMs.txt na sua estratégia atual de SEO ?

Não abandone ainda a sua estratégia principal de SEO por causa deste ficheiro experimental.

A forma mais eficaz de se preparar para a IA continua a ser a utilização de dados estruturados (Schema.org).

As IA destacam-se na leitura de JSON-LD, que já é um padrão web mundial. No entanto, se o seu site contiver muita documentação, um ficheiro llms.txt pode dar-lhe uma ligeira vantagem.

 Perguntas frequentes: As suas perguntas sobre o ficheiro LLMs.txt

O ficheiro LLMs.txt é prejudicial para o meu SEO ?

Não diretamente. Criar um ficheiro LLMs.txt no seu site não vai provocar uma penalização do Google de um dia para o outro.

Por outro lado, existem dois riscos indiretos:

  • Se o seu ficheiro apresentar um conteúdo diferente do das suas páginas reais, estará a entrar numa lógica de cloaking, o que é punível.
  • Pode perder tempo e recursos numa prática sem retorno mensurável do investimento — tempo que poderia ter sido dedicado a otimizações realmente eficazes.

 Será que as IA como o ChatGPT ou o Gemini conseguem realmente ignorar este ficheiro ?

Sim, e é precisamente esse o cerne da questão.

Os grandes modelos de linguagem não rastreiam a web em tempo real da mesma forma que os motores de busca. O ChatGPT (OpenAI), o Gemini (Google), o Claude (Anthropic) ou o Perplexity têm os seus próprios mecanismos de indexação, treino e recuperação de dados.

Nenhum deles publicou documentação que indique que lêem ou têm em conta o ficheiro LLMs.txt. A ausência total deste ficheiro nos registos do servidor de muitos sites é a prova mais concreta disso.

 Será que o ficheiro LLMs.txt pode evoluir e tornar-se um padrão reconhecido ?

É possível, mas nada o garante e a história do SEO leva a ter cautela.

Surgiram muitas iniciativas com boas intenções, mas que nunca foram adotadas em grande escala. Para que o LLMs.txt se torne um padrão, seria necessário:

  • Uma adoção oficial por pelo menos um dos principais intervenientes (OpenAI, Google, Anthropic).
  • Uma especificação técnica clara e pública.
  • Mecanismos de verificação para evitar abusos.

Por enquanto, nenhum destes três critérios está preenchido. É melhor acompanhar a evolução sem investir recursos nisso.

Como posso saber se há bots de IA a rastrear o meu site neste momento ?

O método mais fiável continua a ser a análise dos registos do servidor.

Cada visita de um bot deixa um rasto: endereço IP, user-agent, URL solicitada, hora. Ao filtrar estes dados, pode identificar com precisão quais os agentes de IA que visitam o seu site, com que frequência e quais as páginas que consultam.

Eis os user-agents a ter em atenção:

  • GPTBot (OpenAI)
  • ClaudeBot (Anthropic)
  • Google-Extended (Google)
  • PerplexityBot (Perplexity)
  • Applebot-Extended (Apple)

Ferramentas como Screaming Frog, Semrush ou a sua solução de análise do lado do servidor podem ajudá-lo a extrair e filtrar esses dados.

 É necessário bloquear os bots de IA no ficheiro robots.txt ?

Trata-se de uma decisão estratégica que depende dos seus objetivos.

Motivos para bloquear:

  • Proteja o seu conteúdo contra o treino de modelos de IA sem compensação.
  • Evitar uma sobrecarga do servidor caso haja uma atividade massiva de rastreamento por bots.

Argumentos contra:

  • Bloquear determinados bots pode reduzir a sua visibilidade nas respostas das IA (AEO, GEO).
  • A visibilidade em ferramentas como o Perplexity ou o ChatGPT está a tornar-se um canal de aquisição por direito próprio.

Não existe uma resposta universal. Tudo depende de se encarar a IA como uma ameaça ou como um instrumento para aumentar a visibilidade.

O que é o GEO e está relacionado com o LLMs.txt ?

O GEO (Generative Engine Optimization) refere-se ao conjunto de práticas destinadas a otimizar a visibilidade de um site nas respostas geradas pela IA, da mesma forma que o SEO visa o Google.

O LLMS.txt foi apresentado como uma ferramenta potencial para o GEO. No entanto, uma vez que os agentes de IA não o leem, não é (por enquanto) relevante numa estratégia GEO.

Os verdadeiros fatores determinantes da GEO atualmente são:

  • A qualidade e a credibilidade do conteúdo;
  • Dados estruturados;
  • A presença em fontes citadas pelas IA (Wikipedia, imprensa, fóruns especializados);
  • Um conteúdo factual, bem estruturado e fácil de resumir.

Alexandre MAROTEL

Alexandre MAROTEL

Fundador da agência SEO Twaino, Alexandre Marotel é apaixonado por SEO e geração de tráfego na internet. É autor de numerosas publicações e tem um canal no YouTube destinado a ajudar empreendedores a criar seus sites e melhorar seu posicionamento no Google.

Twaino Agence SEO

Aumente o seu faturamento graças ao SEO com a agência Twaino

Precisa de um especialista SEO?

A Twaino acompanha-o na sua estratégia de SEO.

Reservar uma chamada
📅 Agendar 15 min com um especialista SEO / GEO