Robots.txt: como criar o arquivo e controlar o acesso dos robôs do Google no seu site

Seu website costuma receber muito tráfego proveniente de páginas de busca, filtros e outras páginas que você não consegue gerenciar? 

Não se preocupe porque esse problema de SEO tem solução. Basta realizar a correta criação e gestão do robots.txt. do seu site. 

Quer aprender diretivas importantes para o robots e configurá-lo de forma correta para ter bons resultados com SEO? Então confira este post até o fim. 

Aproveite e baixe gratuitamente também nosso Checklist Auditoria SEO para conferir o passo a passo de otimizações que precisam ser realizadas no seu site para que ele esteja em conformidade com as diretrizes do Google.

O que é Robots.txt

O Robots.txt é um arquivo de texto que fica na raiz do site e possui esse nome porque tem a função de avisar aos crawlers (Googlebot e robôs de outros buscadores) o que deve ser rastreado e o que não deve. 

Ou seja, quais pastas, arquivos e tipos de páginas os crawlers devem ler para ser indexados. E assim não perderem tempo renderizando e rastreando páginas que não vão aparecer na busca orgânica do Google ou que não são relevantes para o negócio / estratégia. 

Para que serve o Google Robots.txt na prática

  • Facilita a indexação: embora nem tudo no seu site precise ser indexado, o que você quer que seja, será mais rapidamente. Isso porque os crawlers do Google não irão estourar o tempo limite no seu site rastreando páginas que não irão aparecer na busca orgânica. 
  • Reduz o Crawl Budget: ou seja, os crawlers não têm o dia todo para vasculhar seu site inteiro. Ter um robots. txt criado e atualizado otimiza o tempo dos rastreadores, porque eles seguem o caminho que você determinou e não perdem tempo com páginas que não serão indexadas e ranqueadas. 
  • Controla o acesso dos rastreadores do buscador no seu site: orienta os robôs em relação às páginas que podem ser rastreadas e quais não por meio de diretivas como disallow e allow.
  • Controla o acesso a informações confidenciais do site: os robôs do Google não precisam indexar e ranquear páginas sigilosas como carrinho (em e-commerce) ou páginas de admin (em sites feitos em WordPress, por exemplo).
  • Bloqueia o acesso dos Googlebots a outros arquivos de script: como famílias de fontes, estilos, classes,etc. que são menos usadas. Mas, é preciso contar a com a expertise de quem entende mesmo de SEO porque apesar de ajudar a rastrear o mais rápido, pode impactar na velocidade de carregamento do site. Ou seja, pode não valer a pena por criar outro problema de SEO.    

Como saber se o robots. txt do site está configurado corretamente

Um indício que o robot.txt do seu site ou loja virtual está bem configurado é quando o website apresenta Crawl Budget baixo

O que significa que os bots do Google não estão demorando muito na renderização e indexação das páginas já que não estão perdendo tempo com o que não será indexado.   

Por isso que otimizar o rastreamento do site com a criação de robots.txt ajuda muito no SEO por acelerar a indexação das páginas.

Endereço de configuração de robots

www.sualojavirtual.com.br/robots.txt

Importância do arquivo robots.txt para SEO

Esse arquivo de texto é muito importante para otimização de sites para mecanismos de busca porque impacta diretamente na indexação das páginas e  futuro ranqueamento. 

Isso porque os robôs do buscador têm um tempo limitado para rastrear seu site então quanto mais tempo ele passar rastreando páginas não otimizadas ou que não deverão ser indexadas, isso aumenta o Crawl Budget e faz demorar mais o processo de indexação das páginas.  

Já quando você recepciona bem os crawlers, informando  a eles  assim que entram no site, o que é para vasculhar e o que não é (porque não será indexado), o rastreamento é muito mais rápido e assertivo. E evita que eles estourem o tempo limite, por exemplo, renderizando páginas que não deveriam estar sendo vasculhadas.  

Robots.txt e meta robots são a mesma coisa?

O Robots. txt é um arquivo de texto que contém todas as páginas do seu site que precisam ser vasculhadas pelos robôs crawlers do Google e também quais não precisam porque não serão indexadas para otimizar tempo de rastreamento e o buscador indexar mais rápido seu site

Já a configuração da metatag robots é para controle de indexação em uma página específica. E também para dizer ao Google se é para ela ser exibida no Google Search ou não.  

Então se você não quer que uma página específica não apareça na busca orgânica basta dar o comando No Index. Para isso, você precisa inserir a metatag robots na Head conforme orientação do próprio Google Developers. 

<!DOCTYPE html>
<html><head>
<meta name="robots" content="noindex" />
(…)
</head>
<body>(…)</body>
</html>

Mas, vale lembrar que é possível realizar outras configurações para cada página específica do seu site por meio da metatag robots como, por exemplo, inserir o atributo nofollow para que o Google não rastreie os links daquela página específica. 

Exemplo: na diretiva abaixo, além de dizer para o buscador não indexar a página, ainda informa que é para não realizar rastreamento da linkagem nela.

<meta name=”robots” content=”noindex, nofollow”>

Quer entender aprender mais comandos de metatag robots? Então a dica é seguir as boas práticas para desenvolvedores compartilhadas pelo próprio Google. 

 Como criar um arquivo robots.txt

  1. Monte um arquivo de texto (txt) para informar quais páginas serão indexadas e quais não serão
  2. Suba-o  na raiz do site  
  3. Verifique se as diretrizes que você inseriu estão sendo lidas. Para isso, você precisa consultar o Google Search Console. 

Parâmetros comumente utilizados

  • User-Agent: permite  identificar rastreadores específicos do Google (que solicitam páginas) ou um conjunto de rastreadores. Portanto o rastreador padrão do Google (Googlebot) também é um tipo de user-agent.  
  •  Allow: essa palavra em inglês significa permitir. Então é uma diretiva que serve para especificar os caminhos no site que os rastreadores podem acessar. Ou seja, as páginas que podem ser rastreadas.
  •  Disallow: essa palavra em inglês significa proibir por isso  serve para informar quais páginas do site os crawlers não devem percorrer. Quando  não está bem especificado no robots.txt, os rastreadores simplesmente ignoram a diretiva e rastreiam o site todo. O que deixa a indexação mais lenta.

A importância dos Regex no Robots

Também chamados no Brasil de expressões regulares, os RegEx (que significam Regular Expressions em inglês) são formas de representação de um padrão de caracteres. O que é importante para SEO porque facilita segmentar e analisar dados no Google Analytics (GA) e isso também acontece no arquivo robots.txt.

É  por meio dos Regex que é possível segmentar as pastas e/ou arquivos que devem ser lidos ou não no robots.o tráfego orgânico por grupo de  páginas, URLs (quando estão otimizadas) e até mesmo palavras-chave. 

Regex comumente utilizadas

  • *: O asterisco significa que seja lido tudo. Portanto se aplicarmos no robots um Allow: /*.js significa que os crawlers devem ler qualquer pasta/arquivo que termine em .js (extensão do Javascript)
  • * termo *: O asterisco antes e depois de determinados termos significa que deve ser lido tudo que termine no termo ou que tenha algo após o termo. Exemplo: Disallow: /* ? * (Significa que os crawlers não devem ler pastas / arquivos que tenham ? em sua estrutura). Esse tipo de comando é ótimo para impedir a leitura de páginas com parâmetros em e-commerces.
modelos de robots

Modelo de Robots.txt para um site em wordpress

User-agent: *
Disallow: /wp-admin/
Disallow: /*?*
Allow: /*.css
Allow: /*.js
Sitemap: URL do sitemap

Modelo de Robots.txt usado no g1 

No exemplo abaixo, é possível observar em destaque na diretiva que foge do padrão que começa e termina por *. Isso porque ela está pedindo para os bots desconsiderarem tudo que está entre os * no caso: globo-cdn-src/

 Vale lembrar que nos robots. txt., as diretivas precisam começar por / ou (.

User-agent: *
Disallow: /jornalismo/g1/
Disallow: /_ssi/
Disallow: /teste-*.html$
Disallow: /beta/
Disallow: /componentes/
Disallow: /busca/*
Disallow: /globo-news/jornal-globo-news/videos/v/globo-news-ao-vivo/61910/
Disallow: /globonews/playlist/globonews-ao-vivo.ghtml
Disallow: *globo-cdn-src/*
Sitemap: https://g1.globo.com/sitemap/g1/sitemap.xml

Modelo de Robots.txt para um e-commerce

No exemplo de Robot.txt abaixo, é possível identificar que as pastas estão entre barras /pasta/. O que é um padrão correto. 

Então, por exemplo, só de olhar rapidamente, é possível saber que onde está em negrito neste post são diretivas para os Googlebots não rastrearem a página de newsletter, não indexarem o carrinho de compras do consumidor e rastrearem uma página de boas-vindas. 

Entretanto, os dois exemplos abaixo não indicam no robots o caminho do sitemap.

User-agent: *
Allow: /.well-known/assetlinks.json
Disallow: /assets/
Disallow: /recommengine.php
Disallow: /recommendation/
Disallow: /newsletter/
Disallow: /*tamanho-*-*/
Disallow: /*_*_*/
Disallow: /index/message
Disallow: /sizeguide:5
Noindex: /customer/wishlist/
Disallow: /*--*/
Noindex: /*sp=1*
Disallow: /--/
Disallow: *--*
Allow: /*--*html
Disallow: /messagetelesales*
Disallow: /cart/
Disallow: /seller/
Disallow: /seedeliverytime/
Disallow: /catalog/sizeReminder*

Modelo loja virtual 2

Disallow: /landingpage/*/l/
Disallow: /landingpage/*/m/
Disallow: /lojista/*/c/
Disallow: /lojista/*/f/
Disallow: /lojista/*/m/

Conclusão

Criar robots txt. para o seu site é fundamental para melhorar o SEO porque é esse arquivo de texto que  vai otimizar tempo dos robôs do Google na hora de rastrear as páginas. 

E isso reduzirá o Crawl Budget e consequentemente ajudará a indexação ser mais rápida já que você facilitou a vida dos bots do buscador ao conter também os caminhos que eles devem percorrer (permitidos e proibidos) em relação ao Sitemap.

Mas, vale lembrar que os robots. txt precisam ser atualizados regularmente. Isso porque páginas novas podem ser abertas e páginas antigas excluídas. 

E até mesmo algumas estratégias do negócio podem mudar e um conteúdo que antes fazia sentido estar indexado e bem posicionado no Google pode precisar deixar de ser indexado. 

Além disso, um estudo realizado pela Search Lab analisou 40.000 páginas de e-commerces do Brasil e apontou que algumas páginas com pouco tráfego podem impactar o resultado de SEO. E apresentou como um dos insights não indexá-las para não atrapalhar a performance global do seu site.

Quer saber mais sobre isso? Então baixe gratuitamente a pesquisa SEO: O que impacta em posicionamento, tráfego e conversão. 

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Nossos Parceiros
Plataformas
Newsletter
Confirme que não é um robô
Rolar para o topo