Robots.txt

Como criar Robots.txt, editar e atualizar o arquivo

Seu site costuma ficar sobrecarregado de solicitações durante o rastreamento? Uma forma de evitar que isso aconteça é criar um arquivo Robots.txt para o Google.

Dessa forma os Googlebots passam a saber quais páginas não devem acessar na hora de rastrear o seu site e ainda evita que o tempo limite de rastreamento (Crawl Budget) seja ultrapassado. O que quando acontece pode impactar negativamente nas suas estratégias para a busca orgânica . 

Aprenda a configurar o Robots.txt para o Google e também entenda a importância desse documento técnico para melhorar o SEO do seu site. 

O que é Robots.txt

O Robots.txt é um arquivo de texto criado no bloco de notas que fica salvo na pasta raiz do site com orientações para os robôs dos mecanismos de busca como, por exemplo, o Google sobre quais páginas podem acessar para fazer o rastreamento.

Esse documento técnico tem como padrão o Robots Exclusion Protocol (REP) ou em português: Protocolo de Exclusão de Robôs que é um conjunto de regras para os bots de buscadores que informa quais páginas não podem rastrear e quais podem. 

Aprenda mais sobre SEO técnico

Onde fica o arquivo Robots.txt. (como acessar)

Para ver os arquivos Robots.txt do seu site é bem simples. Basta digitar o domínio raíz e no fim da URL inserir /robots.txt.

Exemplo: www.seusite.com.br/ robots.txt.

Com o comando, você descobre quais páginas estão sendo rastreadas pelos robôs e quais não. O que pode colaborar com o SEO técnico do seu site.

É importante configurar o arquivo Robots.txt porque se você não fizer isso, o Google vai entender que pode acessar tudo no seu site durante o rastreamento. 

O que demandará muito tempo e poderá sobrecarregar o website inclusive com solicitações para rastrear páginas que você nem gostaria que aparecesse no buscador. 

Ao criar um Robots.txt isso não irá ocorrer se houver definição de regras claras no arquivo de texto. Dessa forma é possível  controlar o comportamento do rastreador do Google e limitar o que ele pode acessar e o que não.

Vale lembrar que os robôs do Google têm um tempo limite para rastreamento de cada site conhecido como Crawl Budget (termo técnico de SEO que vem de um dos nomes do Googlebot, no caso: Crawler).

Para que serve o Google Robots.txt?

O Robots.txt serve para guiar os Googlebots dentro do seu website, assim como ocorre também em outros buscadores, evitando que os robôs percam tempo demandando solicitações para acessar páginas, diretórios ou arquivos que não deveriam ser rastreados. Confira outras funções do documento técnico:

  • Orientar Googlebots durante o rastreio do site
  • Acabar com a sobrecarga do site por solicitações desnecessárias na hora do rastreamento
  • Evitar que o Google rastreie páginas que você não quer
  • Impedir que os Googlebots fiquem muito tempo rastreando o seu site (redução do Crawl Budget)
  • Facilitar a localização do sitemap
  • Manter determinados tipos de arquivo fora das páginas de resultado da busca orgânica

Orientar Googlebots durante o rastreamento do site

O Robots.txt serve para orientar o rastreamento dos mecanismos de pesquisa como o Google guiando os bots dentro seu site. 

É esse arquivo de texto que impede que os robôs façam soliticações excessivas e desnecessárias (que só sobrecarregam o funcionamento do site e podem prejudicar a performance).

Por exemplo:

O arquivo Robots.txt serve para evitar que os robôs peçam para rastrear páginas de acesso privado como as que precisam de login e senha para acesso de assinantes. E que normalmente as empresas não têm o menor interesse que sejam rastreadas e até mesmo indexadas e que o próprio buscador dificilmente vai colocar entre os primeiros resultados em alguma pesquisa.  

Ou seja, o arquivo Robots.txt serve também para evitar a sobrecarrega do site. O que pode ocasionar lentidão de carregamento de páginas (afetando o SEO) e em casos extremos até queda do website por excesso de solicitações.

Evitar rastreamento de páginas que você não quer que sejam indexadas

  • Páginas do seu site: o carrinho de compra é um exemplo de página que não costuma valer a pena rastrear porque não seria resposta para pesquisa no buscador e ainda gastaria tempo dos bots no rastreamento. Fale Conosco e páginas com login e senha também. 
  • Diretório: várias empresas fazem parte de diretórios da web para conseguir backlinks, por exemplo, e em muitos casos não faz sentido ter essas páginas rastreadas pelos bots.
  • Arquivos de imagens: como materiais para download (infográfico, etc.) que são estratégicos para aumentar o número de leads. 
  • Arquivos de recursos: scripts, CSS, entre outros (vale lembrar que só é interessante impedir o rastreamento se ele não comprometer o bom carregamento do site e consequentemente a boa experiência de usuário nele).

Facilitar a localização do sitemap

Além de orientar os Crawlers durante o rastreamento, o Robots txt. também pode conter o mapa do site (sitemap). O que facilita ainda mais o trabalho dos robôs já que eles identificam com maior clareza onde rastrear. 

No sitemap estão todas as páginas do site e assim como o arquivo Robots.txt, ele precisa estar salvo na raíz do site. Para acessar, basta digitar o root domain com o comando depois.

Exemplo www.seusite.com.br/sitemap

computador com lupa na tela representando um buscador

Qual é a importância de um Robots.txt bem configurado?

Configurar um arquivo Robots.txt é importante para impedir que os crawlers rastreiem determinadas páginas, diretórios ou arquivos que não valem a pena perder tempo de rastreamento (reduzindo assim o Crawl Budget). 

Então se você não tiver o documento de SEO técnico configurado com as páginas que você não quer que sejam rastreadas, os Googlebots vão deduzir que é para rastrear o site inteiro. O que incluirá páginas para assinantes, carrinho de compras, etc.

Por esse motivo o Robots. txt é indispensável para limitar o rastreio dentro do seu site por meio de diretivas para os robôs dos buscadores que otimizam o tempo de rastreamento. 

Vale lembrar que o fato de uma página ser rastreada não interfere no posicionamento dela na página de resultado de pesquisa (SERP), porém se não houver o rastreamento, não há como ela aparecer no Google ou outro do motor de busca.

 Portanto o arquivo Robots.txt é estratégico para impedir que páginas irrelevantes vão parar no buscador tomando o lugar de páginas relevantes que não tiveram tempo de serem rastreadas.

 Como criar um arquivo Robots.txt

  1. Monte um arquivo de texto (txt) para informar quais páginas serão indexadas e quais não serão
  2. Suba-o  na raiz do site  
  3. Verifique se as diretrizes que você inseriu estão sendo lidas. Para isso, você precisa consultar o Google Search Console. 

Comandos base do Robots.txt

User-agent

User-agent é a primeira linha de todas as regras que são dadas para os robôs dos buscadores no arquivo Robots.txt. É nela que se especifica para qual bot a diretiva está sendo dada. Por exemplo: se você quer dar um comando para o robô do Google, bastar fazer o seguinte: 

Acessar o arquivo Robots.txt  (exemplo: www.seusite.com.br/robots.txt) 

User-agent: Googlebot

Se você quisesse que o comando fosse para o robô de outro buscador, era só colocar o nomedobuscadorbot ex: Yahoobot ou Bingbot.

Mas, também é possível tornar orientações gerais no arquivo Robots.txt ao digitar:

User-agent*

Allow

Allow é o comando que você pode colocar no arquivo Robots.txt para informar aos robôs dos buscadores que podem fazer o rastreamento da página, arquivo, diretório, etc. 

Vale lembrar que se algo não teve o acesso proibido para os bots (disallow), não é necessário usar o allow já que automaticamente tudo está permitido para rastreamento sem esse comando.

Ou seja, se você quer apenas que um arquivo seja rastreado em uma página que não será, você pode avisar ao Googlebot e aos robôs de outros mecanismos de pesquisa por meio do comando allow. Exemplo: 

User-agent*

Disallow: /contactus

Allow: /contactus/form

No exemplo acima, a página Contact Us (Fale Conosco) não é rastreada por todos os bots de qualquer mecanismo de pesquisa, mas o formulário nela é.

Disallow

Você pode usar o comando Disallow no Robots.txt para proibir o acesso dos robôs a determinadas páginas, diretórios, arquivos do seu site. Por exemplo:

User-agent*

Disallow: /thankyoupage/

Nesse caso, você estaria informando que todos os bots dos buscadores não devem perder tempo rastreando a página de agradecimento que aparece após alguém baixar um material em seu site.

Vale lembrar que se a página nunca foi rastreada também não será indexada pelos buscadores e estará fora das páginas de resultado de pesquisa orgânica de todos os mecanismos de busca por não constar no banco de dados deles. 

Mas, se alguma vez a página foi rastreada, ela está no banco de dados do Google e de outros motores de busca e poderá seguir aparecendo no buscador mesmo deixando de ser rastreada. Portanto o comando Disallow não garante que uma página não será indexada

Sitemap

O sitemap é um arquivo em formato XML que contém o mapa do site e que pode estar no arquivo Robots.txt para facilitar a vida dos robôs dos buscadores na hora de fazer o rastreamento. Para colocá-lo no documento de SEO técnico, basta digitar: 

Sitemap: https://site.com/sitemap.xml

Ter o mapa do site no Robots.txt pode ajudar os bots a encontrarem as páginas que irão rastrear mais rapidamente otimizando tempo de rastreamento. 

E ainda melhora o Crawl Budget (menos tempo de rastreamento, mais páginas rastreadas; melhor direcionamento dos robôs no Robots.txt, mais páginas relevantes rastreadas).

Mas, vale lembrar que ter o sitemap no Robots.txt não é a única forma de disponibilizá-lo para o buscador. Há como fazer isso também pelo Google Search Console (GSC).

A importância dos Regex no Robots

Também chamados no Brasil de expressões regulares, os RegEx (que significam Regular Expressions em inglês) são formas de representação de um padrão de caracteres. O que é importante para SEO porque facilita segmentar e analisar dados no Google Analytics (GA) e isso também acontece no arquivo Robots.txt.

É  por meio dos Regex que é possível segmentar as pastas e/ou arquivos que devem ser lidos ou não no Robots.o tráfego orgânico por grupo de  páginas, URLs (quando estão otimizadas) e até mesmo palavras-chave. 

Regex comumente utilizadas

  • *: O asterisco significa que seja lido tudo. Portanto se aplicarmos no Robots um Allow: /*.js significa que os crawlers devem ler qualquer pasta/arquivo que termine em .js (extensão do Javascript)
  • * termo *: O asterisco antes e depois de determinados termos significa que deve ser lido tudo que termine no termo ou que tenha algo após o termo. Exemplo: Disallow: /* ? * (Significa que os crawlers não devem ler pastas / arquivos que tenham ? em sua estrutura). Esse tipo de comando é ótimo para impedir a leitura de páginas com parâmetros em e-commerces.
O que é SEO Técnico?

Robots.txt e Meta Robots são a mesma coisa?

O Robots. txt é um arquivo de texto que contém todas as páginas do seu site que precisam ser vasculhadas pelos robôs crawlers do Google e também quais não precisam porque não serão indexadas para otimizar tempo de rastreamento e o buscador indexar mais rápido seu site

Já a configuração da Metatag Robots é para controle de indexação em uma página específica. E também para dizer ao Google se é para ela ser exibida no Google Search ou não.  

Então se você não quer que uma página específica não apareça na busca orgânica basta dar o comando No Index. Para isso, você precisa inserir a Metatag Robots na Head conforme orientação do próprio Google Developers. 

Quando o Robots.txt pode não funcionar (limitações)

Os robôs do Google têm limite de dados e tempo (Crawl Budget) para o rastreamento em cada site. Por esse motivo orientar os Crawlers via Robots.txt é fundamental. Portanto é importante criar regras e diretivas para os bots saberem o que não rastrear

Vale lembrar que, além de salvar o arquivo Robots.txt na raiz do site, também ajuda a acelerar o rastreamento ter um site rápido porque mais páginas serão rastreadas em menos tempo. Já sites com lentidão acabam demandando mais tempo e consequentemente os Googlebots rastreiam menos. 

URLs otimizadas também são importantes para que os Spiders não percam tempo rastreando vários endereços diferentes para um mesmo conteúdo como pode ocorrer por exemplo em ecommerces que têm filtros de cor, tamanho. 
O que melhora certamente a experiência do usuário na hora da compra, mas pode atrapalhar o rastreamento ao gerar URLs diferentes para um mesmo produto (caso não seja usado o canonical).

Robots.txt não faz página não aparecer no Google como o comando No Index

É importante lembrar que o Robots.txt não serve para desindexar páginas. O que esse arquivo de orientação dos bots durante o rastreamento permite é que você possa bloquear arquivos que possam ser lidos pelo buscador, por meio do comando disallow, para não aparecer no Google.

Confira alguns exemplos:

  • PDF
  • HTML
  • Imagens
  • Vídeos
  • Áudios
  • Scripts e estilos sem tanta importância (só se a página ainda puder ser carregada sem problemas com a ausência desses arquivos) 
  • Entre outros

Para deixar páginas fora do buscador, é preciso utilizar o comando no index que serve exatamente para isso. Continue a leitura porque vamos explicar neste conteúdo como deixar de aparecer no Google.  

A configuração de Robots.txt do Google não serve para todos os motores de busca 

Cada mecanismo de busca requer uma configuração específica do documento técnico. Ou seja, se você criar um Robots.txt com base nas orientações do Google, ele pode não funcionar em outros buscadores porque não é algo universal. 

Então se você também investe em estratégias de SEO para Bing, por exemplo, e/ou outros motores de busca, o ideal é seguir a configuração específica do arquivo para cada um deles e assim evitar problemas no rastreamento como sobrecarga do site.

Pode não ser compatível com todos os rastreadores 

Ainda que você configure de acordo com cada motor de busca especificamente, o Robots.txt pode não funcionar por não ser compatível com todos os rastreadores do mundo. 

De acordo com o Google, eles e outros buscadores éticos respeitam as regras que estão no documento técnico do seu site, mas não é possível garantir que todos os rastreadores do mundo hajam assim também. 

Portanto, o Robots. txt é um arquivo de orientação e não de imposição para os robôs durante o rastreamento. 

Os comandos são apenas diretivas

Criar um arquivo Robots.txt, por si só, não significa que as páginas que você quer, de fato, não serão indexadas. Isso porque os comandos inseridos no documento de SEO técnico são apenas diretivas para os robôs em relação ao rastreamento

E caso, você não insira todas as orientações em detalhes, os Googlebots, por exemplo, podem obedecer, mas os Bingbots (ou robôs de outros buscadores), não. E assim as páginas que você não queria podem acabar sendo rastreadas e posteriormente indexadas em outros motores de pesquisa. 

Além disso, se você usar o comando Disallow em uma página que já foi indexada, ela só não será mais rastreada pelos robôs, mas não sairá do banco de dados do buscador podendo continuar indexando.

Portanto a configuração do Robots.txt, normalmente, precisa ser complementada pelo uso de meta tags como, por exemplo:

  •  noindex: se você quiser que uma página não seja indexada nos buscadores
  •  nofollow: quando você não quer transmitir autoridade para outra página  

Talvez seja necessário ter grupos de diretivas por bots

Para dar instruções mais assertivas no arquivo Robots.txt, pode ser preciso determinar regras bem específicas indicando inclusive para quais grupos de bots.

Como serão muitas informações, é importante sempre revisar o documento técnico para ter certeza que está tudo certo. Observe se os comandos estão escritos corretamente, os nome dos robôs, etc. Dessa forma você reduz consideravelmente erros e problemas no rastreamento.  

Pode levar um tempo até que as diretivas sejam interpretadas pelos robôs

Há uma padronização de regras e comandos para configurar corretamente o arquivo Robots.txt, mas como cada mecanismo de busca tem sua própria tecnologia, os robôs podem interpretar de maneira diferente e em tempos distintos.

Para facilitar a orientação aos bots, e tentar reduzir a demora na interpretação das diretivas, é importante conhecer a forma certa de se comunicar com os robôs de cada buscador.

Uma dica importante é começar pelo aprendizado da síntaxe do Google, já que é o motor de busca mais usado no Brasil e no mundo. 

Mas, também pode fazer sentido, dependendo de sua estratégia de SEO, aprender comandos assertivos para os robôs do Bing, Yahoo e até mesmo Baidu (caso sua empresa esteja no mercado chinês), entre outros. 

Então a dica de ouro é aprofundar os conhecimentos em web semântica dos buscadores que você utiliza para que a comunicação com os bots deles seja mais efetiva.

Como deixar de aparecer no Google (como excluir indexação dos buscadores)?

Uma página deixa de aparecer no buscador (deixa de indexar) quando a tag no index é inserida no código HTML. 

Dessa forma as informações da página saem do banco de dados do Google e consequentemente não há mais como aparecer nos resultados de pesquisa do buscador. 

Vale lembrar que a indexação ocorre após o rastreamento (que é organizado pelo arquivo Robots. txt. por meio dos comandos Allow e Disallow).

Diferença entre rastreamento e indexação

Rastreamento

O rastreamento permite que o Google descubra todas as páginas que existem na web (portanto é feito regularmente). 

Ao descobrir a URL do seu site (por meio de linkagens ou sitemap), os Googlebots o acessam para rastrear as informações baixando arquivos de texto, imagens, vídeos, etc. 

O que é feito com base na configuração do arquivo Robots.txt que orienta os robôs informando quais páginas podem ser rastreadas. 

Indexação

A indexação ocorre após o primeiro rastreamento do seu site, os arquivos que foram baixados são armazenados pelo buscador em um enorme banco de dados chamado Índice do Google para serem analisados. O que é chamado indexação. 

Após análise, quando o usuário digita algo no mecanismo de busca, com base nas informações indexadas, o Google entrega o que entendeu como melhor resposta para o que foi pesquisado levando em consideração também as boas práticas de SEO.  

Exemplos de Robots explicados

Modelo de Robots.txt usado no g1 

User-agent: *
Disallow: /jornalismo/g1/
Disallow: /_ssi/
Disallow: /teste-*.html$
Disallow: /beta/
Disallow: /componentes/
Disallow: /busca/*
Disallow: /globo-news/jornal-globo-news/videos/v/globo-news-ao-vivo/61910/
Disallow: /globonews/playlist/globonews-ao-vivo.ghtml
Disallow: *globo-cdn-src/*
Sitemap: https://g1.globo.com/sitemap/g1/sitemap.xml

Neste caso, o site usa em várias diretrizes de Disallow o *, como por exemplo no /busca/*, que informa que o os bots não devem rastrear nada após o subdiretório /busca/.

Entretanto, neste exemplo existe uma outra Regex que não informamos no post, que é a $. Na diretriz Disallow: /teste-*.html$, ela informa que os bots não devem rastrear arquivos que contenham teste-, qualquer coisa depois e termine com .html

Modelo de Robots.txt usado na Apple 

# robots.txt for http://www.apple.com/

User-agent: *
Disallow: /*/includes/*
Disallow: /*retail/availability*
Disallow: /*retail/availabilitySearch*
Disallow: /*retail/pickupEligibility*
Disallow: /*shop/signed_in_account*
Disallow: /*shop/sign_in*
Disallow: /*shop/sign_out*
Disallow: /*shop/answer/vote*
Disallow: /*shop/bag*
Disallow: /*shop/browse/overlay/*
Disallow: /*shop/browse/ribbon/*
Disallow: /*shop/browse/campaigns/mobile_overlay*
Disallow: /*shop/button_availability*
Disallow: /*shop/favorites*
Disallow: /*shop/iphone/payments/overlay/*
Disallow: /*shop/mobile/olss_error*
Disallow: /*shop/mobilex/*
Disallow: /*shop/np/order*
Disallow: /*shop/np/giftorguestorder*
Disallow: /*shop/np/sign_in*
Disallow: /*shop/order/*
Disallow: /*shop/rs-mvt/rel/*
Disallow: /*shop/sentry*
Disallow: /*shop/store/feeds/*
Disallow: /*shop/variationSelection
Disallow: /*_adc_*/shop/
Disallow: /*_aoc_*/shop/
Disallow: /*_enterprise*/shop/
Disallow: /*_internal-epp-discounted*/shop/
Disallow: /*_k12nonbts*/shop/
Disallow: /*_kiosk*/shop/
Disallow: /*_nonbts*/shop/
Disallow: /*_qpromo*/shop/
Disallow: /*_refurb-discounted*/shop/
Disallow: /cn/*/aow/*
Disallow: /go/awards/*
Disallow: /newsroom/notifications/*
Disallow: /tmall*
Allow: /ac/globalnav/2.0/*/images/ac-globalnav/globalnav/search/* 	

User-agent: Baiduspider
Disallow: /mac*
Disallow: /ipad*
Disallow: /iphone-*
Disallow: /homepod-*
Disallow: /apple-watch-*
Disallow: /store
Disallow: /shop/buy-mac
Disallow: /shop/buy-iphone
Disallow: /shop/buy-ipad
Disallow: /shop/buy-watch
Disallow: */product-red/
Disallow: */product-red*
Disallow: /*/retail/availability*
Disallow: /*/retail/availabilitySearch*
Disallow: /*/retail/pickupEligibility*
Disallow: /*/shop/*WebObjects/*
Disallow: /*/shop/1-800-MY-APPLE/*
Disallow: /*/shop/2322-consumer*
Disallow: /*/shop/account/setup*
Disallow: /*/shop/answer/vote*
Disallow: /*/shop/browse/campaigns/mobile_overlay*
Disallow: /*/shop/browse/overlay*
Disallow: /*/shop/button_availability*
Disallow: /*/shop/bag*
Disallow: /*/shop/change_password*
Disallow: /*/shop/checkout*
Disallow: /*/shop/create_account*
Disallow: /*/shop/favorites*
Disallow: /*/shop/identify_user*
Disallow: /*/shop/mobile/checkout/start*
Disallow: /*/shop/mobilex/*
Disallow: /*shop/np/order*
Disallow: /*shop/np/giftorguestorder*
Disallow: /*shop/np/sign_in*
Disallow: /*/shop/rs-mvt/rel/*
Disallow: /*/shop/sentry*
Disallow: /*/shop/sentryx/change_password*
Disallow: /*/shop/sentryx/create_account*
Disallow: /*/shop/sentryx/create_account_confirm*
Disallow: /*/shop/sentryx/identify_user*
Disallow: /*/shop/sentryx/sign_in*
Disallow: /*/shop/signed_in_account*
Disallow: /*/shop/sign_in*
Disallow: /*/shop/sign_out*
Disallow: /*/shop/socialsharing/*
Disallow: /*/shop/storeConfig*
Disallow: /*/shop/vieworder*
Disallow: /today*
Disallow: /*/variationSelection*
Disallow: /ae/*
Disallow: /am/*
Disallow: /apple-watch-nike/
Disallow: /apple-watch-hermes/
Disallow: /asia/*
Disallow: /at/*
Disallow: /au/*
Disallow: /befr/*
Disallow: /benl/*
Disallow: /bg/*
Disallow: /bh/*
Disallow: /br/*
Disallow: /bw/*
Disallow: /ca/*
Disallow: /ca/fr/*
Disallow: /cf/*
Disallow: /chde/*
Disallow: /chfr/*
Disallow: /ci/*
Disallow: /cl/*
Disallow: /cm/*
Disallow: /cn/*/aow/*
Disallow: /cn_cmb*
Disallow: /cn_abc*
Disallow: /cn_icbc*
Disallow: /cn_ccb*
Disallow: /*_kiosk*/shop/
Disallow: /co/*
Disallow: /cz/*
Disallow: /de/*
Disallow: /dk/*
Disallow: /ee/*
Disallow: /eg/*
Disallow: /es/*
Disallow: /fi/*
Disallow: /fr/*
Disallow: /gn/*
Disallow: /gq/*
Disallow: /go/awards/*
Disallow: /gr/*
Disallow: /gw/*
Disallow: /hk/*
Disallow: /hk/en/*
Disallow: /hk-zh/*
Disallow: /hr/*
Disallow: /hu/*
Disallow: /id/*
Disallow: /ie/*
Disallow: /il/*
Disallow: /in/*
Disallow: /it/*
Disallow: /jo/*
Disallow: /jp/*
Disallow: /ke/*
Disallow: /kr/*
Disallow: /kw/*
Disallow: /la/*
Disallow: /lae/*
Disallow: /li/*
Disallow: /lt/*
Disallow: /lu/*
Disallow: /lv/*
Disallow: /ma/*
Disallow: /md/*
Disallow: /me/*
Disallow: /mg/*
Disallow: /mk/*
Disallow: /ml/*
Disallow: /mo/*
Disallow: /mt/*
Disallow: /mu/*
Disallow: /mx/*
Disallow: /my/*
Disallow: /mz/*
Disallow: /ne/*
Disallow: /newsroom*
Disallow: /ng/*
Disallow: /nl/*
Disallow: /no/*
Disallow: /nz/*
Disallow: /om/*
Disallow: /ph/*
Disallow: /pl/*
Disallow: /pt/*
Disallow: /qa/*
Disallow: /retail/availability*
Disallow: /retail/availabilitySearch*
Disallow: /retail/pickupEligibility*
Disallow: /ro/*
Disallow: /ru/*
Disallow: /sa/*
Disallow: /se/*
Disallow: /sg/*
Disallow: /shop/*
Disallow: /si/*
Disallow: /sk/*
Disallow: /sn/*
Disallow: /today*
Disallow: /th/*
Disallow: /th-en/*
Disallow: /tmall/*
Disallow: /tn/*
Disallow: /tr/*
Disallow: /tw/*
Disallow: /ug/*
Disallow: /uk/*
Allow: /uk/tv-home/
Disallow: /vn/*
Disallow: /za/*
Disallow: /*_smb_*
Disallow: /*-hiEd/*
Disallow: /*-edu*

User-agent: HaoSouSpider
Disallow: */product-red/
Disallow: /*/retail/availability*
Disallow: /*/retail/availabilitySearch*
Disallow: /*/retail/pickupEligibility*
Disallow: /*/shop/*WebObjects/*
Disallow: /*/shop/1-800-MY-APPLE/*
Disallow: /*/shop/2322-consumer*
Disallow: /*/shop/account/setup*
Disallow: /*/shop/answer/vote*
Disallow: /*/shop/browse/campaigns/mobile_overlay*
Disallow: /*/shop/button_availability*
Disallow: /*/shop/bag*
Disallow: /*/shop/change_password*
Disallow: /*/shop/checkout*
Disallow: /*/shop/create_account*
Disallow: /*/shop/favorites*
Disallow: /*/shop/identify_user*
Disallow: /*/shop/mobile/checkout/start*
Disallow: /*/shop/mobilex/*
Disallow: /*shop/np/order*
Disallow: /*shop/np/giftorguestorder*
Disallow: /*shop/np/sign_in*
Disallow: /*/shop/rs-mvt/rel/*
Disallow: /*/shop/sentry*
Disallow: /*/shop/sentryx/change_password*
Disallow: /*/shop/sentryx/create_account*
Disallow: /*/shop/sentryx/create_account_confirm*
Disallow: /*/shop/sentryx/identify_user*
Disallow: /*/shop/sentryx/sign_in*
Disallow: /*/shop/signed_in_account*
Disallow: /*/shop/sign_in*
Disallow: /*/shop/sign_out*
Disallow: /*/shop/socialsharing/*
Disallow: /*/shop/storeConfig*
Disallow: /*/shop/variationSelection*
Disallow: /*/shop/vieworder*
Disallow: /apple-watch-nike/
Disallow: /apple-watch-hermes/
Disallow: /cn/*/aow/*
Disallow: /newsroom/notifications/*
Disallow: /retail/availability*
Disallow: /retail/availabilitySearch*
Disallow: /retail/pickupEligibility*
Disallow: /shop/bag*
Disallow: */search/*
Disallow: /tmall/*
Disallow: /cn_cmb*
Disallow: /cn_abc*
Disallow: /cn_icbc*
Disallow: /cn_ccb*

User-agent: Sogou web spider
Disallow: /*
Allow: /cn/*
Allow: /cn-k12/*

User-agent: Sogou inst spider
Disallow: /*
Allow: /cn/*
Allow: /cn-k12/*

User-agent: Sogou spider2
Disallow: /*
Allow: /cn/*
Allow: /cn-k12/*

DaumWebMasterTool:fe46641ef2e4f3f25544ad9d70c6029df24dd184fad54154abaa3c263cf5a09a:DJh5xomiTcQ+2b1qsxHOUA==

Sitemap: https://www.apple.com/shop/sitemap.xml
Sitemap: https://www.apple.com/autopush/robots/compare-sitemap.xml
Sitemap: https://www.apple.com/autopush/sitemap/sitemap-index.xml
Sitemap: https://www.apple.com/newsroom/sitemap.xml
Sitemap: https://www.apple.com/retail/sitemap/sitemap.xml
Sitemap: https://www.apple.com/today/sitemap.xml

Diferente do exemplo do G1, na Apple o Robots tem diretrizes por useragent. Já em relação ao uso de Regex, eles seguem o padrão mencionado no post de usar *. Além disso, eles fazem questão de deixar claro que existem vários sitemaps publicados (possivelmente para áreas diferentes).

Como atualizar o cache do Robots.txt 

  • Acesse o arquivo robots.txt no seu servidor
  • Faça as mudanças que deseja nele
  • Teste as alterações usando a Ferramenta de Teste do Robots.txt no Google Search Console (GSC) 
  • Se estiver tudo certo, é só pedir ao Google para atualizar o arquivo robots.txt. O caminho é: GSC > Rastreamento> Ferramenta de Teste do Robots.txt> Solicitar Indexação ou Enviar
  • Aguarde o buscador processar o seu pedido e fazer a atualização solicitada por você.( o que costuma ocorrer em algumas horas)
  • Verifique se as mudanças funcionaram conforme o esperado 
  • Certifique-se de entender como as alterações nos robots.txt afetam o comportamento do rastreador do Google no seu site

Conclusão

Criar Robots txt. para o seu site é fundamental para melhorar o SEO porque é esse arquivo de texto que  vai otimizar tempo dos robôs do Google na hora de rastrear as páginas. 

E isso reduzirá o Crawl Budget e consequentemente ajudará a indexação ser mais rápida já que você facilitou a vida dos bots do buscador ao conter também os caminhos que eles devem percorrer (permitidos e proibidos) em relação ao Sitemap.

Mas, vale lembrar que os Robots. txt precisam ser atualizados regularmente. Isso porque páginas novas podem ser abertas e páginas antigas excluídas. 

E até mesmo algumas estratégias do negócio podem mudar e um conteúdo que antes fazia sentido estar indexado e bem posicionado no Google pode precisar deixar de ser indexado. 

Além disso, um estudo realizado pela Search Lab analisou 40.000 páginas de e-commerces do Brasil e apontou que algumas páginas com pouco tráfego podem impactar o resultado de SEO. E apresentou como um dos insights não indexá-las para não atrapalhar a performance global do seu site.

Aprenda SEO com nossos materiais gratuitos. Eles foram criados para facilitar sua estratégia!

Dúvidas frequentes sobre Robots.txt

Search Lab

Search Lab

A equipe da Search Lab é composta por analistas de SEO, desenvolvedores frontend, redatores, etc. Todos com uma característica em comum: a paixão por SEO.
Compartilhe esse conteúdo:

Posts relacionados