Como Criar Robots.txt para SEO
O arquivo robots.txt é muito importante para as ferramentas de busca, talvez nunca tenha ouvido falar sobre, mas ele pode ser considerado um pedaço de arquivo de texto que faz parte de todos os sites na internet e avisa o que deve ser ignorado pelas ferramentas de pesquisas.
Quando você cria um site, os mecanismos de busca enviam bots de reconhecimento para rastreá-lo e identificar todas suas páginas, desta forma, quando alguém procura por palavras-chaves relacionadas ao tema, eles sabem quais sites mostrar.
Por meio do arquivo robots.txt, também conhecido como protocolo ou padrão de exclusão de robôs, se define as partes do site que não devem aparecer nos resultados de pesquisa.
Bots
O robots.txt fornece um conjunto de instruções aos bots, bloqueando determinados diretórios e, portanto, retirando automaticamente páginas e conteúdo de um site, dos resultados dos sites de busca.
O arquivo também é bastante flexível, permitindo que várias regras sejam aplicadas no mesmo, tendo assim diferentes comportamentos entre os bots. Simplificando, ele é um arquivo de texto que, de acordo com a sua escolha, informa aos robôs da internet (ferramentas de busca) quais páginas do seu site encontrar.
Você deve se perguntar porque esconder uma parte do seu conteúdo pode ser tão importante e útil no contexto de SEO, e vou explicar sucintamente.
Limite
Ao usar robots.txt, você pode ajudar os robôs das ferramentas de busca a usar bem o limite de rastreamento, pois antes de chegar nas páginas procuradas eles vão checá-las. Ele também torna possível que só as partes que você quer sejam acessadas no site.
Se seu site inteiro for rastreado, sem um direcionamento, vai levar muito tempo, o que pode ter efeitos negativos no seu ranqueamento. Isso ocorre porque várias ferramentas de pesquisa, como o Google, tem um limite de rastreamento, que é basicamente uma taxa de rastreamento e de números de URLs que podem ser buscadas.
Para obter a melhor performance nos resultados de busca, é ideal auxiliar os mecanismos para que foquem nas páginas de maior valor e utilidade, evitando as desnecessárias. Assim será indexado apenas o melhor conteúdo, sem um desempenho comprometido por uma baixa velocidade de carregamento e no servidor de acesso.
Se os robôs de ferramentas de busca usarem seus limites de forma correta, serão capazes de organizar e expor o seu conteúdo da melhor maneira, dando maior visibilidade ao seu site. Além disso, o uso do arquivo permite que se evite indexação de páginas logadas ou detentoras de arquivos privados, conteúdo duplicado, páginas de agradecimento e o que mais você tiver em mente.
Implementação
O robots.txt pode ser tão detalhado quanto você almejar, sendo que após criado é fácil implementá-lo quando achar necessário. Para criá-lo você não precisa possuir muitos conhecimentos técnicos, o essencial é que tenha acesso ao código-fonte do seu site.
Ele deve ser colocado no diretório raiz (public html ou www, ou o nome do próprio site), e é o primeiro arquivo que os bots de busca procuram.
Um exemplo de arquivo que impediria a indexação do site inteiro por todas as ferramentas de busca é:
Disallow: /
Regras
O User-agent declara em quais bots as regras se aplicam, ele pode ter nomes específicos, como bingbot, que é o bot executável do Bing, ou genéricos, como o asterisco que significa “tudo”. Isto é, as regras são universais e se aplicam a todos os mecanismos de busca.
Um exemplo usual seria evitar a indexação de pastas com conteúdo privado do seu site. Como é demonstrado abaixo:
User-agent: *
Disallow: /cgi-bin/ #scripts e programas
Disallow: /logado/
Disallow: /tmp/ #parte de testes
Disallow: /private/ #arquivos da empresa
O sinal de tralha (#) serve para comentários, onde o usuário pode detalhar o que almeja, ele não influencia na programação.
Outro exemplo genérico é:
User-agent: *
Allow: /
# Disallowed Sub-Directories
Disallow: /checkout/
Disallow: /images/
Disallow: /forum/
Desta maneira, as ferramentas não irão indexar diversos tópicos em que os usuários mal interagem. Vão indexar apenas os tópicos mais importante.
Exemplos
A linha Allow: / determina que os bots varram todas as páginas de um site, menos as que aparecem determinadas abaixo dela. Já a linha Disallow é referente ao conteúdo que pretende desabilitar, você pode usar um comando para impedir robôs de rastrear páginas específicas, simplesmente digitando a parte da URL que vem depois de .com.
É preciso esclarecer que as vezes os bots não seguem as instruções que você põe nos arquivos robots.txt, mas são casos que não ocorrem com frequência.
Abaixo está mais um exemplo, dessa vez focado no que você deve fazer no seu primeiro arquivo robots.txt :
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
As duas regras acima abrangem o que grande parte dos sites básicos necessitam para serem localizados nos motores de busca.
SEO
Tradicionalmente, os diretórios wp-admin e wp-includes são bloqueados, porém esse costume vem sido abandonado, pois se você adicionar metadados nas suas imagens para fins de SEO, proibir os bots de encontrarem essa informação é incoerente.
Outros diretivos importantes são: noindex e nofollow. O primeiro trabalha junto com o dissalow para garantir que as páginas não sejam indexadas. Já o segundo avisa para que os robôs não vasculhem os links de uma página, mas ele tem uma implementação diferenciada.
Para criar o arquivo robots.txt portanto é preciso primeiramente decidir o que vai ser incluído nele. Depois, você pode fazê-lo manualmente ou usando um plugin específico (como o Yoast SEO e o All in One SEO Pack).
Os exemplos apresentados anteriormente se referem exatamente a criação manual, você deve criar o programa em seu editor de texto de preferência e depois salvar o arquivo, usando qualquer nome e tipo (de arquivo .txt) que quiser.
Yoast SEO
Vou ensiná-los a criá-lo com o Yoast SEO, apenas como um modelo de técnica divergente. Primeiramente é necessário instalar e ativar o plugin. Navegue até SEO > Ferramentas, no painel de controle e procure pela opção Editor de Arquivo. Clicando nela você será levado a uma nova página, onde poderá editar o seu arquivo .htaccess sem sair do painel de controle do seu site.
Também há um botão chamado Criar arquivo robots.txt, que faz exatamente o que se propõe no nome. Clicando nele, um novo editor vai abrir e você poderá modificar diretamente seu arquivo robots.txt.
O Yoast SEO possui suas próprias regras por padrão, que substituem o arquivo robots.txt virtual existente, então para adicionar ou remover regras, lembre-se de clicar no botão Salvar alterações em robots.txt.
Para testar seu arquivo você pode usar diversas ferramentas disponibilizadas pelo próprio Google, que além de verificar a funcionalidade, indicará também possíveis erros, além de ajudar a monitorar como seu conteúdo aparece nos resultados dos motores de busca.
Para finalizar é importante ressaltar que não existem regras absolutas para quais páginas desabilitar. O seu arquivo robots.txt será único em seu site, dependendo exclusivamente do conteúdo que você tem disponível e que existem diversas maneiras de obter vantagens com esse arquivo. Use o seu melhor julgamento para que ele lhe proporcione um aumento na visibilidade de busca.