Pagini indexate, neintentionat

Paginile indexate de Google, dar fara valoare pentru utilizatori pot constitui un element negativ in evaluarea site-ului in procesul de ranking. Aceste linkuri reprezinta pagini care nu au continut valoros, iar prin asta scade valoarea intregului site. Asadar in procesul de optimizare SEO a site-ului trebuie sa ne asiguram ca nu vom avea astfel de pagini indexate de Google. Cum ajungem insa sa avem pagini indexate fara voia si intentia noastra?

Diferenta dintre crawling si indexare

Dorim sa specificam diferenta dintre acesti doi termeni pentru ca reprezinta doi pasi distincti. Crawling este etapa in care robotii motorului de cautare fac maparea linkurilor si acceseaza paginile respective. Iar indexarea acestor linkuri reprezinta intelegerea si categorisirea continutului pentru ca ulterior algoritmul Google sa stie pentru ce cautari sa le serveasca.

Specificare in fisierul robots.txt

In momentul in care lansam site-ul nostru este recomandat ca in robots.txt sa specificam care sunt  acele url-uri care se pot indexa de catre motoarele de cautare si care sunt acele adrese pentru care nu vrem crawl si indexare.

Pagina de logare

Astfel de pagini pentru care nu vrem crawl si indexare, pot fi, de exemplu, paginile de logare in cont. Cum arata o astfel de pagina de logare?

Pagina de logare la o platforma nationala de stiri
Pagina de logare la o platforma nationala de stiri

Pe acest ziar national cu continut platit, in fisierul robots.txt nu este permis motoarelor de cautare sa indexeze paginile care contin: login, newsletter-inscriere si search.

Fisier robots.txt pentru o platforma nationala de stiri
Fisier robots.txt pentru o platforma nationala de stiri

Dar am intalnit site care, din cauza unor erori tehnice, a generat cate un link separat pentru fiecare incercare de logare.

Cautare cu filtre

Nu dorim linkuri generate nici pentru paginile create prin cautare cu diferite filtre in cazul magazinelor online. De exemplu, nu dorim sa avem linkuri pe diverse categorii de produse in functie de popularitate, pret ascendent sau descendent.

Procesul de cumparare

Totodata nu dorim indexarea linkurilor generate pe parcursul procesului de cumparare. Aceste linkuri ale procesului de cumparare ar contine in url-ul paginii cuvinte precum: addtocart, checkout, thank you, etc.

Fisier robots.text pentru o platforma de ecommerce
Fisier robots.text pentru o platforma de ecommerce

Noi nu vrem ca aceste linkuri sa apara ca fiind indexate in Google deoarece aceste pagini nu au continut relevant, asadar nu in ochii algoritmului Google nu reprezinta pagini cu valoare pentru utilizatori.

Best practice in industrie

Blocarea procesului de crawling si de indexare a acestor url-ul in fisierul robots este un best practice in industrie pentru a evita creare unor linkuri irelevante care vor avea un impact negativ asupra calitatii intregii pagini.

Cum este cazul unui site de ecommerce, unde aceasta indexare nu a fost interzisa si s-au trezit ca din 780 de pagini indexate de Google, aproximativ 400 sa fie pagini de login. Solutia recomandata este specificarea noindex pentru paginile pentru care nu dorim crawling si in paralel optiunea de Disallow in fisierul robots.txt

Solutia: noindex, nofollow

Ce ne facem cand avem pagini indexate fara voia noastra si complet irelevante? Odata create aceste linkuri va trebui sa le punem pe noindex si nofollow, in Google Search Console. Aceasta masura este necesara pentru a nu permite nici crawling si nici indexarea acestora. Totodata prin nofollow ii specificam algoritmului instructiunea de a nu urmari linkurile deja create.

Intr-o astfel de situatie, odata deindexate paginile problema, este recomandat sa introducem in fisierul robots.txt, specificarea de disallow si url-urile aferente.

Lasă un comentariu