Pagini indexate, neintenționat

Paginile indexate de Google, dar fără valoare pentru utilizatori pot constitui un element negativ în evaluarea site-ului în procesul de ranking. Aceste linkuri reprezintă pagini care nu au conținut valoros, iar prin asta scade valoarea întregului site. Așadar, în procesul de optimizare SEO a site-ului trebuie să ne asigurăm că nu vom avea astfel de pagini indexate de Google. Cum ajungem sa avem pagini indexate fără voia și intenția noastră?

Diferența dintre crawling și indexare

Dorim să specificăm diferența dintre acești doi termeni pentru că reprezintă doi pași distincți. Crawling este etapa în care roboții motorului de căutare fac maparea linkurilor și accesează paginile respective. Iar indexarea acestor linkuri reprezintă înțelegerea și categorisirea conținutului pentru ca, ulterior, algoritmul Google să știe pentru ce căutări să le servească.

Specificare în fișierul robots.txt

În momentul în care lansam site-ul nostru este recomandat ca în robots.txt să specificăm care sunt acele url-uri care se pot indexa de către motoarele de căutare și care sunt acele adrese pentru care nu vrem crawl și indexare.

Pagina de logare

Astfel de pagini pentru care nu vrem crawl și indexare, pot fi, de exemplu, paginile de logare în cont. Cum arată o astfel de pagină de logare?

Pagina de logare la o platforma nationala de stiri
Pagină de logare la o platforma națională de știri

Pe acest ziar național cu conținut plătit, în fițierul robots.txt nu este permis motoarelor de căutare să indexeze paginile care conțin: login, newsletter – înscriere și search.

Fisier robots.txt pentru o platforma nationala de stiri
Fișier robots.txt pentru o platformă națională de știri

Dar am întâlnit site care, din cauza unor erori tehnice, a generat câte un link separat pentru fiecare încercare de logare.

Căutare cu filtre

Nu dorim linkuri generate nici pentru paginile create prin căutare cu diferite filtre în cazul magazinelor online. De exemplu, nu dorim să avem linkuri pe diverse categorii de produse în funcție de popularitate, preț ascendent sau descendent.

Procesul de cumpărare

Totodată, nu dorim indexarea linkurilor generate pe parcursul procesului de cumpărare. Aceste linkuri ale procesului de cumpărare ar conține în url-ul paginii cuvinte precum: addtocart, checkout, thank you etc.

Fisier robots.text pentru o platforma de ecommerce
Fișier robots.text pentru o platformă de e-commerce

Nu vrem ca aceste linkuri să apară ca fiind indexate în Google, deoarece aceste pagini nu au conținut relevant, așadar în ochii algoritmului Google nu reprezintă pagini cu valoare pentru utilizatori.

Best practice în industrie

Blocarea procesului de crawling și de indexare a acestor url-ul în fișierul robots este un best practice în industrie pentru a evita creare unor linkuri irelevante care vor avea un impact negativ asupra calității întregii pagini.

Cum este cazul unui site de e-commerce, unde această indexare nu a fost interzisă și s-au trezit ca din 780 de pagini indexate de Google, aproximativ 400 sa fie pagini de login. Soluția recomandată este specificarea noindex pentru paginile pentru care nu dorim crawling și în paralel opțiunea de Disallow în fișierul robots.txt

Soluția: noindex, nofollow

Ce ne facem când avem pagini indexate fără voia noastră și complet irelevante? Odată create aceste linkuri va trebui să le punem pe noindex și nofollow în Google Search Console. Această măsură este necesară pentru a nu permite nici crawling și nici indexarea acestora. Totodată prin nofollow îi specificam algoritmului instrucțiunea de a nu urmări linkurile deja create.

Într-o astfel de situație, odată deindexate paginile problemă, este recomandat să introducem în fișierul robots.txt, specificarea de disallow și url-urile aferente.

Lasă un comentariu