Cum să: robots.txt pentru wordpress

Tagged Under : , ,

Robots.txt este un fişier text ce are rolul de a informa spiderii ce anume au voie de indexeze şi ce nu. Vom discuta doar de spiderii care se comportă normal precum Google bot, trebuie să ştim că există unii destul de agresivi despre care vom vorbi cu altă ocazie. Acestora le vom interzice accesul prin alte metode!

Definim în primul rând spiderul, în cazul de faţă includem toţi spiderii

User-agent: *

Îi interzicem accesul la anumite directoare pe care nu le dorim indexate, care nu conţin informaţii utile pentru un motor de căutare.

Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes

Pentru a evita conţinutul duplicat

Disallow: /trackback
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /tag/
Disallow: /page/
Disallow: */feed/

În directorul wp-content/uploads am încărcat imagini şi alte tipuri de fişiere pe care le dorim indexate, nu?

Allow: /wp-content/uploads

Cum spiderul pentru imagini este diferit îi acordăm acces total

# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*

.. acceaşi idee şi pentru spiderul Adsense, dacă aveţi reclame în pagină.

# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*

Ar fi o bună idee să aducem aminte spiderilor că avem şi un sitemap.xml, nu?

Sitemap: http://www.domeniultau.com/sitemap.xml

Cam asta ar fi, downloadează fişierul ataşat şi modifică ultima linie cu adresa blogului tău. Enjoy it!

Download