|
Robots.txt on tärkeä tiedosto hakukoneoptimoinnin kannalta: sitä käytetään sallimaan tai estämään joidenkin sivujen indeksointi hakukoneille.
Maalaisjärjellä ajateltuna indeksoinnin rajoittaminen kuulostaa tyhmältä, mutta maalainenkin ymmärtänee, että porkkanapenkistäkin pitää rikkaruohot kitkeä. Robots.txt:n avulla voi kitkeä hakukoneista sellaisia sivustoja, joita ei halua sinne. Näin pystytään kanavoimaan linkkivoimaa tehokkaammin. Yleisesti kannattaa sulkea hakukoneet pois ainakin seuraavilta sivuilta: - Virhesivut. Näitä käytetään esimerkiksi silloin, kun haluttua sivua ei löydy (virhe 404). Emme tietenkään halua, että joku saapuu hakukoneesta suoraan virhesivulle.
- Yhteydenottolomakkeet. Yhteystiedot kannattaa indeksoida, mutta jos sivulla on pelkkä yhteydenotto- tai palautelomake, ei se ole hyvä laskeutumissivu.
- Käyttäjien profiilit. Käyttäjät eivät välttämättä halua, että heistä löytyy tietoa hakukoneilla, mikäli ovat jättäneet yhteystietonsa vain rekisteröityäkseen sivuillesi.
- Tulostuksen esikatselu ja pdf-tiedostot. Joomlassa on toiminto, jolla artikkelista saa pdf-version ja tulostusversion omaan ikkunaan. Ensisijaisesti käyttäjälle tulisi tarjota artikkelia perusmuodossaan. Jos hän haluaa tulostaa tai tallettaa artikkelin, hän voi valita edellämainitun vaihtoehdon. Näin ollen hakukoneista pitäisi löytyä ensimmäisenä linkki artikkelisivulle.
Kaksois- eli duplikaattisisältö on ongelma hakukonetuloksissa. Tämä tarkoittaa yleensä sitä, että jollain hakusanalla Google ilmoittaa "Näyttääksemme kaikkein oleellisimmat tulokset olemme jättäneet pois joitakin kohteita, jotka ovat hyvin samankaltaisia kuin jo näytetyt". Tällöin Google on löytänyt sivustolta samaa sisältöä useammalta sivulta ja jättää näyttämättä osan tuloksista. Eräs tämän aiheuttaja voi olla edellä mainittu pdf-tiedosto tai tulostuksen esikatselu. Myös tämän vuoksi ne kannattaa rajata pois. Toinen tilanne voi olla artikkeleiden listaus: varsinkin blogeissa artikkeleita on mahdollista listata useilla eri tavoilla. Tällöin hakukoneet näkevät ne kaikki sivuina, joilla on samaa sisältöä. Siksi voi olla järkevää, ettei artikkeleiden listauksia indeksoida hakukoneille: haluamme mielummin, että kävijä saapuu suoraan asiaa käsittelevään artikkeliin, kuin kronologiseen listaan sivuston artikkeleista. Robots.txt:n käyttö
Robots.txt on tekstitiedosto, joka sijoitetaan domainin juureen. Tiedostoon ei tarvitse erikseen viitata, hakukonerobotit osaavat etsiä sitä muutenkin. Indeksointia voi rajoittaa disallow-käskyllä seuraavasti: Disallow: / Kieltää koko sivuston tutkimisen. Joskus tällekin voi olla käyttöä. Disallow: /users/profiles/ Kieltää hakemiston ja siinä olevat tiedostot ja alihakemistot botilta. Disallow: /tekstit/yksityinen.doc Kieltää yksittäisen tiedoston. Disallow: /wp Kieltää “wp”-alkuiset hakemistopolut ja juuressa olevat tiedostot (varo!). Disallow: *?* Kieltää kaikki URL-osoitteet joissa on kysymysmerkki. Käytännössä siis dynaamiset osoitteet. Disallow: *.php$ Kieltää kaikki osoitteet, joiden lopussa on “.php”. $-merkki on pakollinen: se tarkoittaa osoitteen loppua.
(lähde: http://nettibisnes.info/robots-txt-opas/ ) Hyvä keino hallinnoida linkkejä Joomlassa on käyttää Sh404Sef-komponenttia, tai jotain muuta komponenttia, joka muuttaa sivuston url-osoitteet hakukoneystävälliseen muotoon. Itse käytän edellämainittua komponenttia siten, että artikkelit näyttävät olevan omissa kategorian mukaisissa kansioissaan, ja jokainen artikkelin on tiedostossa, jonka pääte on html. Tämän jälkeen suljen robots.txt-tiedostossa pois kaikki dynaamiset osoitteet käskyllä Disallow: *?*. Näin jäävät pois mm. dynaamiset pdf-tiedostot, esikatselusivut ja sähköpostipohjat. Koska kaikki halutut tiedostot ovat html-päätteistiä, voidaan saman tien sulkea pois myös kaikki php-päätteiset tiedostot, ettei hakukone edes vahingossa listaa ohjelmatiedostoja. Sh404sef-komponentti tekee listaukset siten, että listauksen kansion nimi on "table". Tämän hakemiston listauksen voi kieltää siis käskyllä Disallow: /table/.
|