Kuinka käytät meta robots ja robots.txt -protokollia – devaajan ohjeet indeksointiin

Haluatko poistaa nettisivusi tai -sivustosi Googlen hakutuloksista?

Kun luot esimerkiksi uutta ympäristöä verkkoon on Googlen indeksoinnin ymmärtämisestä ja sen huomioimisesta suuri apu. Hyvän hakukonenäkyvyyden ja -listauksen kannalta on tärkeää, ettei keskeneräinen kehitysympäristösi näy Googlen hakutuloksissa ennen aikojaan. Keskeneräiset osat onkin järkevintä piilottaa kokonaan Googlelta, ennen kuin ne on valmiita julkaistavaksi.
Kokosimme ohjeet siitä mitä indeksointi on ja kuinka voit ohjata tai estää sen täysin meta robots ja robots.txt -protokollien avulla!

Mitä sivujen indeksointi tarkoittaa?

Hakukoneoptimoinnissa indeksointi tarkoittaa hakukonebotin tekemää luettelointia hakukoneen omiin tiedostoihin. Botit selaavat verkossa olevia sivuja säännöllisesti ja lisäävät tästä kertyvää dataa automaattisesti omiin luetteloihinsa. Hyvän verkkonäkyvyyden kannalta on tärkeää, että sivuillasi on relevanttia ja mielenkiintoista sisältöä, mitä hakukoneet voivat ja haluavat indeksoida.

Nettisivut näkyvät hakutuloksissa vasta kun ne on indeksoitu eli löytyvät hakukoneen luetteloista. Yleensä tämä on tärkeä ja toivottu asia, mutta on myös tilanteita, milloin sivuja ei kannata pitää näkyvillä hakutuloksissa. Tälläisiä ei toivottuja tilanteita indeksoinnin kannalta voi olla esim. verkkosivusisältö, joka ei ole julkista, on maksumuurin takana tai vielä keskeneräinen.

Meta robots tag – estä Googlen indeksointi

Oikeaoppinen tapa poistaa sivujasi – tai vaikkapa kokonainen QA-ympäristö googlelta on meta robots -tag. Voit hyödyntää kyseistä tagia myös silloin, kun sivusi ovat jo aikaisemmin olleet googlen hakutuloksissa, mutta syystä tai toisesta haluat ne sieltä pois.

Voit käyttää meta robots tagia joko sivukohtaisesti, yhden sivun indeksoinnin estämiseen tai serverin puolella niin, että se blokkaa koko sivuston (tapa, jota suosittelemme tilanteessa, jossa haluat blokata kokonaisen kehitysympäristön). 

Ohjeita tagin käyttöön löydät Googlen sivuilta

Mikäli tilanteesi on kiireellinen, esim. QA-sivusto nousee hakutuloksissa ja asiakkaallesi on tärkeää, että se poistuu heti, voit pyytää Google Search Consolessa tietyt URL:it poistettavaksi hakutuloksista. Kun olet lisännyt sivullesi meta robots tagin, ilmoita URL Googlelle Search Consolessa. Tämän avulla Googlen tietää käydä sivusi mahdollisimman nopeasti uudestaan läpi, lukea blokkauksen ja poistaa sivun indeksoinnin.

Robots.txt -paranna sivusi indeksointia 

Kaikessa yksinkertaisuudessaan Robots.txt on tekstitiedosto, jonka voit lisätä domainiisi ja jonka avulla pystyt antamaan Googlelle lisätietoja siitä, miten sivustosi tulisi indeksoida. Robots.txt ei ole kokonaisvaltainen blokkaus tai poisto, vaan tapa joll voit ohjata googlen hakukonerobotteja.  Sen avulla pystyt antamaan ohjeita hakukoneroboteille, kuinka sivujasi tulisi lukea eli ”crawlata” ja kertoa mikäli jokin sivu on sellainen, ettei sitä tule lukea ollenkaan.

Samoin kuin sitemaps, robots.txt kannattaa lisätä oletuksena jokaiseen sivustoosi. Robots.txt-tiedostosi lopussa kannattaa lisäksi kertoa mistä sivustosi sitemap löytyy.

Esimerkkejä robots.txt:n käytöstä

Robots.txt, joka kieltää indeksoinnin: 

User-agent: *

Disallow: /

Robots.txt, joka antaa luvan kaikkien sivujen indeksointiin (default):  

User-agent: *

Allow: /

Sitemap: https://www.domain.com/sitemap.xml 

Yleinen WordPress robots.txt, joka blokkaa WP:sta turhia asioita: 

User-agent: * 

Disallow: /wp-admin/ 

Disallow: /trackback/ 

Disallow: /xmlrpc.php 

Disallow: /feed/ 

Allow: /wp-admin/admin-ajax.php 

Sitemap: https://example.com/sitemap.xml 

Semrushin sivuilta löydät esimerkin hyvin monimutkaisesta robots.txt:sta, jonka avulla voit blokata useita eri scriptejä. Kyseisessä esimerkissä koodi estää myös URLit joissa on UTM-parametrit ja postetaan tiettyjä dynaamisia sivuja. (/language, /results etc) 

Robots.txt on ns. kevyt menetelmä, jolla voit ohjata Googlen hakukonerobotteja indeksoimaan sivusi haluamallasi tavalla. Toisinkuin meta robots tag, Robots.txtin avulla voit esim. kertoa, että tietyt URL-polut tai sivuston osat eivät ole tärkeitä, eikä niitä tarvitse sisällyttää hakutuloksiin. Tällainen turha sivusto Googlelle voi olla esim. jäsensivusto, joka automaattisesti luo jokaiselle jäsenelle oman URLin. Kun sivu on hakukonenäkyvyyden kannalta turha, on parempi, että hakukonebotti voi sivuuttaa sen kokonaan.

Robots.txt asuu täällä.

HUOM! 
Meta robots tagi ei toimi mikäli robots.txt on kieltänyt indeksoinnin, koska Googlen on päästävä ensin käsiksi sivustoon nähhdäkseen no-index tagin. Toisin sanoen, mikäli meta robots tagisi ei näytä toimivan, varmista että robots.txt antaa Googlelle luvan tulla sivustollesi. 

Jaa artikkeli somessa

Selvitä miten voimme tuottaa hyötyä sinulle.

Jutellaanko?

Jätä yhteystietosi, ja löydetään yhdessä yritystäsi parhaiten palvelevat tekniset ratkaisut.

    Jutellaanko?

    Jätä yhteystietosi ja löydetään yhdessä yritystäsi parhaiten palvelevat ratkaisut.

      Scroll to Top