NOSNIPPET, NOARCHIVE, unavailable_after, robots.txt og META tags
Som jeg skrev i min tidligere artikel omkring robots META-tags, findes der flere funktioner eller regler, som visse robotter kan forstå. Disse funktioner er ikke standardiserede, men de fleste store robotter kan forstå dem. I hvert fald kan googlebot.
Hvis vi starter med robots.txt-filen, kan man fortælle robotterne at man har et sitemap over sin side. Det kan gøre på følgende måde:
Sitemap: http://www.eksempel.dk/sitemap.xml
Dette forståes af de store søgemaskiners robotter, såsom Google, Yahoo, MSN og ASK. Og det bruges af mange af de store virksomheder også, bl.a. er det skrevet i Microsoft’s robots.txt-fil hvor deres sitemaps befinder sig.
Lige en detalje vedrørende funktionen “Sitemap:”. Den er uafhængig af User-agent, så du kan faktisk indsætte den hvor du har lyst til, dog vil jeg foreslå at indsætte den til sidst i din robots.txt-fil.
Har man lyst til at indsætte en kommentar i sin robots.txt-fil kan dette også gøres ved at skrive et “#” efterfulgt af en kommentar. Det er ikke noget som påvirker læsningen af resten af robots.txt-filen robotter.
Har man bestemte URL-type, eksempelvis en URL som slutter på .pdf, eller en URL som indeholder et bestemt tegn som måske et &-tegn, kan disse også udelukkes. Det gøres således:
User-agent: *
Disallow: /*& #Udelukker alle URL’er som indeholder et $-tegn
Disallow: /*.pdf$ #$ fortæller robotterne at alle filer som ender på .pdf- ikke skal indexeres
Som du kan se ovenfor har jeg også indsat kommentarer, for at vise hvordan dette gøres.
Robots META-tags
De funktioner som jeg vil gennemgå nu, er nogle som bl.a. Googles Product Manager, Dan Crew, har været med til at udvikle, og derfor kan de følgende funktioner læses af googlebot, og muligvis også andre robotter.
Det handler om Robots META-tags, hvor man kan give “content” et andet indhold end dem jeg nævnte i min tidligere artikel.
Det første jeg gennemgår er et indhold af “content” som enten er NOARCHIVE eller NOSNIPPET.
Hvis du sætter contet=”NOARCHIVE” på en af dine sider, vil Google ikke oprette en link til en cached version af din side. Nogle af fordelene ved at der findes en cached version af din side er eks. hvis din side er nede, så kan folk stadig komme ind på den, hvis store nyhedssider er underpress pga. en stor begivenhed og derved mange besøgende på samme tid. Det kan også være at din side ved en fejl bliver slettet, har brugerne stadig mulighed for at komme ind. Og så er det så smart ved en cached version, at de søgeord en bruger har søgt på bliver fremhævet.
En af ulemperne, og det kan være grunden til at man måske vil bruge contene=”NOARCHIVE”, er hvis man har en side som bliver opdateret meget ofte, så kommer googlebot måske ikke forbi lige så ofte, og derved kan man se en uaktuel side. Det er måske relevant for nyhedssider.
En snippet er den lille stump tekst som står under din titel, i Googles søgeoversigt. Der kan være grunde til at man ikke vil have en tekst vist der, jeg ved ikke lige hvilken, men det kan altså lade sig gøre ved at sætte et robots meta-tag ind som ser således ud:
<META NAME=”ROBOTS” CONTENT=”NOSNIPPET”>
Det skal siges at hvis man sætter content=”NOSNIPPET”, bliver der hverken vist en snippet, men heller ikke nogen cache.
Den sidste funktion jeg vil beskrive er en kaldet unavailable_after. Her kan man give Google besked på at fjerne en bestemt side efter en bestemt dato. Det skrives således:
<META NAME=”GOOGLEBOT” CONTENT=”unavailable_after: 30-Aug-2009 14:00:00 EST”>
Her giver vi besked på at en bestemt side skal fjernes fra Google’s søgeresultater efter den 30. august 2009 kl 14.00 EST. (NB! tiden skal angives i EST).
Bruger man denne funktion skal man være opmærksom på at der godt kan gå op til et døgn, før virkningen træder i kraft. Og din side bliver ikke fjernet fra hele Google’s system, men kun fra søgeresultaterne. Hvis du vil have en side fjernet totalt fra Google’s system skal du bruge følgende link: http://googlewebmastercentral.blogspot.com/2007/04/requesting-removal-of-content-from-our.html
Man kan have flere grunde til at få fjernet en side på en bestemt tidspunkt. Hvis man eks. har en sæsonbetonet side, som kun gælder i et bestemt tidsrum, eller hvis man har en side som er åben for alle i en måned, men derefter kun for medlemmer.
Hvis man ahr en side som bliver fjernet, er det smart at bruge unavailable_after, da der ikke er nogle brugere som finder din side, og så ikke kan komme derind. Så det er mere brugervenligt, selvom brugerne ikke ved det.
Det var det for denne gang. Håber ikke artiklen er for lang men at den var brugbar.
Seneste Kommentarer