Robots.txt – Hvad, hvorfor og hvordan?

Kim Andersen | 27. februar 2008 | 21:21

Denne fil er en fil, som jeg ikke selv har brugt ret meget før i tiden. Simpelthen fordi jeg ikke vidste at der fandtes en. Det er heller ikke et krav at den findes for at en hjememside kan fungere, men den er alligevel temmelig brugbar.

Måden hvorpå jeg fandt ud af at der fandtes en fil kaldet robots.txt, var da jeg havde købt mit domæne, kunne jeg se at der var mange tilfælde af, at nogle filer ikke kunne findes på mit domæne. Det undrede jeg mig selvfølgelig over, og så, at 76 ud af 81 tilfælde var det robots.txt der ikke kunne findes. Derfor satte jeg mig for at finde ud af hvad det var, og det er der kommet denne lille artikel ud af.

Hvad er en robots.txt-fil?
En robots.txt-fil er en lille fil, som styrer hvor søgemaskinernes robotter bevæger sig hen på dit website. Hvis man ikke har en robots.txt-fil så kan robotterne bevæge sig rundt overalt på websitet, og det er ikke sikkert man er interesseret i det. Det kan eksempelvis være nogle feriebilleder, gamle arkiv-artikler, sider som er beskyttet med password eller andre ting, som man egentlig gerne vil beholde for sig selv, og ikke skal offentliggøres til hele verden.

Det korte af det lange er, at når eksempelvis Googles robot (googlebot) kommer ind på dit website, søger den som det første efter robots.txt, for at se hvad den må og ikke må. Derfor skal robots.txt ligge i roden af dit website. I samme mappe som index-filen som regel. Min ligger eks. her www.designcreative.dk/robots.txt.

Hvad skal robots.txt indeholde?
Der er to parametre man skal beskrive når man laver sin robots.txt-fil. Hvilke robotter gælder reglerne for, og hvilke regler er det som gælder. Det skrives som:

– Hvilke robotter gælder reglerne for:
Skrives som “User-agent:” og her beskriver man om det skal gælde for alle robotter vha. * eller man kan skrive navnet på en specifik robot.

– Hvilke regler gælder:
Her skriver man “Disallow:” efterfulgt af hvilke mapper eller filer som en robot ikke må indeksere.

Da det kun er to parametre er det faktisk simpelt at skrive en robots.txt-fil. Her er nogle eksempler på hvordan de kan se ud:

Alle robotter må se alt:

User-agent: *
Disallow:

* beskriver som sagt alle robotter, og hvis der ikke står noget ud for Disallow er der ikke noget som robotterne ikke må indeksere.

Ingen robotter må se noget:

User-agent: *
Disallow: /

Når der står / gælder det for hele den mappe som robots.txt ligger i, svarende til hele websitet, da filen jo ligger i roden.

Ingen robotter må se en bestemt mappe:

User-agent: *
Disallow: /gamle_artikler/

Gælder igen for alle robotter da User agent er * og det gælder for mappen “gamle_artikler”, så denne mappe og hele indholdet i mappen må ikke indekseres.
Man kan også skrive /gamle_artikler/september/ så er det kun mappen “september” robotterne ikke må indeksere, men alle andre filer og mapper i “gamle_artikler”, må gerne indekseres.

En bestemt robot (i dette tilfælde googlebot) må se alt, mens alle andre robotter ikke må se noget:

User-agent: googlebot
Disallow:

User-agent: *
Disallow: /

Første linie giver googlebot adgang til alt, imens anden linie forbyder alle andre robotter at indeksere noget.

Bestemte filer må ikke læses:
Hvis man har nogle filer som man ikke vil have indekseret kan man lægge dem i en samlet mappe, eller referere til dem enkeltvis.

User-agent: *
Disallow: /gamle_artikler/1986.html
Disallow: /gamle_artikler/1987.html
Disallow: /gamle_artikler/1988.html

Nu er der ikke adgang til de tre ovenstående filer, og reglen gælder for alle robotter.

Man siger hele tiden hvad robotterne ikke må se. Kan man fortælle dem hvad de gerne må se?
Ja. nogle robotter kan godt forstå parametren “Allow:”. En af disse robotter er googlebot. Så ligesom man kan fortælle en robot at den ikke må indeksere bestemte dele, kan man altså også sige hvad visse robotter gerne må se:

User-agent: googlebot
Disallow: /
Allow: /nye_artikler/

Her siger vi til googlebot at den må se mappen “nye_artikler”, men så heller ikke mere.
NB! Det skal siges at det ikke er alle robotter der kan forstå Allow-parametren, så tjek den enkelte robot før de bruger den. Se en liste med over 300 robotter og en beskrivelse af hver bl.a. deres “User-agent”-navn.

Husk så til sidst at det ikke kun er robotterne som kan læse dine robots.txt-filer, men også alle almindelige mennesker. Hvis man skriver en URL såsom www.eb.dk, og så tilføjer /robots.txt så kommer man i langt de fleste tilfælde ind på den pågældende sides robots.txt-fil. (Det gælder også de store sites som eks. Microsoft og Google. Du kan jo prøve og se hvordan deres ser ud, da de er lidt længere end dem jeg har omtalt…)
Derfor er det en dum ide at lave en robots.txt som indeholder:

User-agent: *
Disallow: /mine_meget_private_billeder/

For hvor tror du så folk prøver at komme hen? Man kan så lave noget password og sådan noget, men der er folk som er gode til at knække koder, så tænk dig om inden du gør noget dumt.

Kategorier: Webudvikling
: RSS Kommentarer

2 Svar

[...] Lav en ordentlig robots.txt-fil Det er slet ikke så

5 ting der kan fucke din crawling/indeksering op | 21. juli 2008 | 16:03

[…] Lav en ordentlig robots.txt-fil Det er slet ikke så svært at lave en ordentlig robots.txt. Hvis du vil kan du bare lade robotterne få lov til at se alt, men lige meget hvad du gør, så […]

[...] selvfølgelig have adgang til disse billeder, og så nytter

8 råd om at optimere sine billeder til Googles Billedsøgning | 26. november 2008 | 17:01

[…] selvfølgelig have adgang til disse billeder, og så nytter det ikke noget at du nægter adgang i robots.txt eller […]

Kim Andersen

Robots.txt – Hvad, hvorfor og hvordan?

Kunne du lide indlæget?

2 Svar

[...] Lav en ordentlig robots.txt-fil Det er slet ikke så

[...] selvfølgelig have adgang til disse billeder, og så nytter

Efterlad en kommentar

Seneste Kommentarer

Kategorier

Meta