Robots.txt og underdomæne/subdomæne – Hvad skal man gøre?
Alle som læser herinde kender nok til robots.txt. Det er den lille fil som ligger i rodet af dit website, som fortæller alle webcrawlerne hvad de må, og hvad de ikke må på dit website.
Jeg har tidligere skrevet artiklen: Robots.txt – Hvad, hvorfor og hvordan?, så jeg vil ikke gennemgå hvad en robots.txt skal indeholde.
Hvad gør man når man har et subdomæne/underdomæne?
Man kan let komme ud for at der er brug for et underdomæne til forskellige ting. Det kan eks. være til test af nye ting på sit site, eller bare en ”underafdeling” til hovedsitet.
Men gælder den robots.txt man har liggende på sit hoveddomæne så også her? Nej.
Man skal sørge for at lave en ny og separat robots.txt-fil til sit underdomæne, hvis man vil lave nogle begrænsninger for robotterne.
Du kan tænke på det som et selvstændigt domæne. Hvis vi tager eksemplet fra før, hvor man har et testmiljø på ”test.domæne.dk”. Så vil man højest sandsynlig ikke have at nogle data fra dette underdomæne bliver indekseret. Derfor kan du oprette en robots.txt som siger at robotterne IKKE må indeksere det som ligger på ”test.domæne.dk”. Det gøres ved at skrive:
User-agent: *
Disallow: /
Nu bliver intet af dit indhold på ”test.domæne.dk” optaget i Google eller andre søgemaskiner. Og du skal ikke være bange for at du har blokeret for dit hoveddomæne, ”domæne.dk”, da det jo også har sin egen robots.txt (og heri står forhåbentlig ikke det samme som ovenstående, da du så har fucked din crawling op!).
Og lige til sidst. Du skal selvfølgelig huske at ligge din nye robots.txt det rigtige sted på serveren. Den skal ligge i roden af underdomænet, og ikke i roden af hele domænet, for så går det galt 🙂
Det var alt for mig i dag. I må have en god mandag…
Seneste Kommentarer