5 ting der kan fucke din crawling/indeksering op
Der er mange ting man skal tænke over når man vil findes af Google eller en af de andre søgemaskiner. For det allerførste skal robotterne/spiderne fra søgemaskinerne kunne finde dit indhold, og her er der mange ting som kan ødelægge det for dig.
Jeg har lige hurtigt listet 5 punkter op, som man i hvert fald skal tænke over, omkring det at blive fundet og crawlet af en spider:
– Forskelligt indhold på samme URL
Pas på med dette. Hav altid kun én type indhold på én URL. Hvis dit site er bygget op med eksempelvis AJAX, og kan skifte selve indholdsdelen på dit site, UDEN at skifte URL’en skal du tænke dig ekstra godt om.
For hvis en spider fra en søgemaskine kommer forbi ’ditdomæne.dk’ og ser noget indhold så er det gemt og lagret, og spideren vil videre. Den ser måske ikke alt det gode indhold som du ellers har på sitet, fordi det simpelthen ikke er synligt for den, hvis det hele findes på samme URL.
– Din interne linkstruktur er dårlig kodet
Hvis du har fået lavet et fedt website som er helt up-to-date med designet, og der måske er en vild menu som kan skifte farve, afspille lyde og folde sig ud hver gang man trykker på den, så kan du være i farezonen.
For hvis din menu er lavet med JavaScript, så kan robotterne simpelthen ikke forstå det. Derved kommer robotterne ikke længere end til din forside.
For ikke ret lang tid siden, var der samme problem med menuer lavet i Flash, men det problem burde, i forhold til Google, være ude af verdenen.
– Lav en ordentlig robots.txt-fil
Det er slet ikke så svært at lave en ordentlig robots.txt. Hvis du vil kan du bare lade robotterne få lov til at se alt, men lige meget hvad du gør, så må du ikke fucke den op!
Hvis du skriver:
User-agent: *
Disallow: /
Så bliver dit site simpelthen ikke crawlet af nogen som helst robotter. Så selvom det er en lille ting, så sørg for at have den i orden.
– Samme indhold på flere URL’er
Som jeg beskrev tidligere, så sørg for at have en unik URL til hver underside på dit website. Hvis dit indhold findes på flere forskellige URL’er, kan du risikere at Google tror det er tegn på snyd, og deranker dig pga. duplicate content. Thomas Rosenstand har for nylig skrevet en god artikel om lige præcis dette emne.
– Pas på med for mange variabler i dine URL’er
Dette punkt kan måske godt udelades, men jeg tog det med for god ordens skyld. Efter hånden som tiden er gået, har Googles robotter ikke besvær med at crawle disse lange og indviklede URL’er mere.
Du skal nok blive fundet af googlebot, men hvad med andre og fremtidige robotter. Kan de også finde ud af det?
Det kan de muligvis også godt, men hvorfor tage chancen.
Jeg har kun beskrevet nogle få ting som man skal være opmærksom på, men disse ting kan virkelig få dig i fedtefadet mht. crawling og placering af dit site. Har du flere gode råd så kom endelig med dem i kommentarerne…
God write up! Lad mig sige, at hvis man ikke
Rosenstand | 21. juli 2008 | 16:24God write up! Lad mig sige, at hvis man ikke har noget på sit site, man ønsker at “gemme” for spiderne, skal man bare helt undlade at bruge en robots.txt – den har KUN et formål, hvis der er mapper / filer, man ønsker at ekskludere fra crawl.
Alt for mange bruger robots.txt forkert – og kun få af disse har et reelt behov for at bruge den.
En historie fra det virkelige liv: Jeg hjalp for et par år siden en dansk virksomhed, der var nærmest i panik. De havde haft flere såkaldte “eksperter” på banen, men intet hjalp: De kunne ikke Google til at indeksere to af deres fem sproglag. Stort mysterium. Et kvikt hoved her i huset foreslog et kig på deres robots.txt – og ganske rigtigt… Vi ændrede den, og en uge senere var de med på alle fem sprog.
Det er fedt med de der historier fra det virkelige
Kim Andersen | 21. juli 2008 | 16:33Det er fedt med de der historier fra det virkelige liv Thomas 🙂
Men det er utroligt at man ikke har sådan noget i orden, specielt hvis man har haft “eksperter” inde over. Også derfor jeg tog robots.txt med på listen fordi den simpelthen er så vital…
Et lille tip: Google Webmaster Central er GULD værd til
Søren Sprogø | 22. juli 2008 | 08:42Et lille tip: Google Webmaster Central er GULD værd til at holde øje med om man har crawler problemer!
Jeg har selv lige opdaget en alvorlig fejl på min blog via den, hvor Google pludseligt er begyndt at indeksere nogle helt forkerte URL’er.
[...] har adgang til billederne Det er en basal fejl
8 råd om at optimere sine billeder til Googles Billedsøgning | 26. november 2008 | 16:57[…] har adgang til billederne Det er en basal fejl man let kan lave, men pas nu på at du ikke fucker din indeksering up. Skal dine billeder findes i Google, skal googlebot selvfølgelig have adgang til disse billeder, […]