Googlebot

Googlebot er Googles robot til webcrawling (kaldes også en "spider"). Gennemgang ("crawling") er den proces, hvor Googlebot finder nye og opdaterede sider, der skal føjes til Google-indekset.

Vi bruger en stor mængde computere til at hente og gennemgå (eller "crawle") milliarder af sider på internettet. Googlebot bruger en algoritmisk procedure: Computerprogrammer bestemmer, hvilke websites der skal crawles, hvor ofte, og hvor mange sider der skal hentes fra hvert website.

Sådan får Googlebot adgang til dit website

For det meste besøger Googlebot ikke dit website mere end én gang for hver få sekunder i gennemsnit. På grund af netværksforsinkelser kan hastigheden dog i korte perioder virke lidt højere.

Googlebot blev udviklet til distribution på flere maskiner for at forbedre ydeevnen og omfanget, i takt med at internettet voksede. Vi anvender mange webcrawlere på maskiner, der er placeret i nærheden af de websites, de indekserer på netværket, for at reducere brugen af båndbredden. Derfor kan dine logfiler vise besøg fra flere maskiner på google.com, som alle har brugeragenten Googlebot. Vores mål er at gennemgå så mange sider på dit website, som vi kan under hvert besøg, uden at overbelaste din servers båndbredde. Anmod om en ændring af gennemgangshastigheden.

Bloker Googlebots adgang til indhold på dit website

Det er næsten umuligt at holde en webserver hemmelig ved ikke at offentliggøre links til den. Når nogen følger et link fra din "hemmelige" server til en anden webserver, kan din "hemmelige" webadresse blive vist i henvisningstagget og gemt og offentliggjort af den anden webserver i dens henvisningslogfil. På samme måde har nettet mange forældede og brudte links. Når nogen offentliggør et ukorrekt link til dit website eller undlader at opdatere links, så de afspejler ændringerne på din server, vil Googlebot forsøge at downloade et ukorrekt link fra dit website.

Hvis du vil forhindre Googlebot i at gennemgå indholdet på dit website, har du flere muligheder. Vær opmærksom på forskellen mellem at forhindre Googlebot i at gennemgå en side, forhindre Googlebot i at indeksere en side og forhindre siden i at være tilgængelig i det hele taget for både webcrawlere og brugere.

Problemer med spammere og andre brugeragenter

De IP-adresser, som Googlebot bruger, ændrer sig fra tid til anden. Googlebot identificerer sig selv via en brugeragentstreng, men den kan være forfalsket. Den bedste måde at identificere besøg af Googlebot på er ved at bruge et omvendt DNS-opslag.

Googlebot og alle hæderlige søgemaskinerobotter vil respektere anvisningerne i robots.txt, men nogle uvelkomne gæster og spammere respekterer dem ikke. Rapportér spam til Google.

Google har adskillige andre brugeragenter, bl.a. Feedfetcher (brugeragent Feedfetcher-Google). Eftersom Feedfetcher-anmodninger kommer fra eksplicitte handlinger foretaget af mennesker, der har føjet feeds til deres Google-startside, og ikke fra automatiske crawlere, så følger Feedfetcher ikke retningslinjerne for robots.txt. Du kan forhindre Feedfetcher i at gennemgå dit website ved at konfigurere din server til at levere en fejlmeddelelse, f.eks. 404 eller 410, til brugeragenten Feedfetcher-Google. Flere oplysninger om Feedfetcher.

Var denne artikel nyttig?
Hvordan kan vi forbedre siden?