Stoppe uønskede roboter/boots

clinton4

Medlem
Hei,

Finnes det noen effektiv måte å sperre ute uønskede roboter/boots fra å crawle en nettside? Det er jo mulig å blokkere diverse land via IP for å ivertfall begrense dette, men dette blokkerer jo også snille roboter med IP fra de aktuelle landene.
 

tyr897

Medlem
Du må nesten definere uønskede, det kan jo være så mangt.


Dersom det er "snille" crawlere som overholder robots.txt, kan du jo banne de der fra.

Har de en spesifikk user-agent kan du banne den. F.eks. vha. .htaccess dersom du bruker apache, eller direkte i et server side script.

Eller så kan du prøve å banne kjente IPer for akkurat de spesifikke crawlerne.
 

Nextri

Rebel
Mange boter har en user agent som sier at de er en bot.
Hva slags boter er det du vil blokkere?

PHP:
function check_bot(){
		$botlist = array(   
                "Teoma",                   
                "alexa",
                "froogle",
                "inktomi",
                "looksmart",
                "URL_Spider_SQL",
                "Firefly",
                "NationalDirectory",
                "Ask Jeeves",
                "TECNOSEEK",
                "InfoSeek",
                "WebFindBot",
                "girafabot",
                "crawler",
                "www.galaxy.com",
                "Googlebot",
                "Scooter",
                "Slurp",
                "appie",
                "FAST",
                "WebBug",
                "Spade",
                "ZyBorg",
                "rabaz",
				"twiceler",
				"bing",
				"msnbot");
		$bot = false;
		foreach($botlist as $row) {
			if(eregi($row, $_SERVER['HTTP_USER_AGENT'])) {
				#we have a boot
				$bot = true;			
			}
		}
		return $bot;
}
 

clinton4

Medlem
Jeg tenker på roboter som er på leting etter epost adresser ol. og de som ikke respekterer robots.txt.
 

Pong

Jeg selger sʇɥƃıluʍop :)
De er ikke alltid lette å kjenne igjen. Bruker ofte en vanlig user agent string, så det vel kanskje kun mulig å kjenne de igjen basert på hvor mange sider de laster ned / sek.
Gulesider har noe slikt - laster du ned for mange pages med info, så får du en captcha etterhvert, hvis jeg husker rett.
 
Topp