Kjapp og trygg hosting for Wordpress

Verktøy for å telle sider på et nettsted

Kenneth Dreyer

Well-Known Member
Hei,

Er det noen som vet om et verktøy som teller antall sider på et nettsted? Hadde vært kjekt med et verktøy som teller hvor mange sider den finner ved å crawle seg gjennom hele nettstedet. Gjerne om den gir en slags rapport på hvor mange av dem som kan anses som duplikater også.

Kan være greit å slippe til et slikt verktøy før man slipper inn google sine crawlere tenkte jeg.
 

Kenneth Dreyer

Well-Known Member
Kanskje på tide å leie inn noen til å lage det da.. hehe!

hva slags teknologi ville fungert best for det? Regner med man nesten kunne brukt PHP om det var et nettsted med 10-20 sider, men blir vel verre om det er flere hundre sider. Flere tusen blir vel nesten uaktuelt uten å ha noe dedikerte greier for det!
 

Kenneth Dreyer

Well-Known Member
Greia er at jeg ikke bare vil ha en som teller nettsidene, men også måler dem opp mot hverandre så dem kan fortelle meg om det er noen duplikater i faresonen! Det ville jo vært et kjekt verktøy for de som lanserer et nytt nettsted på nytt domene!
 

OffaH_

Medlem
Å telle antall unike lenker er ikke noe problem å lage. PHP kan gjøre jobben, men Java eller liknede er å foretrekke pga multi threading. Om man skal sammenlikne duplikater får man fort et problem om det er mange sider, siden man ikke kan gjøre sammenligner i minnet, men må lagre i database. Skal man sammenlikne duplikater kommer også spørsmålet om hva som er å regne for duplikat, og da har man plutselig en vanskelig problemstilling.
 

Kenneth Dreyer

Well-Known Member
Det var vel egentlig noe database basert jeg kunne tenke meg. Nettstedet vil bestå av ca 80-150 sider under oppstart. Er vel ikke så vanskelig å lage noe som sjekker duplikater vil jeg tro. Kan jo veie opp mot et prosenttall så varsles det om alle nettsider som er f.eks 90% eller mer like.
 

Kenneth Dreyer

Well-Known Member
Selvfølgelig.. kunne ikke satt den til å scanne gjennom vg.no! For min del ville det blitt brukt hovedsakelig i forbindelse med nye nettsteder. Kan være greit å vite hvordan man ligger på duplikatfronten før man lanserer av og til - spesielt når man selv ikke har laget innholdet. Hadde vært en herlig bonus om den gjorde noen raske søk mot google også for å se om innholdet er scrapet fra et sted (det hadde vært spesielt viktig om man bygger for en kunde som har prøvd seg på en sleip en med å kopiere litt fra wikipedia).

Om det er en side med et par hundre undersider tror jeg ikke PHP hadde vært det mest optimale, men jeg har absolutt ingen anelse om hva slags teknologi som hadde vært best å bruke.
 
Topp