Eksperiment angående duplikat innhold

bjornfix · 15 Mai 2008

Jeg har akkurat satt opp et scenario for å forsøke å finne frem til hva nøyaktig duplikat innhold innebærer.

For å ikke famle fullstendig i blinde hadde jeg satt pris på tilbakemeldinger på om jeg tester dette på en slik måte at det er mulig å konkludere utifra resultatene når de kommer.

Så, spørsmålet mitt blir da:

Har jeg tenkt riktig i forhold til hva jeg tester?
Er det noe jeg ikke har tatt høyde for?
Er det noe du synes også burde vært testet?

Kjør debatt (jeg vet dette er veldig spissfindig og detaljert - men jeg forsøker her å få etablert noen fakta angående duplikat innhold).

Kenneth Dreyer · 15 Mai 2008

Jeg tror egentlig ikke den testen der vil gi noe særlig med klare resultater. Jeg foreslår heller at du finner deg en middels-liten nisje, kopierer innhold fra den siden som rankerer øverst og prøver å rankere forbi den med dens eget innhold - det kan jeg nesten garantere deg at du ikke vil klare! Og det er akkurat det jeg tror google mener med duplikatinnhold!

bjornfix · 15 Mai 2008

Nå er utgangspunktet mitt å etablere en basisplattform først. Det jeg mener med basisplattform er å få fastslått selvfølgelighetene (om det er noen).
Etter hva jeg kan se finnes det ikke noen annen metode for å kunne forske på dette enn å finne frem til et reprodusertbart grunnlag som man kan bygge på når man gir seg i kast med de mer avanserte aspektene ved det hele.

Forsklaget ditt er i og for seg bra, men grunnlaget som først må på plass mangler ut i fra det jeg skrev over her.

Et annet problem jeg ser i det du foreslår er at det er alt for mange ukjente faktorer om det skal gjøres slik. Dermed er det tusen-og-en grunner som KAN spille inn i resultatet. Derfor MÅ eksperimentet etter mitt skjønn gjøres med ikke-eksisterende ord.

Synspunkter?

Bizminizer · 15 Mai 2008

Kan du ikke ta og registrere endel domener med tilfeldige bokstaver som domenenavn, og først installere det som trengs etter en klar mal, og ranke den på ett eller annet obskurt ord. Når den er oppe i google, gjentar du prosessen på de andre domenene med nøyaktig lik fremgangsmåte og kopiert innhold, og ser hvor de havner.

picxx · 15 Mai 2008

Det jeg hadde syntes hadde vært intressant er om man kunne fått noe fakta når det gjelder dupliserende innhold på eget nettsted.
Om man f.eks. bruker wordpress og ikke legger nofollow på hverken kategorier eller arkiv vil google indeksere det samme innholdet, på samme side tre ganger. Vil man da på noen som helst måte bli straffet for dette.

At en godt etablert side rangerer godt med dupliserende innhold hentet fra en side som ikke er like etablert er bevist (har prøvd å finne siden, men finner ikke tilbake til den. skal legge inn link så snart jeg kommer over den igjen).

At to nye sider rangerer like godt på duplikatinnhold har jeg selv erfart (da det var en som scrapet mitt unike innhold og faktisk rangerte over meg i google før jeg hadde fått etablert siden bedre).

bjornfix · 15 Mai 2008

Som dere ser i beskrivelsen, så har jeg lagt duplisert innhold på følgende måte:

To mapper på samme hierarkiske nivå på Labs. En mappe nede i den ene mappen samt en kopi på et helt uindeksert domene (bas.42g.net)

Labs er veletablert, bas-domenet er nytt for Google. Så får vi se da hvor lang tid det tar før alle scenarioer er cachet.

Dersom bas-domenet ikke blir indeksert har vi en klar indikasjon på at Google skjønner at det er det samme innholdet som på Labs-domenet.
Dersom kun en mappe med innhold blir indeksert og beholder indekseringen over tid, tyder det på at Google har sortert bort kopiene.

Jeg tror i hvertfall at det skal være mulig å dra noen konklusjoner ut ifra hvordan jeg har satt opp eksperimentet.

bjornfix · 15 Mai 2008

picxx skrev:
Vil man da på noen som helst måte bli straffet for dette.

Veldig interessant problematikk. Dette er jo en sak "de lærde" strides om.

For min del tror jeg at en eventuell straff for dette i såfall er utilsiktet. Dersom Google finner det samme innholdet flere plasser vil de ikke vite algoritmisk hvordan de skal bestemme hva som er "originalen" og vil derfor heller ikke algoritmisk kunne gi en klar score på innholdet.

Det vi ikke må glemme (ifølge mine observasjoner - altså dette vet jeg ingenting om men gjetter som alle andre) er at det hele foregår med en score-tabell som utgangspunk. Dvs. at hver enkelt faktor som er med i ligningen blir tillagt en score eller et vekttall. Totalen i enden gir dermed en totalscore som bestemmer utgangspunktet for rankingen.

Dette danner så utgangspunkt for onpage-faktorene. Deretter gis det tilleggscore for de eksterne faktorene (altså linker).

Jeg gjetter på at den versjonen som har flest eksterne faktorer vil score høyest. Med eksterne faktorer regner jeg da interne og eksterne linker dvs. alt som er eksternt i forhold til selve siden.

Om alle eksterne faktorer er like, vil neppe Google klare å fastslå hvilken versjon som skal ranke høyest.

Ga dette noen mening? Innviklet forklaring var det i hvertfall..

semb · 18 Mai 2008

Det blir spennende å se hvordan Google behandler vår venn Ole Irgens sin nye blogg, derhardudetigjen.com. I utgangspunktet er jo dette så duplikat som det kan få blitt, i og med at hele bloggposter bare er hentet fra bloggen hans på itavisen.

Foreløpig er den ikke filtrert bort i supplemental index, men strengt tatt er det vel alle grunner til at den skal bli det?

synlig på google for enhver pris - Google-søk

Kenneth Dreyer · 18 Mai 2008

Jeg tror ikke det, med tanken på at det er latterlig lav konkurranse på det søkeordet!

semb · 18 Mai 2008

OK, så du mener med andre ord at bortfiltrering av duplikat-innhold bare skjer om det er mange indekserte sider ved relevante søk?

Etter min mening er det all grunn til å bortfltrere derhardudetigjen i og med at det ikke tilfører søketreffet noe ekstra verdi i og med at det samme innholdet er tilgjengelig på det mer respekterte domenet til ITavisen.

Men kanskje du har rett i at det ikke gjelder i slike tilfeller. Vi får vente og se.

bjornfix · 18 Mai 2008

Nettopp det dere nå begge snakker om er grunnen til at jeg satte igang med dette eksperimentet. Vi får se hva som skjer i begge scenarioer.

Kenneth Dreyer · 18 Mai 2008

har du noe tidsramme?

picxx · 18 Mai 2008

Semb : Hva mener du med bortfiltrering, og har du noen eksempler på at sider med duplikatinnhold blir dekreditert/'straffet' i google's SERP.

Personlig vil jeg tro at over tid vil den nye bloggen til Irgens rankere på de samme søkeordene som bloggen hans på ITavisen, men da bare et stykke lenger ned i SERP's.

bjornfix · 19 Mai 2008

Kenneth skrev:
har du noe tidsramme?

Tidsramme for eksperimentet? Nei. Det er løpende.

semb · 19 Mai 2008

Med bortfiltrering mener jeg at sidene legges i supplemental index, altså at dette er sider som ikke er utestengt, men som anses å være såpass like at de ikke tilfører SERPen noen ekstra verdi. Dette er slik jeg ser det det mest typiske eksemplet på "straff" pga duplikat-innhold.

Her er et eksempel (litt ekstremt men OK): "16.mai-kampen mellom Brann og Vålerenga på Brann stadion" - Google-søk

Som dere ser, er samme artikkel publisert på tre nettsteder. Baer en vises i SERPen, resten er "filtrert bort". Er dette også hva dere anser som duplikat-innhold, eller diskuterer vi ulike ting?

Eksperiment angående duplikat innhold

bjornfix

Bjørn Are Solstad, CEO, Devenia Ltd.

Kenneth Dreyer

Well-Known Member

bjornfix

Bjørn Are Solstad, CEO, Devenia Ltd.

Bizminizer

Medlem

picxx

WF 09

bjornfix

Bjørn Are Solstad, CEO, Devenia Ltd.

bjornfix

Bjørn Are Solstad, CEO, Devenia Ltd.

semb

Medlem

Kenneth Dreyer

Well-Known Member

semb

Medlem

bjornfix

Bjørn Are Solstad, CEO, Devenia Ltd.

Kenneth Dreyer

Well-Known Member

picxx

WF 09

bjornfix

Bjørn Are Solstad, CEO, Devenia Ltd.

semb

Medlem