Unngå duplikatinnhold - både robots.txt og robots-meta plugin?

moneymaker · 22 Nov 2011

Jeg er ikke så innmari dreven på dette med koding og sånt, men en robots-fil skal jeg klare å lage. Tror jeg.

Nå har jeg dog installert en plugin fordi det var det som gikk kjappest (jeg sparte minst 14 sekunder!). Denne pluginen: Meta Robots WordPress plugin - Yoast

Det jeg da lurer på: Trenger jeg å endre på robots.txt når jeg bruker denne pluginen? Gjør ikke disse to samme greia?

Speca · 23 Nov 2011

Det spørs hvor paranoid du er det. Selv har jeg rappet en del av wikipedia sin robot fil, samt tatt noen mer blogspesifikke. Jeg tror at jeg er så sikker jeg kan bli, både for duplikatinnhold og innhold som av ulike ønsker, ikke ønskes ranket. Noen har dog hevdet at min robotfil kan være skadelig for å ranke, men det kan jeg ikke se at har noen betydning ut fra erfaring.

min Robotfil ser slik ut:

Kode:

# This is your robots.txt file. Visit Options->Robots.txt to change this text.

User-agent: *
Disallow: /archives
Disallow: /privacy-policy-2
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /*/feed/*
Disallow: /readme.html
Disallow: /license.txt
Disallow: /search/
Disallow: /*?
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*rurl=*
Disallow: /trackback
Disallow: /comments
Disallow: /category/*/*
Disallow: /tag/
Disallow: */trackback
Disallow: */comments
Disallow: /2011/
Disallow: /2012/
Disallow: /*?*
Allow: /sitemap.xml.gz$
Allow: /wp-content/uploads/

# Google AdSense
User-agent: Mediapartners-Google
Disallow: 
Allow: /

# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*

# Crawlers that are kind enough to obey, but which we'd rather not have
# unless they're feeding search engines.

# Dugg Mirror
User-agent: duggmirror
Disallow: /

# Internet Archiver Wayback Machine
User-agent: ia_archiver
Disallow: /

User-agent: UbiCrawler
Disallow: /

User-agent: DOC
Disallow: /

User-agent: Zao
Disallow: /

# Some bots are known to be trouble, particularly those designed to copy
# entire sites. Please obey robots.txt.

User-agent: sitecheck.internetseer.com
Disallow: /

User-agent: Zealbot
Disallow: /

User-agent: MSIECrawler
Disallow: /

User-agent: SiteSnagger
Disallow: /

User-agent: WebStripper
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: Fetch
Disallow: /

User-agent: Offline Explorer
Disallow: /

User-agent: Teleport
Disallow: /

User-agent: TeleportPro
Disallow: /

User-agent: WebZIP
Disallow: /

User-agent: linko
Disallow: /

User-agent: HTTrack
Disallow: /

User-agent: Microsoft.URL.Control
Disallow: /

User-agent: Xenu
Disallow: /

User-agent: larbin
Disallow: /

User-agent: libwww
Disallow: /

User-agent: ZyBORG
Disallow: /

User-agent: Download Ninja
Disallow: /


# The grub distributed client has been *very* poorly behaved.
#
User-agent: grub-client
Disallow: /

# Doesn't follow robots.txt anyway, but...
#
User-agent: k2spider
Disallow: /

#
# Hits many times per second, not acceptable
# http://www.nameprotect.com/botinfo.html
User-agent: NPBot
Disallow: /

# A capture bot, downloads gazillions of pages with no public benefit
# http://www.webreaper.net/
User-agent: WebReaper
Disallow: /

moneymaker · 23 Nov 2011

Sa de noe om akkurat hvorfor robotfila di kan være skadelig for å ranke? Jeg kan godt tenke meg å ta i bruk noe lignende som denne (jeg bruker også wp, noe du tydeligvis også gjør. Ikke så langt i fra det jeg ønsker å ha i min egen robots-fil).

Speca · 24 Nov 2011

Det er rett og slett fordi enkelte mener at jeg sperrer av for mye. Selv mener jeg etter Google Panda at det er bedre å sperre for mye, enn for lite. Det skal ihvertfall være komplett umulig å få duplicate content på mitt oppsett med denne robotfilen.

(Privacy-policy-2 er forøvrig linken til personvern, om du skulle lure på den.) Har flere ganger før hatt personvernslink liggende ute i google, og derfor sperrer jeg den av.

Unngå duplikatinnhold - både robots.txt og robots-meta plugin?

moneymaker

Medlem

Speca

Medlem

moneymaker

Medlem

Speca

Medlem