Doppelter Content und Suchmaschinenoptimierung
22. April 2009 | Von stefan | Kategorie: Doppelter ContentWas ist „doppelter Content“?
Von doppeltem Content (= Inhalt) spricht man, wenn derselbe (Text-)inhalt unter verschiedenen URLs gefunden wird.
Suchmaschinen sind bestrebt, Suchenden möglichst hochwertige Suchergebnisse zu liefern. Selbst der Branchegigant Google kann es sich nicht leisten, irrelevante Suchergebnisse zurückzugeben, sonst schauen sich die Internetbenutzer bald nach alternativen Suchmaschinen um. Würde unter den ersten 10 Suchergebnissen mehrere Webseiten mit gleichem Textinhalt aufgelistet werden, so kann nicht von qualitativ hochwertigen Suchergebnissen gesprochen werden.
Daher werden Webseiten mit doppeltem Content aus den Suchergebnissen ausgeschlossen oder erst sehr weit hinten im Ranking angezeigt. Welche der gefundenen Websites mit doppeltem Content letztendlich vorne erscheint, hängt von der Stärke der jeweiligen Website ab: Wie gut ist ihr Pagerank? Wie viele Backlinks gibt es zu dieser Site? usw. Hier lassen sich die Suchmaschinenbetreiber nicht in die Karten schauen inwieweit welche Faktoren wie gewichtet werden.
Doppelter Content kann mehrere Ursachen haben:
- Webseitenbetreiber übernehmen (oder weniger gewählt ausgedrückt: klauen) gute Texte von anderen Webportalen, um sie auf ihrer eigenen Webseite anzubieten. Dies geschieht entweder manuell durch copy&paste oder automatisiert durch Spambots.
- Publizierung von Pressemitteilungen oder massenhaftes Publizieren desselben Artikels in mehreren Artikelverzeichnissen.
- Der Webmaster schaltet verschiedene Domains/Subdomains auf dieselbe Webseite oder aber die Inhalte sind versehentlich unter verschiedenen URLs auffindbar.
zu 1) Übernahme von Content durch Dritte
Dieses Thema wird unter Betroffenen leidenschaftlich diskutiert. Konsens besteht darin, dass Contentklau Diebstahl am geistigen Eigentum ist. Vor allem, wenn ein Text 1:1 übernommen wird. Websites, die den eigenen Text kurzerhand übernommen haben, lassen sich leicht ausfindig machen, indem repräsentative Textpassagen in Anführungsstrichen in das Suchfeld einer Suchmaschine eingegeben und ggf. zurückgegebene Ergebnisse geprüft werden. Alternativ bieten sich Tool wie Copyscape an.
Werden Webseiten gefunden, die sich der eigenen Textinhalte bedienen, scheiden sich die Geister über das weitere Vorgehen. Mancher schwört darauf, dem „Drittanbieter“ des eigenen Webtextes eine freundliche E-Mail zu schreiben mit der Bitte, den Text zu entnehmen oder umzuformulieren und mit Quellangabe zu versehen. Andere hingegen bedanken sich höflich für das Interesse an dem eigenen Text und schicken schon einmal eine Rechnung für dessen Nutzung mit. Wieder andere leiten rechtliche Schritte ein und verklagen den Contentdieb.
Wie bereits erwähnt kann Content manuell per copy and paste oder auch automatisiert „übernommen“ werden, z.B. durch Spambots. Diese lassen sich durch entsprechende Einträge in der .htaccess-Datei blockieren:
order deny,allow
deny from IP1
deny from IP2
deny from .url.de
allow from all
wobei IP1, IP2,… die IP des Spambots ist und .url.de die jeweilige URL der Website, die ungefragt und ungewollt Content von der eigenen Webpräsenz übernimmt.
Eine .htaccess-Datei lässt sich sehr einfach anlegen. Dazu wird eine Textdatei, z.B. mit Notepad erstellt und .htaccess genannt. Unter Windows ist diese Benennung nicht ohne weiteres möglich. Das Problem lässt sich dadurch umgehen, dass man die Datei htaccess.txt nennt, per FTP auf den Server lädt, dort in .htaccess umbenennt und von dort wieder zurück auf die eigene Festplatte kopiert.
Der Aufwand, nach und nach alle IPs bzw. URLs von Spambots in die .htaccess-Datei einzutragen, kann allerdings sehr groß werden. Hilfe bietet ein nettes PHP-Script von Bot Trap.
zu 3) Die Website ist unter verschiedenen URLs aufrufbar
Ein vermeidbarer Fehler ist, dass Webmaster absichtlich oder unwissentlich selbst für den doppelten Content sorgen. Vermieden werden sollte natürlich, mehrere URls auf denselben Webseiteninhalt zu schalten. Wer seine Domains www.meineDomain1.de, www.meineDomain2.de, www.meineDomain3.de auf denselben Webseiteninhalt leitet, braucht sich über das Auftreten von doppeltem Content nicht zu wundern.
Ein häufiger Fehler ist allerdings auch, dass die Website sowohl unter www.meineDomain.de, als auch unter http://meineDomain.de erreichbar ist (also einmal mit „www“ und einmal ohne). Dieses Problem lässt sich umgehen, indem eine mod_rewrite-Anweisung in die .htaccess-Datei geschrieben wird.
mod_rewrite erfordert entsprechende serverseitige Unterstützung durch das Apache-Modul.
Mit nachfolgendem Eintrag werden die URLs von (z.B.) http://meineDomain.de oder meineDomain.de automatisch auf http://www.meineDomain.de umgeschaltet und der Content ist nur noch unter dieser URL erreichbar:
RewriteEngine On
RewriteCond %{HTTP_HOST} ^meineDomain.de$ [NC]
RewriteRule ^(.*) http://www.meineDomain.de/$1 [L,R=301]
Doppelter Content kann auch auf anderem Wege entstehen. Indem z.B. der Inhalt der Website zusätzlich in druckbarer Form zur Verfügung gestellt wird und damit einmal in der normalen Webseitenansicht und einmal in der Druckversion vorliegt (www.meineDomain.de/interessantes.html, www.meineDomain/interessantes/print.html).
Auch andere Möglichkeiten sind denkbar: So wurde bei einem Kunden unter TYPO3 die Möglichkeit der Schriftgrößenänderung angeboten. Der Besucher kann die Schriftgröße „Normal“, „Größer“ und „Sehr groß“ auswählen. Eingesetzt wurde realURL zum Umschreiben der URL in Besucher- und suchmaschinenfreundliche URLs und mitgegeben wurde die Fontgröße über die URL:
- www.meineDomain.de/verzeichnis1/name.html (normale Schriftgröße)
- www.meineDomain.de/fs0/verzeichnis1/name.html (normale Schriftgröße)
- www.meineDomain.de/fs1/verzeichnis1/name.html (größere Schriftgröße)
- www.meineDomain.de/fs2/verzeichnis1/name.html (sehr große Schriftgröße)
Anmerkung: Eine Anleitung, wie sich Schriftgrößen mit CSS und TYPO3 auswählen lassen, ist nicht Gegenstand dieses Artikels.
Je nach Variable (fs=0, fs=1, fs=2) wird ein anderes CSS-Stylesheet mit entsprechender Fontgrößeneinstellung geladen.
Suchmaschinen haben dadurch den Content unter mehreren URLs gefunden. Unsere Aufgabe war, die Website so zu optimieren, dass kein doppelter Content mehr gefunden wird.
Ausweg: Die URLs mit fs0, fs1, fs2 werden aus der Indizierung ausgeschlossen:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 | #Webseiten ohne "fs" in der URL [globalVar = GP:Fsize<1] page.meta.robots = index,follow [END] #fs0 in URL [globalVar = GP:Fsize=0] page.meta.robots = noindex,nofollow [END] #fs1 in URL [globalVar = GP:Fsize=1] page.meta.robots = noindex,nofollow [END] #fs2 in URL [globalVar = GP:Fsize=2] page.meta.robots = noindex,nofollow [END] |
Der Vollständigkeit halber:
Dabei entspricht das „fs“ aus der URL:
fs0: Fsize=0, fs1: Fsize=1, fs2: Fsize=2.
Dies lässt sich durch eine Ergänzung in der localconf.php erreichen:
1 2 3 4 5 6 7 8 9 10 11 12 13 | $TYPO3_CONF_VARS['EXTCONF']['realurl']['_DEFAULT'] = array( 'preVars' => array( array( 'GETvar' => 'Fsize', 'valueMap' => array( 'fs0' => '0', 'fs1' => '1', 'fs2'=> '2', ), 'noMatch' => 'bypass', ), ), ); |













Gut geschriebener Artikel! Mein Kompliment
Vielen Dank für die Tipps - leuchtet ein.
Grüsse
mane
now-it-worx: Der Beitrag ist einleuchtend. Super verständlich beschrieben - bei einem Typo3 Prpjekt ausprobiert und nach einiger Zeit auch Erfolge erzielt. CopyScape ist nicht zu verachten.
Hallo,
sehr gut geschrieben. Selbst ein nicht so erfahrener User hat alles verstanden und mir wurde weitergeholfen. Vielen Dank.