Auch diesen Artikel habe ich für die WEBeLINE geschrieben – erschienen in der Maiausgabe 2009.
Doppelte Inhalte („Duplicate Content“ oder kurz „DC“) stellen Webmaster immer wieder vor Probleme. Auch wenn die Auswirkungen oft andere sind – denn in vielen Fällen sind andere Ursachen dafür verantwortlich, dass die eigene Website nicht so erfolgreich ist, wie gewünscht – DC sollte tunlichst vermieden werden, um bestmögliche Suchmaschinenplatzierungen zu erzielen.
Was ist Duplicate Content?
Als DC bezeichnet man identische oder fast identische Inhalte bzw. Seiten, welche unter verschiedenen URLs zu erreichen sind. Suchmaschinen nutzen zur eindeutigen Identifikation einer Seite die URL, was zur Folge hat, dass es sich bei den folgenden Beispielen – aus der Sicht der Suchmaschinen – um verschiedene Seiten handelt:
- http://www.domain.de/ vs. http://domain.de/ (Die Domain mit und ohne www)
- http://www.domain.de/ vs. http://www.domain.de/index.html (Die Startseite mit und ohne Dateiname)
- http://domain.de/inhalt/ vs. http://domain.de/inhalt/?print=1 (Die Druckansicht einer Website)
- http://domain.de/inhalt.html vs. http://domain.de/inhalt.html?affili=123 (Affiliate Tracking ID / Parameter)
- http://domain.de/datei.php vs. http://domain.de/datei.php?PHPSESSID=987654321 (Dynamische Session IDs)
Neben den oben genannten Beispielen gibt es etliche mehr, seien es nun Sortierungen von bestimmten Listen, Kampagnen Tracking oder gar ganze Versionen einer Website, erreichbar unter verschiedenen Domains. All dass ist aus Sicht der Suchmaschinen DC und grundsätzlich zu vermeiden.
Warum ist Duplicate Content problematisch?
Das Hauptaugenmerk der Suchmaschinen liegt darauf, dem Suchenden immer nur eine Version einer Seite in den Suchergebnissen anzuzeigen und eine möglichste breite Variation von verschiedenen Ergebnissen zu präsentieren. Aus diesem Grund haben sich die Suchmaschinen – und insbesondere Google – in der Vergangenheit bereits verstärkt diesem Problem gewidmet und in vielerlei Fällen klappt eine automatische Erkennung (und Filterung) dieser doppelten Inhalte auch sehr gut. Die Suchmaschinen versuchen also mittels automatisierter Erkennung und unter Hinzuziehung von verschiedenen Faktoren (Welche Seite wurde zuerst veröffentlicht? Welche URL hat die meisten Backlinks? Welche URL steht in der XML-Sitemap? etc.) eine sog. Canonical URL zu bestimmen, welche fortan in den Suchergebnissen präsentiert wird.
Das klingt erst einmal gut – in der Praxis funktioniert es aber nicht immer, wie gewünscht. Nimmt man hier als Seitenbereiter nicht aktiv Einfluss, kann es z.B. passieren, dass Google womöglich eine URL mit Affiliate Tracking ID wichtiger einschätzt, als die eigentliche URL der Portals… und diese Seite dann auch in den Suchergebnissen anzeigt – sicher nicht das gewünschte Ergebnis!
Ein weiteres Problem ist die „Verschwendung“ von Crawler Ressourcen der Suchmaschinen, denn um die Seiten als DC zu erkennen, müssen diese erst einmal besucht und anschließend analysiert werden. Bei massivem DC kann dies dazu führen, dass die eigene Seite nicht mehr vollständig von den Suchmaschinen indiziert wird, da pro Domain immer nur eine gewisse Anzahl von Unterseiten abgerufen und dann indiziert wird.
Außerdem soll nicht unerwähnt bleiben, dass DC auch im Zusammenhang mit externer Verlinkung problematisch ist: Wenn eine Seite unter mehreren URLs erreichbar ist, können externe Links auch auf diese verschiedene URLs zeigen – und nicht auf eine einzige URL. Dies führt dazu, dass keine der URLs die maximale Stärke (und damit die bestmögliche Platzierung) erreicht, da die Linkpower hier nicht gebündelt wird.
Das Canonical-Tag
Um hier Abhilfe zu schaffen und es dem Seitenbetreiber gezielt zu ermöglichen, Einfluss auf die Bestimmung der Canonical URL zu nehmen, haben die Suchmaschinen Google, Yahoo! und MSN/Live Anfang Februar 2009 die Unterstützung des Canonical-Tags bekannt gegeben. Es handelt sich dabei um ein HTML-Tag, welches im Kopfbereich der Seite – also innerhalb des
Mit dem „href“-Attribut wird angegeben, welche die „richtige“ Canonical-URL ist. Die Vorteile liegen klar auf der Hand: Einfache Verwendung, leicht zu implementieren und zusätzlich wird die „richtige“ URL verwendet – eigentlich perfekt. Eigentlich… denn der größte Nachteil ist, dass nach wie vor doppelte Inhalte existieren und das kann, wie oben beschrieben, dazu führen, dass die Website nicht vollständig indiziert wird, da die Crawler vorher alle Seiten abrufen müssen.
Welche Lösungen gibt es also?
Die definitiv beste Lösung ist sicher, eine solide Informationsarchitektur – kombiniert mit einer „sauberen“ URL Struktur – aufzubauen. Dies ist aber insbesondere bei fertigen Systemen wie Shops oder auch CMS eher selten der Fall sowie bei bereits bestehenden Websites oftmals nicht ohne großen Aufwand möglich. Hier empfiehlt es sich – von Fall zu Fall – verschiedene Lösungen zu implementieren:
1. 301-Redirects
Serverseitiges Umleiten aller doppelten URLs auf die „richtige“ URL – Suchmaschinen folgen diesen 301-Redirects und bestimmten die „richtige“ URL als Canonical.
2. Sperren von Parametern
Nutzen Sie entweder die robots.txt Datei, um einen Parameter vollständig für Suchmaschinen zu sperren (z.B. via: Disallow: /*parameter=) oder implementieren Sie eine Abfrage in Ihre Seite, welche auf die Existenz eines „ungewollten“ URL-Parameters prüft – wird dieser gefunden, nutzen Sie das Robots Meta Tag mit dem Wert „noindex“, um eine Indizierung zu verhindern. Ein großer Nachteil ist allerdings, dass möglicherweise Linkjuice verloren geht…
3. Hash-Tag als URL Trennzeichen verwenden
Suchmaschinen ignorieren das Hash-Tag in der URL: http://domain.de/datei.html#tracking=1 – hier würde „#tracking=1“ von den Suchmaschinen abgeschnitten werden. Ein JavaScript innerhalb der Website könnte diese Daten allerdings auslesen und weiterverarbeiten.
Fazit
Es ist nach wie vor unumgänglich, eine „saubere“ Website zu entwickeln und bereits von Beginn an darauf zu achten, dass doppelte Inhalte vollständig vermieden werden. Da der Einsatz des Canonical Tags nicht schaden kann, wäre es sicher nicht falsch, dass Tag direkt mit einzubauen – sozusagen als „Vorsorge“. Dabei sollte dann das „href“-Attribut des Tags einfach den Wert der richtigen Seite beinhalten – auch wenn dieses dann eigentlich immer mit der aufgerufenen URL übereinstimmt. Der Vorteil ist hier, wenn mal „versehentlich“ ein neuer Parameter eingeführt bzw. auf der Website verwendet wird oder gar jemand mit den URL Parametern „herumspielt“, kann hier kein Schaden durch DC entstehen.
Eine nützliche Firefox-Extension mit dem Namen Wahanda Canonical Tag Viewer spart bei der Implementierung und anschließenden Prüfung enorm viel Zeit. Die Software extrahiert die Canonical-URL aus dem Quelltext und zeigt diese direkt im Browser an – somit müssen Sie nicht für jede Seite den Quelltext öffnen und nach dem Tag suchen. Auch für die populäre Blogsoftware WordPress (hier) oder das Shop-System Magento (hier) gibt es bereits vorgefertigte Plugins, die die Verwendung des Tags ermöglichen und Ihnen eine Menge Arbeit abnehmen können.

[...] Grimm hat in seinem Blog einen Artikel über das Canonical Tag veröffentlicht, der ursprünglich im Magazin WEBeLINE erschienen ist. Er klärt auf, [...]