Duplikált tartalom

Longhand

16 years ago

Egyik leggyakrabban előforduló probléma és az a fajta jelenség ami legtöbb weboldal esetén nem is kerül felismerésre. Nem kevés forgalomtól eshet el a weboldal duplikált tartalommal (na és még környezetszennyező is).

Keresők részéről világosak az okai a duplikált tartalom ellen eszközölt kemény algoritmikus “intézkedéseknek”: elsősorban komoly veszély a találati listák minőségére, több találatra azonos vagy nagyban hasonló tartalmak listázása, másrészt pedig nem kevés terhelést jelenthetnek a kereső robotok számára a scriptekkel generált, reprodukált tartalmak.

(A SEO eszközök szekcióban találhatóak duplikált tartalmakat kereső eszközök)

Cikkemben leírom a tipikus duplikált tartalmat okozó hibákat, amelyekre érdemes figyelni, ha nem szeretnénk hátrasorolásokat a kulcsszavas helyezéseinkben vagy rosszabb esetben indexen kívülre kerülni, súlyosabb hibák által.

Duplikált tartalom – büntetés és a backlinkek

A keresők nagyon rosszul kezelik a duplikált tartalmakat néhány esetben, pl. amikor nem a tartalmat lopó oldal szenvedi a duplikált tartalom kárát, hanem az “eredeti” kerül 30 hellyel hátrébb a fő kulcsszavaira a keresőben.
Duplikált tartalom esetén a jó minőségű backlinkek legjobb eszközök a büntetés ellensúlyozására, kiegészítő találatokból való kikerülésre (tartalomlopás esetén – újrapublikáltak tartalmakat az oldalunkról és nincs más eszközünk a probléma megszüntetése ellen).

Jól mutatja, hogy többnyire backlinkek alapján mérlegel a Google kérdéses esetekben, az is, hogy az ún. article site-ok, remek találati helyen szerepelnek többszörösen publikált hosszú cikkekkel is. Tehát magas Pagerankel és nagyobb bizalommal rendelkező weblapok esetén könnyebben veszi a Google a duplikált tartalmat is…

Duplikált tartalom szintjei és büntetések

Teljes azonosság két weboldal között: mind az url struktúra, mind a tartalom azonos a két domainen, egyetlen apró különbséget csupán a domain neve adja.
Struktúrális azonosság és tartalmi hasonlóság a két weboldal között: lopott tartalomból scriptekkel generált a második oldal tartalma, néhány kisebb módosításoktól eltekintve megegyezik azzal az oldalról ahonnan a lopott tartalom származik.
Tartalmi hasonlóság néhány oldalon: két – vagy esetleg több webes forráson is publikált tartalom – , lehetnek azonos szöveges blokkok vagy teljes tartalmi átfedés is.
Teljesen azonos oldal struktúra, részlegesen hasonló tartalom.

Első és második esetnél egyértelmű az esély a teljes kizárásra, hogy a klón oldal teljes tartalma eltűnjön az indexből, harmadik esetben az előző bekezdésben tárgyaltakat kell számításba venni, különböző fajtái vannak a büntetésnek, egyik az amikor elsőoldalas találatot pontosan 30 hellyel sorolja hátra a Google.
Negyedik eset ritkább történet, gondoljunk olyan esetre amikor egy már működő link-katalógus url és kategória struktúráját másolják le új link-katalógus készítésekor, egy kis munkát megspórolva, ilyen esetekben is érzékelhet a kereső duplikációt, nem kell csodálkozni, ha az elején nehezen indul el forgalom a klónozott szerkezettel bíró instant directory website…
Utóbbin túl ezernyi módja lehet még a duplikációk azonosításának, úgy mint gyanú esetén többféle lenyomatok összehasonlítása, oldalak méretének összehasonlítása, talán majd ír valaki róla egy könyvet egyszer, térjünk rá gyakorlati példákra.

Duplikált tartalom – példák

Multiplikált URL-ek, ugyanazon oldalra hivatkozva:

https://www.domain.hu – https://www.domain.hu/index.htm
https://domain.hu – https://domain.hu/index.htm

Példák URL-ekre amelyek ugyanazon egy oldalra hivatkozhatnak és szerencsétlen esetben kereső a rossz linkelési technikának köszönhetően be is indexel többet vagy mindet, mert nem ismeri fel az url-ek duplikációját.
Ezekután az oldal multiplikált url-jein “folyik szét” a Pagerank, oszlik meg a relevancia.
Multiplikált URL-ek, hasonló tartalommal: paramétereket tartalmazó url-ek, amelyeknél az oldal kimenete számtalan rendezési formában más, de tartalomban ugyanaz.
Url-ben a felhasználóknak Session ID-t kölcsönző weboldalaknál hasonló a probléma.
“Nyomtatóbarát változat”: oldal nyomtatásra optimalizált verziója, amely tartalmában ugyanaz, csak formátumában különbözik. Ne felejtsük el ilyen oldalak esetén használni használni META tag-ek között a noindex parancsot (esetleg robots.txt)
Saját oldalon már megjelent cikk újrapublikálása más oldal(ak)on (pl. Wikipedia):a cikk elején már említett article site-okon való újrapublikálása egy bejegyzésünknek nem ajánlott, ha a keresők felől forgalmat várunk az adott cik révén.
Oldal típusának állandó sajátosságaiból adódó duplikációk: pl. webáruházak, ahol rengeteg újrapublikált termékinformáció kerül felsorolásra, halmozott hátrányt jelenthet, ha egy olyan elterjedt script alatt kerültek megvalósításra amiben SEO szempontból kritikus elemeknél nincs meg a változtatás lehetősége (Title, Description, …). Fokozottan kell ügyelni az ilyen jellegű oldalaknál a duplikációk kerülésére.
RSS aggregátor scriptekkel tartalmat építő oldalak: gyakori jelenség az RSS aggregátor megoldásokat alkalmazó több forrásból épülő tartalom, más oldalak (többnyire blogok) tartalmait újrapublikálása “hírgyűjtő” oldalakon. Bizonyos fokig talán ártalmatlan és felkészült a kereső az RSS elterjedése óta az ismétlődő snippetekre, de érdemes minél rövidebb tartalmat átadni a cikkből RSS-ben.
Lopott tartalom publikálásával duplikáció keletkezése: szó volt erről is már a cikkben, legkellemetlenebb probléma.
A https://copyscape.com oldalon található egy online alkalmazás ami segít duplikált tartalmak felkutatásában.

Ami esetleg kimaradt arról meg majd a kommentekben.